| 
  • If you are citizen of an European Union member nation, you may not use this service unless you are at least 16 years old.

  • You already know Dokkio is an AI-powered assistant to organize & manage your digital files & messages. Very soon, Dokkio will support Outlook as well as One Drive. Check it out today!

View
 

txt2xhtmlの問題点と対処

This version was saved 13 years, 5 months ago View current version     Page history
Saved by michio TOMITA
on November 1, 2010 at 11:03:55 pm
 

テキスト版をXHTML版に変換するプログラムの問題点と対処についてまとめていきます。

変換プログラムは、「青空文庫 組版案内」の「変換してみる」で利用でき、「自分のPCで変換」からダウンロードできます。

 

0.2.0の修正

 

以下の変更を予定しています。

ご迷惑をかけると思います。ごめんなさい。

 

▽バグ修正

 

バグの修正は完了しました。(2010年10月26日現在)

11月1日公開分からは、修正済みプログラムで作ったXHTML版を公開していきます。

 

その際、目次生成スクリプト(contents.js)も、新しい見出しのタグ付けに対応したものに差し替えます。

本年5月から公開したファイルのうち、見出しをもつものの目次が動かなくなりますが、順次、作り直していきます。(2010年10月27日、富田)

 

▼metadataクラスの新設

 

ファイル冒頭のbody開始直後、main_textに入る前の作品名、著者名等を、新設したmetadataでクラス指定して、bodyに直接改行タグを書くことを回避。

 

▼見出しタグの入れ子の修正

 

<a><hn>...</hn></a>となっていたものを、<hn><a>...</a></hn>に修正。

 

▼midashi_anchor中のnameをidに置き換え

 

name属性を、id属性に置き換え。

 

▼目次生成プログラムの変更

 

見出しタグの入れ子の修正に対応する形で、目次生成スクリプト(contents.js)を変更。 → 新旧のプログラムを併置するのではなく、置き換えを予定。これによって、旧ファイルでは目次が生成されなくなるが、作り直しで対処する。

 

▼改行タグのバグ修正

 

ぶら下げ注記から、直接、字下げ注記に移行する部分の最初の段落の末に、改行タグが入らない問題を修正。

 

▼被ルビ文字の開始点を示す「|」のバグ修正

 

ファイル末の、bibliographical_informationと注記内の「|」が、変換後も残る問題を修正。

 

▼<、>、&、"のエスケープ

 

本文中の<、>、&、"を、代替文字列に置き換え。(ただし、アクセント分解中の&をのぞく。)

 

▼alt中の文字のへのタグ付けを停止

 

画像注記中の外字注記やアクセント分解等へのタグ付けを停止。

 

▽追加要素

 

以下の要素のうち、開始/終了型への対応については、記法が確定した段階で進めます。

クラス名の追加については、新しい要素なので、広く意見を求めてから採否、書き方を決めたいと思います。

 

▼ルビタグに変換される注記の開始/終了型に対応

 

新設予定の開始/終了型注記のタグ変換機能を盛り込む。

現在の記法案は、以下のとおり。

 

[#(左に)注記付き]……[#(左に)「○○」の注記付き終わり]

 

▼ルビタグへのクラス名の追加

 

振り仮名として使われているか、注釈かというルビの役割で、テキスト版の書き方は《》と注記に分けてある。ところがXHTMLに変換した際は、同じタグ付けとなって区別がつかない。

 

そこで、例えば《》を変換したものには「furigana」、注記を変換したものには「chushaku」といったクラス名を与えて区別し、音声変換時に親文字を読むか読まないか選べるようにする可能性も念頭において、構造化しておく。

 

振り仮名 <ruby class="furigana"><rb>所詮</rb><rp>(</rp><rt>しょせん</rt><rp>)</rp></ruby>

注釈 <ruby class="chushaku"><rb>所詮</rb><rp>(</rp><rt>結局</rt><rp>)</rp></ruby>

 

Comments (0)

You don't have permission to comment on this page.