「JIS X 0208の青空文庫ファイルを長持ちさせるための一提案」について、検討します。
http://attic.neophilia.co.jp/aozora/task/nagamochi.html
従来、0213にもない文字は、底本のページ数と行数をそえて、以下のように書いてきた。
※[#「革+干」、ページ数-行数]
ページ数と行数をそえていることは、将来、0208+0213を拡張するような文字コードが設定された場合、「どの本のどこに、追加すべき文字の用例があるか」を示すための準備である。
その備えを維持するのであれば、ページ数-行数は、変更後も残す。
番号は通常、U+976Cのように書かれるようだ。
ただし、青空文庫の外字注記辞書では、u976Cのように書いている。
二つの条件を組み合わせると、以下の選択肢があるだろう。
※[#「革+干」、U+976C、ページ数-行数]
※[#「革+干」、U+976C]
※[#「革+干」、u976C、ページ数-行数]
※[#「革+干」、u976C]
従来のu976Cのような書き方は、この際、U+976Cの様に改めた方がいいだろうとのコメントが、外字注記辞書作成グループからあった。
点検グループのメンバーからは、第5水準以降の策定に備えるという姿勢は保ち、ページ数-行数は残してはとのコメントがついた。
あわせると、以下になる。(富田)
※[#「革+干」、U+976C、ページ数-行数]
UCSを書き入れた外字注記も、青空文庫のXHTMLではそのまま残し、ファイル末にリストアップしておくという形だろうか。(富田)
▼ここから富田追記 2011年2月20日
「ページ数-行数」のみを書いてきた外字注記への、Unicode書き込みについて、複数のチャネルで話してきました。
検討の過程で、Unicodeを書いたものには、「ページ数-行数」はいらないのでは、という意見がありました。
JIS漢字コードでは、字体差の取り扱いに関するルールと例外が、体系的に、比較的整った形で明示されています。
一方、Unicodeでは、そのコードを宛てて良いか、手探りの判断を迫られることが多いだろうと予想しています。
底本の字形にコードをあてる際、字体差についてどう判断したのかの資料作成にも配慮して、「ページ数-行数」は従来通り残すことにします。
従来:「木+于」 10-7、39-13、39-18、40-8
変更後:「木+于」、U+6745 10-7、39-13、39-18、40-8
【テキスト中に現れる記号について】の以下の文言を、Unicodeも含む形に変更するか?
(数字は、JIS X 0213の面区点番号、または底本のページと行数)
A 唖焔鴎噛侠躯鹸麹屡繍蒋醤蝉掻騨箪掴填顛祷涜嚢溌醗頬麺莱蝋攅
B 啞焰鷗嚙俠軀鹼麴屢繡蔣醬蟬搔驒簞摑塡顚禱瀆囊潑醱頰麵萊蠟攢
ただし、「0208で作る」という条件に従ってきた青空文庫のファイルでは、すべてA側を例示字体とするコードで入力してきた。
たとえば、78互換包摂の29文字の場合、そのほとんどが、底本ではBだったのではないかと思われる。
ならば、UCS環境で表示する際に、AのコードをBに変換してやれば、底本により近い表示を提供できる。
包摂規準の適用が除外される文字については、底本が新字によるものか、旧字によるものかによって、もともとの字体がどちらであった可能性が高いか、推定できるのではないかと思われる。
推定に基づいて、新字モードと旧字モードでの振り分けリストを作成すれば、底本により近い形での表示が可能になるだろう。
誰かが作業してまとめ、提示して批判をあおぎ、定めた後は、表示ソフト開発者に採用を働きかける必要がある。
http://unicode.org/charts/unihanrsindex.html
下の(U+207C2)が私の環境(MacOS 10.6.4ではみえていない。)
http://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=207C2
フォントと、そのカバーする範囲が、わかっておりません。誰か、教えてください。
個人的には、UCSをあてる時の字体判定基準は、「例示字体とどんぴしゃ同じ場合」としてはと、ぼんやり思ってきた。
なぜかと言えば、第5水準以降の策定時などに、下の例で言えば、「山羊の歌」のそこにあるのはではなく、曾+刂にみえているという資料を残しておくことが必要ではないかと思ってきたから。
ただそうすると(U+207C2)は、「曾+りっとう」(中原中也「山羊の歌」にあり。)にあてられなくなる。
とはいえ、曽と曾と−刂を包摂する規準は、101にすでにあるので、そんなこだわりには実効性がないという見方もなりたちそう。
▼ここからkompass追記 2011年3月12日
中原中也「山羊の歌」中「月」にみられる外字「曾+りっとう」についてまとめました。http://www5b.biglobe.ne.jp/~kompas/yagino_uta/yagino_uta.html
結論は明確なものではないのですが、UCSコードをあてるときに、CJK統合漢字符号表の例示体とどんぴしゃの場合のみとするか、ある程度推定できる理由があればいいとするかの選択です。
牧野富太郎「植物記」を入力しているのですが、JISX213にない外字が21個ありました。それにUCSをあてた一覧も公表しました。
http://www5b.biglobe.ne.jp/~kompas/shokubutsu/shokubutsu1.html
これをみると、「竹かんむり/約」はどんぴしゃではないがU+7BB9をあてるのは妥当だと思われます。
▲ここでkompass追記終わり。