「JIS X 0208の青空文庫ファイルを長持ちさせるための一提案」について、検討します。
http://attic.neophilia.co.jp/aozora/task/nagamochi.html
提案の骨子
- JIS X 0208、シフトJISでファイルを作るという方針は、当面維持する。
- 0208にないもののうち、0213にあるものは、外字注記に面区点番号をそえてきた。それに加えて、ユニコードにあるものは、その番号を入れる。
- 番号のある外字注記は、表示側が文字に置き換えてくれることを期待する。(すでに、0213にあるものについては、多くの表示ソフトが、外字注記を文字に置き換えて表示している。)
- 0208と0213で包摂規準の扱いの変わる文字に付いては、印刷の世界を律してきた「正字意識」にそった変換処理を期待する。
実現に向けた検討課題
外字注記に加えるユニコードの番号の書き方
従来、0213にもない文字は、底本のページ数と行数をそえて、以下のように書いてきた。
※[#「革+干」、ページ数-行数]
ページ数と行数をそえていることは、将来、0208+0213を拡張するような文字コードが設定された場合、「どの本のどこに、追加すべき文字の用例があるか」を示すための準備である。
その備えを維持するのであれば、ページ数-行数は、変更後も残す。
番号は通常、U+976Cのように書かれるようだ。
ただし、青空文庫の外字注記辞書では、u976Cのように書いている。
二つの条件を組み合わせると、以下の選択肢があるだろう。
※[#「革+干」、U+976C、ページ数-行数]
※[#「革+干」、U+976C]
※[#「革+干」、u976C、ページ数-行数]
※[#「革+干」、u976C]
従来のu976Cのような書き方は、この際、U+976Cの様に改めた方がいいだろうとのコメントが、外字注記辞書作成グループからあった。
点検グループのメンバーからは、第5水準以降の策定に備えるという姿勢は保ち、ページ数-行数は残してはとのコメントがついた。
あわせると、以下になる。(富田)
※[#「革+干」、U+976C、ページ数-行数]
UCSを書き入れた外字注記も、青空文庫のXHTMLではそのまま残し、ファイル末にリストアップしておくという形だろうか。(富田)
▼ここから富田追記 2011年2月20日
「ページ数-行数」のみを書いてきた外字注記への、Unicode書き込みについて、複数のチャネルで話してきました。
検討の過程で、Unicodeを書いたものには、「ページ数-行数」はいらないのでは、という意見がありました。
「ページ数-行数」は、JIS X 0213を決める際の資料提出時に、「どの本にどんな字がある」というだけではなく、「どの本の、何ページの何行目に、どんな字がある」か、底本のコピーも添えて示すよう求められた体験を踏まえて添えてきました。
JIS漢字コードでは、字体差の取り扱いに関するルールと例外が、体系的に、比較的整った形で明示されています。
一方、Unicodeでは、そのコードを宛てて良いか、手探りの判断を迫られることが多いだろうと予想しています。
底本の字形にコードをあてる際、字体差についてどう判断したのかの資料作成にも配慮して、「ページ数-行数」は従来通り残すことにします。
・テキスト版の注記は、次のように変更します。
従来:※[#「木+于」、10-7]
変更後:※[#「木+于」、U+6745、10-7]
・XHTML版のファイル末は、以下のように変わります。
従来:「木+于」 10-7、39-13、39-18、40-8
変更後:「木+于」、U+6745 10-7、39-13、39-18、40-8
・関連する作業課題
「外字注記辞書」の改訂。
公開済みファイルの修正。
「注記一覧」への記載。
【テキスト中に現れる記号について】の以下の文言を、Unicodeも含む形に変更するか?
(数字は、JIS X 0213の面区点番号、または底本のページと行数)
近々「そらもよう」で告知して、作業課題に取り組みます。
▲ここで富田追記終わり
JIS X 0208と0213で包摂規準の変わる文字の扱い
どの文字について変わるか
78互換包摂の29文字
A 唖焔鴎噛侠躯鹸麹屡繍蒋醤蝉掻騨箪掴填顛祷涜嚢溌醗頬麺莱蝋攅
B 啞焰鷗嚙俠軀鹼麴屢繡蔣醬蟬搔驒簞摑塡顚禱瀆囊潑醱頰麵萊蠟攢
包摂規準の適用が除外される104字
A 侮併僧免勉勤卑即喝嘆器塚塀増墨寛層巣廊徴徳悔慨憎懲戻掲撃敏既晩暑暦朗梅概横欄歩歴殺毎海渉涙渚渇温漢瀬煮状猪琢瓶研碑社祉祈祐祖祝神祥禍禎福穀突節緑緒縁練繁署者臭著薫虚虜褐視諸謁謹賓頼贈逸郎都郷録錬隆難響頻類黄黒
B 侮倂僧免勉勤卑卽喝嘆器塚塀增墨寬層巢廊徵德悔慨憎懲戾揭擊敏既晚暑曆朗梅槪橫欄步歷殺每海涉淚渚渴溫漢瀨煮狀猪琢甁硏碑社祉祈祐祖祝神祥禍禎福穀突節綠緖緣練繁署者臭著薰虛虜褐視諸謁謹賓賴贈逸郞都鄕錄鍊隆難響頻類黃黑
包摂規準の適用が除外される10字(JIS X 0213:2004で追加)
A 倶剥叱呑嘘妍屏并痩繋
B 俱剝吞噓姸屛幷瘦繫
変わる文字をどう扱うか
底本では、これらのペアのB側が使われていたかもしれない。
ただし、「0208で作る」という条件に従ってきた青空文庫のファイルでは、すべてA側を例示字体とするコードで入力してきた。
たとえば、78互換包摂の29文字の場合、そのほとんどが、底本ではBだったのではないかと思われる。
ならば、UCS環境で表示する際に、AのコードをBに変換してやれば、底本により近い表示を提供できる。
包摂規準の適用が除外される文字については、底本が新字によるものか、旧字によるものかによって、もともとの字体がどちらであった可能性が高いか、推定できるのではないかと思われる。
推定に基づいて、新字モードと旧字モードでの振り分けリストを作成すれば、底本により近い形での表示が可能になるだろう。
振り分けリストの作成
誰かが作業してまとめ、提示して批判をあおぎ、定めた後は、表示ソフト開発者に採用を働きかける必要がある。
UCSのコードの当て方
UCSコード探しの豆知識
Unihan Databaseの部首画数索引
http://unicode.org/charts/unihanrsindex.html
フォント
下の(U+207C2)が私の環境(MacOS 10.6.4ではみえていない。)
http://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=207C2
フォントと、そのカバーする範囲が、わかっておりません。誰か、教えてください。
個人的には、UCSをあてる時の字体判定基準は、「例示字体とどんぴしゃ同じ場合」としてはと、ぼんやり思ってきた。
なぜかと言えば、第5水準以降の策定時などに、下の例で言えば、「山羊の歌」のそこにあるのはではなく、曾+刂にみえているという資料を残しておくことが必要ではないかと思ってきたから。
ただそうすると(U+207C2)は、「曾+りっとう」(中原中也「山羊の歌」にあり。)にあてられなくなる。
とはいえ、曽と曾と−刂を包摂する規準は、101にすでにあるので、そんなこだわりには実効性がないという見方もなりたちそう。
ここらへんは、どう考えればよいだろうか。
Comments (0)
You don't have permission to comment on this page.