| 
  • If you are citizen of an European Union member nation, you may not use this service unless you are at least 16 years old.

  • You already know Dokkio is an AI-powered assistant to organize & manage your digital files & messages. Very soon, Dokkio will support Outlook as well as One Drive. Check it out today!

View
 

 JIS X 0208のファイルのUCS環境での表示(ご長寿プロジェクト)

This version was saved 13 years, 6 months ago View current version     Page history
Saved by michio TOMITA
on September 18, 2010 at 11:12:49 am
 

「JIS X 0208の青空文庫ファイルを長持ちさせるための一提案」について、検討します。

http://attic.neophilia.co.jp/aozora/task/nagamochi.html

 

提案の骨子

 

  • JIS X 0208、シフトJISでファイルを作るという方針は、当面維持する。 
  • 0208にないもののうち、0213にあるものは、外字注記に面区点番号をそえてきた。それに加えて、ユニコードにどんぴしゃ同じ形があるものは、その番号を入れる。
  • 番号のある外字注記は、表示側が文字に置き換えてくれることを期待する。(すでに、0213にあるものについては、多くの表示ソフトが、外字注記を文字に置き換えて表示している。) 
  • 0208と0213で包摂規準の扱いの変わる文字に付いては、印刷の世界を律してきた「正字意識」にそった変換処理を期待する。 

 

実現に向けた検討課題

 

外字注記に加えるユニコードの番号の書き方

 

従来、0213にもない文字は、底本のページ数と行数をそえて、以下のように書いてきた。

 

※[#「革+干」、ページ数-行数]
 

ページ数と行数をそえていることは、将来、0208+0213を拡張するような文字コードが設定された場合、「どの本のどこに、追加すべき文字の用例があるか」を示すための準備である。

 

その備えを維持するのであれば、ページ数-行数は、変更後も残す。

 

番号は通常、U+976Cのように書かれるようだ。

ただし、青空文庫の外字注記辞書では、u976Cのように書いている。

 

二つの条件を組み合わせると、以下の選択肢があるだろう。

 

※[#「革+干」、U+976C、ページ数-行数]
※[#「革+干」、U+976C]

※[#「革+干」、u976C、ページ数-行数]

※[#「革+干」、u976C]

JIS X 0208と0213で包摂規準の変わる文字の扱い

 

どの文字について変わるか

 

78互換包摂の29文字

 

A 唖焔鴎噛侠躯鹸麹屡繍蒋醤蝉掻騨箪掴填顛祷涜嚢溌醗頬麺莱蝋攅

B 啞焰鷗嚙俠軀鹼麴屢繡蔣醬蟬搔驒簞摑塡顚禱瀆囊潑醱頰麵萊蠟攢

 

包摂規準の適用が除外される104字

 

A 侮併僧免勉勤卑即喝嘆器塚塀増墨寛層巣廊徴徳悔慨憎懲戻掲撃敏既晩暑暦朗梅概横欄歩歴殺毎海渉涙渚渇温漢瀬煮状猪琢瓶研碑社祉祈祐祖祝神祥禍禎福穀突節緑緒縁練繁署者臭著薫虚虜褐視諸謁謹賓頼贈逸郎都郷録錬隆難響頻類黄黒

B 侮倂僧免勉勤卑卽喝嘆器塚塀增墨寬層巢廊徵德悔慨憎懲戾揭擊敏既晚暑曆朗梅槪橫欄步歷殺每海涉淚渚渴溫漢瀨煮狀猪琢甁硏碑社祉祈祐祖祝神祥禍禎福穀突節綠緖緣練繁署者臭著薰虛虜褐視諸謁謹賓賴贈逸郞都鄕錄鍊隆難響頻類黃黑

 

包摂規準の適用が除外される10字(JIS X 0213:2004で追加)

 

A 倶剥叱呑嘘妍屏并痩繋

B 俱剝𐮟吞噓姸屛幷瘦繫 𠮟

 

変わる文字をどう扱うか

 

底本では、これらのペアのB側が使われていたかもしれない。

ただし、「0208で作る」という条件に従ってきた青空文庫のファイルでは、すべてA側を例示字体とするコードで入力してきた。

 

たとえば、78互換包摂の29文字の場合、そのほとんどが、底本ではBだったのではないかと思われる。

ならば、UCS環境で表示する際に、AのコードをBに変換してやれば、底本により近い表示を提供できる。

 

包摂規準の適用が除外される文字については、底本が新字によるものか、旧字によるものかによって、もともとの字体がどちらであった可能性が高いか、推定できるのではないかと思われる。

 

推定に基づいて、新字モードと旧字モードでの振り分けリストを作成すれば、底本により近い形での表示が可能になるだろう。

 

振り分けリストの作成

 

他の選択肢

 

UCSをあてる時の字体判定基準は、「例示字体とどんぴしゃ同じ場合」だけに限るのが妥当だろうか?

そうした場合「曽+りっとう」のU+207C2は、「曾+りっとう」(中原中也「山羊の歌」にあり。)に対してあてられなくなる。

CJK統合規準にあるものは、受け入れるといった選択もあって良いのか?

 

 

 

 

 

 

 

 

 

Comments (0)

You don't have permission to comment on this page.