| 
  • If you are citizen of an European Union member nation, you may not use this service unless you are at least 16 years old.

  • Dokkio Sidebar (from the makers of PBworks) is a Chrome extension that eliminates the need for endless browser tabs. You can search all your online stuff without any extra effort. And Sidebar was #1 on Product Hunt! Check out what people are saying by clicking here.

View
 

外字注記辞書に関する作業課題

Page history last edited by michio TOMITA 11 years, 3 months ago

青空文庫の入力は、JIS X 0208の文字を使って行い、その他の文字は、アクセント分解をのぞいて、外字注記で表している。

外字注記をどう書くかは、外字注記辞書(最新版は、第七版)にまとめている。

http://www.aozora.gr.jp/gaiji_chuki/

 

第八版の作業課題

 

従来から、JIS X 0213にある文字の外字注記には、コード(面区点番号)を入れてきた。

 

2011年2月28日からは、JIS X 0213になくてUnicodeにあるものにも、U+xxxxの形で、コードを入れることにした。(以下ではUnicode外字注記と呼ぶ。)

http://www.aozora.gr.jp/soramoyou/soramoyouindex.html#000380

 

この変更に伴って、外字注記辞書にもUnicodeを書き入れる作業を進めている。

 

Unicode外字注記に記載する字体説明

 

JIS X 0213にある漢字の字体説明は、規格票の例示字体をなぞる形で、次のように書いてきた。

 

※[#「口+二点しんにょうの達」、第4水準2-4-40]

 

しんにょうの一点、二点は、JISでは包摂される。

であるなら、より簡単に「口+達」と書く選択肢も考えられるが、外字注記辞書は、規格票の例示字体が二点なら、二点で説明するという立場をとってきた。

 

では、Unicode外字注記の字体説明は、どのように書けば良いのだろうか?

 

Unicodeで、どの漢字にどのコードが割り振られているかは、以下で提供されているPDFで確認できる。

 

Unicode 6.0 Character Code Charts

http://www.unicode.org/charts/

 

ここにある、CJK Unified Ideographs(Extension-AからExtension Dを含む。)と、CJK Compatibility Ideographsを引き落としておくと良い。

 

なお、CJK Unified Ideographs=CJK統合漢字と、CJK Compatibility Ideographs=CJK互換漢字については、以下を参照してほしい。

http://ja.wikipedia.org/wiki/CJK統合漢字

 

引き落としたCJK統合漢字のPDF、たとえばU4E00.pdfを開くと、一つのコードに対して、最大六つの字体が併記してある。(細部は異なっていても、これらは皆、同じ字とみなされる。)

 

ここには、日本の字体のためのJ欄が設けられているので、そこに記載があるものについては、それを説明することが考えられる。

ただし、これまで第七版にコードなしで記載してきたものとUnicodeを照合すると、J欄に字体が示されていないものが確認できる。

 

Jになかったとしても、他の欄にあれば、それを説明すればよいかもしれない。

ただし、「おそらくコードとしてはこれになるのではないか」と推測できるものの、どんぴしゃの字体が、どの欄にもないものがあった。

 

 

JISの漢字コードでは、細かな字体差によってコードを区別するか否かを定めた包摂規準が、規格の一部として定められている。

底本の文字を、あるコードで入れて良いか否かは、これを物差しにすれば、判断できる。

 

一方Unicodeでは、規格そのものの中には、字体差の取り扱いに関する包括的な約束事は設けられておらず、基本的な考え方の枠だけが、以下の文書で示されている。

 

http://standards.iso.org/ittf/PubliclyAvailableStandards/index.html

のISO/IEC10646:2003(E)をクリックして、得られる「c039921_ISO_IEC_10646_2003(E)」の「C039921e pdf」の「C039921e.pdf」の「S (informative) Procedure for the unification and arrangement of CJK Ideographs」

 

なお、ISO/IEC 10646とUnicodeの関係は、以下を参照してほしい。

http://ja.wikipedia.org/wiki/ISO/IEC_10646

 

字体差に関する約束事がないと、電子翻刻の作業においては、差異に向き合うたびに、そのコードで入れて良いか否かを、自分なりの方針なり、主観なりで決めざるを得ない。

そうした事情があってか、ISOのIRG(Ideographic Rapporteur Group)という作業グループが、包摂規準に相当する、「Series 1: List of UCV (Unifiable Component Variations) of Ideograhs( labeled as UCV)」という文書をまとめている。

http://appsrv.cse.cuhk.edu.hk/~irg/irgwds.html

 

UCVは、Unicodeが現実にどう決まっているかから帰納的に導きだされた、包摂規準相当のルール集である。(Unicodeでは、unificationに対して「統合」があてられるので、以下では、そう書く。)

 

参照してみると、JISの包摂規準がUCVの骨格となっており、そこにいくつか要素がプラスされた上で、区別しないという基本方針があるにもかかわらず、原規格分離によって、区別する形で入ってしまったものが、例外として記載されているのを確認できる。

 

Unicode領域で字体差を判定する際の物差しとしては、UCVが使えると考えた。

 

たとえば、青空文庫の作業対象に現れた、「二点しんにょう+勿」。

U+28465には「一点しんにょう+勿」が示されているが、この字にこのコードをあててよいか否かは、一点と二点のしんにょうを統合して良いかにかかる。

UCVを確認すると、245に両者は統合というルールがある。

これを、当てはめれば、「二点しんにょう+勿」には、U+28465を当てられると判断できる。

 

こうした諸点を踏まえれば、第八版におけるUnicode外字注記は、以下のように書くのが適当ではないかと考えた。

 

・字体説明は、底本に現れた文字をなぞる形で行う。

・それがUnicodeの六つの欄のどこかにあれば、そのコードを書く。

・どの欄にも、どんぴしゃの字体はないけれど、UCVを適用すれば、記載された字体に統合できる場合も、そのコードを書く。

・UCVを適用してもUnicodeにあてはまるものがなければ、コードは記載しない。

 

この方針を選べば、一つのコードに対する外字注記が、字体説明の異なりによって、複数となることがありうる。

 

UCVを適用してコードをあてた際は、外字注記辞書には、UCVの番号を添えておき、ファイル作成にあたっても、底本のどんな文字を、UCVを適用して何で入れたか、記載しておくことが考えられる。

 

UCVを適用するとJIS X 0208もしくは0213に戻ってしまうケース

 

Unicodeの文字に対してUCVを適用すると、一部の文字では、JIS X 0208もしくは0213にあるか否かについて、従来とは異なった判断を下さざるをえなくなることにも気づいた。

 

例えば、「さんずい+賣」である。

「※[#「さんずい+續のつくり」、第3水準1-87-29]」とは、罒と四が異なっており、これを区別しないとする包摂規準は、JISにはない。

そのために、従来なら「さんずい+賣」には、第3水準1-87-29はあてられないので、コードなしの外字注記としたはずである。

 

 

ただし、第八版では、JIS X 0213にないものは、Unicodeを探す。

すると、U+7006に「※[#「さんずい+續のつくり」、第3水準1-87-29]」と「さんずい+賣」が並記されており、両者の差を統合する規準として、UCVに227があると確認できる。

包摂にはないルールが統合側にはプラスされていて、そこで扱いに差が生じる。

 

さらに厄介なことには、青空文庫ではJIS X 0208で作業することにしており、規格のバグリストとでも言うべき互換包摂も受け入れるという立場をとっている。

それを適用すれば、「※[#「さんずい+續のつくり」、第3水準1-87-29]」は、「涜」のコードに包摂される。

 

「さんずい+賣」は、JIS X 0213にもないので、Unicodeに。

ところがそこでは、UCV227で、「※[#「さんずい+續のつくり」、第3水準1-87-29]」に統合とされて、JIS X 0213に逆戻り。

さらに互換包摂まで適用すれば、JIS X 0208の「涜」で入力することになるという、奇妙な逆向きの玉突きが生じる。

 

互換包摂には、本来分離するべきだったものをそうできなかったという、JIS X 0208の正誤表的な側面がある。その点を踏まえれば、例外的に「※[#「さんずい+續のつくり」、第3水準1-87-29]」でとめておくという選択も考えられる。

 

漢字以外の外字注記

 

工作員マニュアルでは、【アクセント符号付きのラテン文字】の項目に、アクセント分解の採用によって廃止された、以下の書き方に関する記述が残っている。

 

フランスには raffine[#eはアクサンテギュ(´)付き] という語がある。

刻み附けた ecriture[#1文字目のeはアクサンテギュ(´)付き] runique であろう。

 

アクセント分解で書けるものは、今後もその形で書く。

ただし、アクセント記号付きのギリシア文字に関しては、その対象とはなっておらず、なんらかの注記を用いて書かざるを得ない。

 

漢字の外字注記へのUnicode書き込みにこたえて、表示ソフトにはこれを、文字として表示するものが増えてきている。

 

この流れにそって、アクセント記号付きのギリシア文字についても、Unicodeを添えた外字注記形式で、以下のように書くよう、第八版では提案したいと考えている。

 

λ※[#鋭アクセント付きο、U+1F79、ページ数-行数]γο※[#ギリシア小文字ファイナルSIGMA、1-6-57]

 

Comments (0)

You don't have permission to comment on this page.