ISSN 2189-1621

 

現在地

《巻頭言》「デジタル化の粒度と人文情報学」

◇「デジタル化の粒度と人文情報学」
 (上地宏一:大東文化大学)

人文情報学において、人文情報のデジタル化は重要なトピックであり、多くの研究
者が関与しています。デジタル化というのは例えば音声情報の場合、標本化:アナ
ログ波形を一定間隔でサンプリングすること、量子化:サンプリングした波の強度
を(整)数値で表現すること、および符号化:決められた方式を用いて実際にデー
タ化する、の3段階となっています。文字情報の場合、文字コードと呼ばれる文字と
数値を1対1で結びつける表をもとに文字列を数値列に置き換え、その後符号化によ
りデジタルデータとなります。いずれにしても情報を数値化することがデジタル化
の本質です。

さて、アナログ情報をデジタル化すると情報を離散値として扱うためにどうしても
誤差が生じて完全に元には戻せなくなってしまいます。そこで限りなく元の情報に
近づけるために、標本化や量子化の粒度を細かくします。技術の発展によって、さ
まざまな分野におけるデジタル化の粒度はどんどん細かくなってきました。身近な
例で挙げるとすればデジタルカメラが適切でしょう。1995年に発売され大ヒットと
なったカシオ社製デジタルカメラQV-10は8万画素(パソコンに取り込んだ後の画素
数)でしたが、現在ではiPhoneのカメラが800万画素の機能を持っています。このよ
うに、どんどん技術が進歩すれば我々の身の回りのデジタル情報が限りなくリッチ
になっていくのかといえば、そうでもないようです。最近のデジタルカメラで撮っ
た写真ファイルをメールで友人に送ろうとすると、サイズが大きすぎて送れない、
といった経験はないでしょうか。メガピクセルの数字が大きくなるのはいいけど、
撮った写真がそんなに変わるかな、と疑問に思った人もいるのではないでしょうか。
今ふと立ち止まって、我々に必要なデジタル化の粒度はどれぐらいなのだろうか、
と考えてみる必要があるのかもしれません。

話を少し私の研究分野に寄せてみたいと思います。私は漢字字形のコンピュータ処
理が専門です。先ほど文字情報をデジタル化する際に文字コードと呼ばれる表を用
いると書きましたが、文字コードの世界でも粒度が問題となっています。

例として渡辺さんの「辺」の字を挙げてみたいと思います。おそらくこのメルマガ
が送信されるときに用いられる文字コードでは「辺」のほかに「邊」と「邉」の異
体字(字典上は「邊」が正字ですが、便宜上異体字と表現します)を合わせて3種類
までを書き分けることができます。DTPの現場では独自の文字コード(厳密には字形
セット)を利用していて、「邊」と「邉」に対して合わせて23種類のバリエーショ
ンが用意されていましたが、2007年に国際文字コードであるUnicodeのIVS(IVD)に
この字形セットが登録されたため、理論上は24種類の「辺」を書き分けられるよう
になりました。IVSというのは日本語では異体字セレクタと呼び、一種の結合文字と
して字形を細かく指定するものです。IVDに字形セットを登録することでIVSを用い
てデジタルテキストにおいて異体字を細かく表現することができます。先ほど理論
上と書きましたが、実際にはフォントやOS、アプリケーションがIVSに対応して初め
て使うことができるようになります。

話はこれにとどまりません。日本では経済産業省の施策により、人名等に関する異
体字が収集・整理され、2010年にはその一部がIVDに追加されました。その結果IVS
を用いて先の24種類とは別の集合として50種類の「辺」を書き分けることができま
す。最終的にはさらに数が増えることになるようです。私はまだ年賀状準備のさな
かですが、パソコンで「わたなべ」と入力して変換すると50種類の渡辺さんの候補
が並ぶ…、そんな状況がはたして「リッチなデジタル文化」と言えるのでしょうか?

このたぐいの話は今に始まったことではなく、この10年来、文字コードの膨張によ
る弊害として問題となってきましたが、一部の専門家・実務者の間でのみ議論され
てきたことが、いよいよ身近な問題になろうとしています。解決策としては別次元
において異体字情報を持っておくことで、必要に応じてユーザーに提示する異体字
の粒度を調節するといったことが考えられます。つまりは無尽蔵にデジタル化の粒
度が上がっても人間は混乱するだけであるということです。このことは文字コード
の世界だけでなく、人文情報学の他の分野においても忘れてはならないことではな
いかと思いますが、いかがでしょうか。

執筆者プロフィール
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
上地宏一(かみち・こういち)大東文化大学外国語学部講師・博士(政策・メディ
ア)。情報処理学会(人文科学とコンピュータ研究会)所属、漢字文献情報処理研
究会副代表。研究テーマは漢字字形(特に異体字)のコンピュータ処理であるが、
現職着任後は学部生時代からのサブテーマでもある語学デジタル教材・CALLシステ
ムに関する研究開発にも手を広げている。

Copyright (C) KAMICHI, Koichi 2011- All Rights Reserved.
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

DHM 005

Tweet: