ISSN 2189-1621 / 2011年08月27日創刊
2021年7月30日に、京都大学人文科学研究所附属東アジア人文情報学研究センターが主催する「東洋学へのコンピュータ利用第34回研究セミナー」が開かれた[1]。本セミナーは同センターが1990年より30年以上もの間主催する歴史あるイベントである[2]。コロナウイルスの影響もあってか第33回(2021年3月5日)より会場の様子が動画にて同時配信されており、東京を中心に活動している筆者もオンラインにて視聴することが出来たため、渡りに船であった。今回は三つの発表が行われており、以下にそれぞれの所感を記す。
発表の内容は、主に行政の戸籍事務における各漢字の運用に対応するため、文字情報基盤など既存の文字体系をどのように活用していくべきかということについての議論であった。
近年は行政でも積極的にデジタル化が進められていることは周知の通りであり、発表でもマイナンバー制度の導入やデジタルガバメント実行計画などがその例として挙げられていた。とりわけ戸籍情報となると人名や地名などで特殊な書き方をする漢字が散見されるため、それらをどのようにデジタル化するのかは予てよりの課題と言える。同セミナーでも第31回に「日本の人名用漢字と漢字コードの齟齬」という題目の発表が行われているようで[3]、この課題への問題意識は広く持たれていると考えて良いだろう。
漢字のデジタル化に関しては、様々な形を持つ漢字において抽象度の粒度をどの程度に設定してどのように包摂するのか、という設定がまず重要となってくる。字形の異なる漢字においては、「語として(つまり字種として)別のものを示している差異」「異体字としての差異」「デザイン的な差異」など様々な基準を考えることが出来、一方でそこに誰もが納得するよう画一的に線を入れて分断させるのも到底出来そうにない。殊にこれが人名用漢字となってくると、それがアイデンティティを表すために、わずかなデザイン差にこだわりを持つ人が存在することも充分に理解出来る。自身の例で恐縮であるが、筆者の名字に使われている「片」の字形も、明治期の戸籍・昭和期の戸籍・現在の戸籍とそれぞれで若干形が異なっており、実際親族の中には「現在の戸籍にある漢字は自分の本当の名前ではない」と嘆いている者もいる。これら課題に今後どのように対応がなされるのかというのは、報告でも述べられていた通り行政がどのような基準を定めるかに大きく依存しており、その動向は注目に値する。
発表の内容は、漢字の書体の一つである小篆[4]を、IDS[5]を用いて小篆のまま記述しようとする試みであった。
小篆は秦代に成立したと伝えられる書体の一つで、現在でも判子などで使用されておりたまに見かけることが出来る。現在我々が日常用いている楷書の祖先に位置するもので、楷書と字形がほぼ同一のものもあれば類推が難しいほど字形の異なるものも存在している。また構成要素の形だけでなくそれらの構造情報も異なる場合が少なくない。発表で挙げられていた「進」字の例を挙げると、楷書ではこれを[⿺辶隹]という IDS で表現出来るが、実際の小篆ではと記述されているため IDS では[⿰]という表現となり、用いられる IDC が変わってしまう。このように、小篆が持つ様々な情報というのは楷書を軸に考えてばかりでは充分に導くことが出来ないのである。
本発表で示されたように小篆を小篆のままデジタルで記述出来るような環境が整理されることは、小篆研究には大きな一助となり得る。Unicode では小篆を含む漢字の古文字を文字コードとして割り当てていく指針が示されているものの[6]、現時点では小篆をそのままに Unicode テキストデータとして扱うことは出来ない。小篆以外にも、甲骨文字や、現在発見の著しい出土資料上の戦国文字などがテキストデータとして扱えるようになれば、その分野での研究能率というのは大きく向上するであろう。発表者の守岡氏は CHISE という文字処理環境を構築しており[7]、そこでは楷書の漢字についての記述情報が既に多く蓄積されている。こうした既存の情報を上手く援用しつつ古文字分野のテキスト処理が進展することは、非常に理想的である。
発表の内容は、先行研究として存在したアイヌ語 Universal Dependencies(以下、UD)に基づき、それに検討を加えて再構築する試みであった。
UD というのは、多言語に共通するツリーバンクのアノテーションを言語横断的に開発するプロジェクトである[8]。発表者の安岡氏はこの UD に多く関心を寄せているようで、近年では UD を用いた研究が他にも多く行われている[9]。
今回アイヌ語を研究対象とした動機の一つとして、公開されていた既存のアイヌ語 UD リポジトリが突如として閉鎖されてしまったことが語られていた。幸いながら、氏がそのクローンを手元に持っていたため、後続研究に活かされることとなったとのことである。ウェブ上には多くの有用なデジタルデータが蓄積されており、それを利用して研究を進展させられるというのはまさに現代ならではの特権ではあるが、一方で今回の事例のように元データが永続的にそのままであるという保証は乏しく、突然消えてしまったり予告なく改変されてしまったりすることも可能性としては大いに考えられるわけである。デジタルデータを利用する際には、特に元データに完全に依拠して引用している場合には、必ず考えなければならない点であり、氏のようにローカルに保存をしておくなど対応を工夫する必要が出てくる。今回の発表はこうしたデジタル利用の普遍的な問題も喚起してくれている。
他に議論の中で特に興味深かったのはアイヌ語の文字表記についてである。アイヌ語は独自の文字文化を持たず、その発音表記には仮名のほかアルファベットやキリル文字を利用するそうである。ある言語音声を文字化する際に複数の記述方法がある場合、どれを使ったテキストデータを元にするかによってどうしても分析に差異が生じ得ることになってしまう。とりわけ、これは発表でも言及されていたが、音素文字のアルファベットやキリル文字と違って仮名は音素を表現出来ない音節文字であり、他の二つとは性質が大きく異なる[10]。元データを適切に選択するという前提を築いておいて初めて分析の妥当性も保証されることになるわけで、今後本研究がどのような方針で進んでいくのか引き続き注目したい。
東洋学を主眼としたデジタルヒューマニティーズに関わるセミナーは、古代中国語を専門とする筆者の興味とも大きく重なるため、引き続きの開催を楽しみにしている。特に今回の守岡氏の発表のように古文字にまつわる研究が進展することは非常に喜ばしく、未だ充分に進んでいないこの分野のデジタル化を強く牽引してくれることを期待している。
冒頭でも述べたが、本セミナーは会場での対面発表をメインとし、その様子を映して配信もするというハイブリッド式での開催であった。質疑応答の際には配信視聴者ともやり取りを行っており、この方式を上手く活用出来ていた。願わくは、疫禍の収束後もオンラインにて視聴出来る機会は引き続き設けて貰いたい。
前号に続き日本文学ということで、今回は川平先生から巻頭言をいただきました。 英語圏の国々では15年程前に文学研究が DH を強力に牽引する 流れがあり、とりわけ、MLA(Modern Language Association)の DH への 注力ぶりには目を見張るものがありましたが、日本文学研究ではデジタル画像の撮影公開事業の隆盛に比して テキストの内容に対してデジタル技術を応用する動きはそれほど目立つものではなかったように 思います。しかしながら、 前号の日比先生からご紹介があったように、シカゴ大学の Hoyt Long 先生が日本文学を扱う本格的な DH の 本を刊行されたところでもあり、日本文学研究でもいよいよDHに 乗り出す流れができつつあるかもしれません。 このところデジタル画像の撮影公開を大規模に推進してきた国文学研究資料館でもしばらく前に 「データ駆動による課題解決型人文学の創成」 が公開されたところですが、こういった流れが人文学を 全体として振興することにも寄与してくださるとありがたいですね。 (永崎研宣)