ISSN 2189-1621

 

現在地

DHM 122 【後編】

人文情報学月報/Digital Humanities Monthly


人文情報学月報第122号【後編】

Digital Humanities Monthly No. 122-2

ISSN 2189-1621 / 2011年08月27日創刊

2021年09月30日発行 発行数748部

【前編】

  • 《巻頭言》「日本古典テキストデータベース構築への期待
    川平敏文九州大学大学院人文科学研究院
  • 《連載》「Digital Japanese Studies 寸見」第78回
    機械に助けを求めるということ:記録史料記述の差別的文言検査ツールに触れて
    岡田一祐北海学園大学人文学部
  • 《連載》「欧州・中東デジタル・ヒューマニティーズ動向」第39回
    デジタル東洋学ウェブマガジン The Digital Orientalist の歴史とそのコミュニティ
    宮川創京都大学大学院文学研究科附属文化遺産学・人文知連携センター

【後編】

  • 人文情報学イベント関連カレンダー
  • イベントレポート「ワークショップ「東洋学へのコンピュータ利用第34回研究セミナー」
    片倉峻平東京大学大学院人文社会系研究科
  • 編集後記

人文情報学イベント関連カレンダー

【2021年10月】

【2021年11月】

【2021年12月】

  • 2021-12-11 (Sat)~2021-12-12 (Sun)
    じんもんこん2021:「越境する」デジタルヒューマニティーズから「総合知」へ
    於・オンライン

    http://jinmoncom.jp/sympo2021/index.html

Digital Humanities Events カレンダー共同編集人

小林雄一郎日本大学生産工学部
瀬戸寿一駒澤大学文学部地理学科
佐藤 翔同志社大学免許資格課程センター
永崎研宣一般財団法人人文情報学研究所
亀田尭宙国立歴史民俗博物館研究部情報資料研究系
堤 智昭筑波大学人文社会系
菊池信彦関西大学アジア・オープン・リサーチセンター

イベントレポート「ワークショップ「東洋学へのコンピュータ利用第34回研究セミナー」

片倉峻平東京大学大学院人文社会系研究科

2021年7月30日に、京都大学人文科学研究所附属東アジア人文情報学研究センターが主催する「東洋学へのコンピュータ利用第34回研究セミナー」が開かれた[1]。本セミナーは同センターが1990年より30年以上もの間主催する歴史あるイベントである[2]。コロナウイルスの影響もあってか第33回(2021年3月5日)より会場の様子が動画にて同時配信されており、東京を中心に活動している筆者もオンラインにて視聴することが出来たため、渡りに船であった。今回は三つの発表が行われており、以下にそれぞれの所感を記す。

戸籍情報システムを取り巻く環境変化と文字情報基盤の活用について

北舛和博・向井章(富士フィルムシステムサービス)

発表の内容は、主に行政の戸籍事務における各漢字の運用に対応するため、文字情報基盤など既存の文字体系をどのように活用していくべきかということについての議論であった。

近年は行政でも積極的にデジタル化が進められていることは周知の通りであり、発表でもマイナンバー制度の導入やデジタルガバメント実行計画などがその例として挙げられていた。とりわけ戸籍情報となると人名や地名などで特殊な書き方をする漢字が散見されるため、それらをどのようにデジタル化するのかは予てよりの課題と言える。同セミナーでも第31回に「日本の人名用漢字と漢字コードの齟齬」という題目の発表が行われているようで[3]、この課題への問題意識は広く持たれていると考えて良いだろう。

漢字のデジタル化に関しては、様々な形を持つ漢字において抽象度の粒度をどの程度に設定してどのように包摂するのか、という設定がまず重要となってくる。字形の異なる漢字においては、「語として(つまり字種として)別のものを示している差異」「異体字としての差異」「デザイン的な差異」など様々な基準を考えることが出来、一方でそこに誰もが納得するよう画一的に線を入れて分断させるのも到底出来そうにない。殊にこれが人名用漢字となってくると、それがアイデンティティを表すために、わずかなデザイン差にこだわりを持つ人が存在することも充分に理解出来る。自身の例で恐縮であるが、筆者の名字に使われている「片」の字形も、明治期の戸籍・昭和期の戸籍・現在の戸籍とそれぞれで若干形が異なっており、実際親族の中には「現在の戸籍にある漢字は自分の本当の名前ではない」と嘆いている者もいる。これら課題に今後どのように対応がなされるのかというのは、報告でも述べられていた通り行政がどのような基準を定めるかに大きく依存しており、その動向は注目に値する。

説文小篆に対する漢字構造記述の試み

守岡知彦(京都大学)

発表の内容は、漢字の書体の一つである小篆[4]を、IDS[5]を用いて小篆のまま記述しようとする試みであった。

小篆は秦代に成立したと伝えられる書体の一つで、現在でも判子などで使用されておりたまに見かけることが出来る。現在我々が日常用いている楷書の祖先に位置するもので、楷書と字形がほぼ同一のものもあれば類推が難しいほど字形の異なるものも存在している。また構成要素の形だけでなくそれらの構造情報も異なる場合が少なくない。発表で挙げられていた「進」字の例を挙げると、楷書ではこれを[⿺辶隹]という IDS で表現出来るが、実際の小篆では小篆「進」の画像と記述されているため IDS では[⿰IDS「進」の画像1IDS「進」の画像2]という表現となり、用いられる IDC が変わってしまう。このように、小篆が持つ様々な情報というのは楷書を軸に考えてばかりでは充分に導くことが出来ないのである。

本発表で示されたように小篆を小篆のままデジタルで記述出来るような環境が整理されることは、小篆研究には大きな一助となり得る。Unicode では小篆を含む漢字の古文字を文字コードとして割り当てていく指針が示されているものの[6]、現時点では小篆をそのままに Unicode テキストデータとして扱うことは出来ない。小篆以外にも、甲骨文字や、現在発見の著しい出土資料上の戦国文字などがテキストデータとして扱えるようになれば、その分野での研究能率というのは大きく向上するであろう。発表者の守岡氏は CHISE という文字処理環境を構築しており[7]、そこでは楷書の漢字についての記述情報が既に多く蓄積されている。こうした既存の情報を上手く援用しつつ古文字分野のテキスト処理が進展することは、非常に理想的である。

アイヌ語 Universal Dependencies 再考

安岡孝一(京都大学)

発表の内容は、先行研究として存在したアイヌ語 Universal Dependencies(以下、UD)に基づき、それに検討を加えて再構築する試みであった。

UD というのは、多言語に共通するツリーバンクのアノテーションを言語横断的に開発するプロジェクトである[8]。発表者の安岡氏はこの UD に多く関心を寄せているようで、近年では UD を用いた研究が他にも多く行われている[9]。

今回アイヌ語を研究対象とした動機の一つとして、公開されていた既存のアイヌ語 UD リポジトリが突如として閉鎖されてしまったことが語られていた。幸いながら、氏がそのクローンを手元に持っていたため、後続研究に活かされることとなったとのことである。ウェブ上には多くの有用なデジタルデータが蓄積されており、それを利用して研究を進展させられるというのはまさに現代ならではの特権ではあるが、一方で今回の事例のように元データが永続的にそのままであるという保証は乏しく、突然消えてしまったり予告なく改変されてしまったりすることも可能性としては大いに考えられるわけである。デジタルデータを利用する際には、特に元データに完全に依拠して引用している場合には、必ず考えなければならない点であり、氏のようにローカルに保存をしておくなど対応を工夫する必要が出てくる。今回の発表はこうしたデジタル利用の普遍的な問題も喚起してくれている。

他に議論の中で特に興味深かったのはアイヌ語の文字表記についてである。アイヌ語は独自の文字文化を持たず、その発音表記には仮名のほかアルファベットやキリル文字を利用するそうである。ある言語音声を文字化する際に複数の記述方法がある場合、どれを使ったテキストデータを元にするかによってどうしても分析に差異が生じ得ることになってしまう。とりわけ、これは発表でも言及されていたが、音素文字のアルファベットやキリル文字と違って仮名は音素を表現出来ない音節文字であり、他の二つとは性質が大きく異なる[10]。元データを適切に選択するという前提を築いておいて初めて分析の妥当性も保証されることになるわけで、今後本研究がどのような方針で進んでいくのか引き続き注目したい。

東洋学を主眼としたデジタルヒューマニティーズに関わるセミナーは、古代中国語を専門とする筆者の興味とも大きく重なるため、引き続きの開催を楽しみにしている。特に今回の守岡氏の発表のように古文字にまつわる研究が進展することは非常に喜ばしく、未だ充分に進んでいないこの分野のデジタル化を強く牽引してくれることを期待している。

冒頭でも述べたが、本セミナーは会場での対面発表をメインとし、その様子を映して配信もするというハイブリッド式での開催であった。質疑応答の際には配信視聴者ともやり取りを行っており、この方式を上手く活用出来ていた。願わくは、疫禍の収束後もオンラインにて視聴出来る機会は引き続き設けて貰いたい。

[1] http://www.kanji.zinbun.kyoto-u.ac.jp/seminars/oricom/2021-7.html(各発表の予稿 PDF もこちらから入手出来る)。
[3] 安岡孝一・安岡素子「日本の人名用漢字と漢字コードの齟齬」、『東洋学へのコンピュータ利用 第31回研究セミナー』、pp. 3–27、2019(http://hdl.handle.net/2433/244024)。
[4] 厳密には、発表で用いられていたものは『説文解字』という古書に現れる「説文小篆」に限定されたものであったが、ここでは単純化して「小篆」と表現している。
[5] IDS(Ideographic Description Sequence)は、ISO/IEC 10646の一部として標準化されている漢字構成記述文字列で、漢字の配置構造と構成要素を並べることで一つの漢字を示すことが出来る。配置構造を示すもの(⿺や⿰など)は、IDC と呼ばれる。
[9] 安岡孝一「漢文の依存文法解析にもとづく自動訓読システム」、『日本漢字学会第3回研究大会予稿集』、pp. 60–73、2020(http://hdl.handle.net/2433/259315)。安岡孝一「Universal Dependencies にもとづく多言語係り受け可視化ツール deplacy」、『じんもんこん2020論文集』、pp. 95–100、2020(http://id.nii.ac.jp/1001/00208581/)、など。
[10] 例えば、日本語のか行の場合、アルファベットを使ったローマ字表記であれば「ka ki k u ke ko」と、そこに共通する子音 k があることを示せるが、片仮名表記では「カ キ ク ケ コ」と、そこに子音が共通していることを文字表記だけでは見出せない。
Copyright(C) KATAKURA, Shumpei 2021– All Rights Reserved.

◆編集後記

前号に続き日本文学ということで、今回は川平先生から巻頭言をいただきました。 英語圏の国々では15年程前に文学研究が DH を強力に牽引する 流れがあり、とりわけ、MLA(Modern Language Association)の DH への 注力ぶりには目を見張るものがありましたが、日本文学研究ではデジタル画像の撮影公開事業の隆盛に比して テキストの内容に対してデジタル技術を応用する動きはそれほど目立つものではなかったように 思います。しかしながら、 前号の日比先生からご紹介があったように、シカゴ大学の Hoyt Long 先生が日本文学を扱う本格的な DH の 本を刊行されたところでもあり、日本文学研究でもいよいよDHに 乗り出す流れができつつあるかもしれません。 このところデジタル画像の撮影公開を大規模に推進してきた国文学研究資料館でもしばらく前に 「データ駆動による課題解決型人文学の創成」 が公開されたところですが、こういった流れが人文学を 全体として振興することにも寄与してくださるとありがたいですね。 (永崎研宣)



Tweet: