ISSN 2189-1621 / 2011年08月27日創刊
2024年1月に発表された『出土文献与古文字教程』(復旦大学出土文献与古文字研究中心編撰、中西書局、2024)は、中国・復旦大学の「出土文献与古文字研究中心(出土文献・古文字研究センター)」が出版した、中国の出土文献及び古文字に関して体系的に学べる教科書である[1]。ここで言う「出土文献」というのは、文字通り地下から出土した文献資料のことであり[2]、抄写等などにより残されてきた「伝世文献」に対応する言葉である。主には漢代以前のもの、すなわち紀元前のものを指す。出土文献の大きな特徴は、その成立年代や場所が限定される一次資料だということである。中でもここ数十年間で中国大陸から見つかっている中国戦国時代(紀元前5世紀~前3世紀)の竹簡資料は、大量の資料がまとまった状態で綺麗に残されていることが多い非常に重要な資料で、その学術的価値は極めて高い。また「古文字」というのはつまり「古代漢字」のことであり[3]、主には先秦時代のもの、すなわちこちらも紀元前のものを指す。先の戦国時代の竹簡資料も古文字(戦国文字)で書かれており、解読は容易ではない。こうした背景が本書出版の理由の一つとなっているのであろう。
この月報の趣旨に沿って本書を紹介する際に特筆すべきは、「デジタルリソース」が項目立てられている点である。まずは下に目次を示す。
上編は「理論編」とでもまとめられる概説部分である。下編は「実践編」として機能しており、実際に出土文献をいくつかピックアップし、上編で学んだ内容を用いて読み進めてゆくという演習形式になっている。
上編では、第一章で古文字の字形や字義の解読、第二章で音韻、第三章で語彙、第四章で伝世文献と対照させた考察について述べられ、最後の第五章で有用な工具書(参考図書)が紹介されるのであるが、この第五章において紙媒体の工具書に次いで「数字化資源」つまりデジタルリソースが案内されている。稿末に掲載している計32個のウェブサイト(及び光ディスクのデータベース)がその一覧である。本書を開くと詳細な解説が併記されているので、興味のある方はぜひ実際に紐解いてもらいたい。なお上編は全体で228ページあるが、デジタルリソースの部分には16ページが割かれており、看過できない分量である[4]。
さて、第五章全体の前書きに当たるp.184 ll.5–8には下の通り記述がある。
「学術研究の進展に伴い、古文字の工具書の編纂形式はすでにある程度成熟してきたが、大きな課題にも直面している。それはデジタル化への挑戦である。したがって、古文字の工具書の発展の見通しとしては、成熟した編纂方法と豊富な経験を活かし、古文字データベース構築を推進すべきである。同時に、様々な種類の検索方法を融合させ、点を線に繋げ、さらに面へと広げ、多層的で立体的な古文字データベースの構築を目指すべきである。」(筆者訳)
本書の態度として、工具書は紙媒体では既に一定程度進展しており、ここから更なる発展を目指すためにはデジタル化が必要と述べられている。ここではまさに、「従来の人文学での限界を情報学が補う」という、人文情報学の特長が期待されているのである。
第五章の小節「二、数字化資源」には、更にこの点を深堀りした前書きが示される[5]。以下にその要約を示す。
(要約はじめ)
古文字分野のデジタル化では、
という4つの面においてここ20~30年は進展が見られるが、一方で次のような課題がある。
こうした課題を解決するために、次の6点に向かって進展する必要がある。
(要約おわり)
述べられていることは史資料のデジタル化における概ね普遍的な課題であり、また IIIF・RDF・TEI など様々な技術の普及により解決に向かっているものでもある。挙げた各技術の詳細については本稿の読者の皆様にはここで改めて説明する必要もないだろう。
ここで、古文字ならではの課題、すなわち課題①に示された「欠字」とその対応の不統一性に関連するものについて付言する。古文字は、現代の我々が用いる表記体系とは用字法(どの語をどの文字に対応させるか及びどのような字形で記すかなどの文字表記方法)が大きく異なるため、以下の点は容易には解決できないということを弁明したい。
まず字形についてであるが、古文字には今の我々が日用しない非常に複雑な字形が登場することが多く、これらが現状での欠字という扱いになっている。例えば図1の古文字は、その構成要素を対応する楷書体で示してみると(この作業を「隷定」と呼ぶ)、図2のようになる。左上に「釆」、左下に「羊」、そして右側に「攵」という構成である。この文字は Unicode には存在せず、単字のテキストデータとして示すことが難しい。とはいえ Unicode へ登録を待っているばかりにもいかず、しかし常に図2のように画像データとして処理するのも勝手が悪い。こうした漢字の欠字に対応するために、IDS(Ideographic Description Sequence)という構文が Unicode により定義されている[6]。既に Unicode に登録されている単字を利用して、ポーランド記法により一つの漢字を示すというやり方であり、例えば図2は IDS で「⿰⿱釆羊攵」と表現できる。
IDS のおかげで欠字であっても当座の対応の多くが可能となったが[9]、もちろん課題も散見される。例えば、どこまでを構成要素とみなすのかという問題が出てくる。図2の右側の攵は、実は「⿱卜又」と分解することもでき[10]、「⿰⿱釆羊攵」を「⿰⿱釆羊⿱卜又」として記述することも可能なのである。別の例を挙げると、図3は左に「彳」、右上に「己」、右下に「止」という構成、すなわち「⿰彳⿱己止」と記述できる古文字であるが、「彳」と「止」との組み合わせというのは実は「辶」とも見なせるため[11]、人によってはこの文字を「⿺辶己」とみなす可能性もある。このように、同じ古文字に対して構成要素及び位置情報の捉え方が違う複数の記述が存在し得るのである。この辺りは統一が取れておらず、欠字を IDS で記述する場合の大きな課題の一つとなっている。
IDS を用いても記述できないものもある。それは、もとより楷書体に該当の構成要素が存在しない場合である。図4は、意味は「冥(瞑)」であると解読されるものであるが[13]、その形を上手く楷書体に対応させられない古文字である。こうした文字は字形をテキストデータとして記すことは現状ではできず、解読される意味のみを示して代替するほかない。古文字によっては、字形も意味のどちらもが未だに不明なものも少なくないため、そうしたものはテキストデータとしては記述しがたい。
後半で例示した課題は、古文字のデジタル化に伴うもの全体の一握りに過ぎず、それは先の要約内にあるⅰ~ⅵの方向への進展により解決が期待される[15]。出土文献は毎年のように新規資料が発見・公開され、早急な内容解読が期待されているものでもあるため、デジタル化による検索・照会は非常に大きな価値を持つ。それと同時に、要約内の課題①~③に示されるように、現在の古文字のデジタルリソースの多くは乱立状態にもある。ものによっては検索元のデータが公開されていなかったり、作成方針が明示されていなかったりと、利用に際して信頼を十分に置けない状態とも言える。これを解決するためには、データセットの作成や検索システムの構築方針及び工程について、研究発表や論文といった科学的議論を経ながらその航跡を残してゆくことが求められよう。本書が現状の紹介とその課題を明言してくれた意義は非常に大きく、今後はデジタルリソースの作成者側からも更に闊達な議論が行われることを待望している。
[本書で紹介されていたデジタルリソース一覧](参照:2024-10-18)
※ 1–4は甲骨文(亀の甲羅や牛の骨に刻まれた文字)、5–8は金石文(青銅器や石に刻まれた文字)、9–13は戦国秦漢の簡帛(竹簡や絹)上の文字、14は印章を扱う。
https://www.nlp4dh.com/nlp4dh-2024
https://tadh.org.tw/2024/04/28/dadh-2024_cfp/
https://jinmoncom.jp/sympo2024/
http://codh.rois.ac.jp/conference/linked-pasts-10/
2024年8月6~9日にワシントン D.C.にて開催された DH2024の参加記について、『人文情報学月報』第158号に引き続き、後半部分を述べたい。
第二点目の所感は、筆者が行った発表にまつわるものである。筆者は“Deciphering the Past, Unpacking the Present:Exploring Language, Culture, and Identity through Digital Humanities”(過去を解読し、現在を解き明かす:デジタル・ヒューマニティーズを通じて言語、文化、アイデンティティを探求する)というテーマのセッションでショートプレゼンテーションを行った。その際に、DH というカテゴリーの中には、人文学のバックグラウンドを持つ研究者と、人文情報学のバックグラウンドを持つ研究者との間に、研究スタイルや興味関心に差があることを実感した。具体的に述べると、前者は人文学分野で博士号を取得し、その後のキャリアの中で DH の手法を独学やセミナーで学び活用している比較的年齢の高い研究者である。このセミナーについては、例えばリカレント教育の場としても機能する DHSI が『人文情報学月報』でも紹介されている[1]。なお、前者の中では人文情報学の知識やスキルに大きな個人差があることをつけ加えておきたい。一方、後者は欧米を中心とした DH の教育プログラムや研究が本格化した21世紀以降[2]に大学院生時代を送り、DH の教育を受けツール開発などを行う比較的年齢の若い研究者である。
筆者は前者の属し、既存のデジタルツールを活用して歴史学における課題にアプローチすることに主な関心がある。そのため発表では、1.歴史学の先行研究の紹介、2.残された課題と自身の仮説の提示、3.仮説の検証(ここでデジタルツールを使う)、4.得られた歴史学上の結論と解釈、というように、歴史学上の発見に重きを置いた。一方、人文情報学のバックグラウンドを持つ研究者の発表の中では、たとえ歴史学に関するものであっても歴史学の先行研究や課題についての言及は全く無く、史料に対して新たな方法でデジタル処理を行い、それが機能するかを評価するというものであった。歴史学の観点からすれば、それらは歴史学者が手作業によってより高い精度で行うことのできる作業であったり、既に結論の分かっている内容であったり、さらには史料の版本の選択などの手続きにも問題がある場合が多く、関心を持ちにくかった。しかし、おそらく人文情報学寄りの研究者からすれば、何ら新しいデジタル技術の開発や活用方法の提案を行っていない筆者の発表に関心を持ちにくかったのではないかと思われる。それを示すかのように、質疑応答で筆者の発表には質問がなく、筆者以外の人文学のバックグラウンドを持つ研究者の発表に対しては、用いている数式が目的に対してあまり適切ではないという指摘や、Delta という定量的テキスト分析を使った方が良いというアドバイスがあったのみで、人文学が重視する仮説や解釈の妥当性や研究史上の意義などについては全く質問が無かった。
人文寄りの研究者と人文情報学寄りの研究者のギャップと関連してもう一点印象に残ったのは“Teaching Machine Learning in the Digital Humanities”(デジタル・ヒューマニティーズにおける機械学習の教育)というワークショップであった。ここでは、様々な大学におけるデジタル・ヒューマニティーズの教育実践が紹介されていたが、人文系の学部生や院生に対してデジタル技術に関心を持たせる難しさについて複数の教員が言及しており、中には人文系の学部生にはデジタルツールの仕組みは教えずに、活用方法に重点を置いて教えるという教員もいた。入門の段階で意欲や関心を失わせてしまってはいけないので、教育現場の実践として幾分は仕方のない部分もあるかもしれないが、筆者としては人文寄りの研究者と情報学寄りの研究者のギャップ縮めるためにも、なるべく早い段階で仕組みを教える必要があるように思う。『人文情報学月報』でも度々取り上げられている Andreas Fickers 氏の「デジタル解釈学」が示す通り[3]、人文学者がデジタルツールを使用する場合、あらゆる段階でデジタルツールと「共同で知識を作っている」ことに意識的である必要があり、そのためには最低限の仕組みを知っておく必要があることは言を俟たないだろう。
今回の学会参加では、DH と言いながら、まだ現状では D と H が乖離している部分が所々見られることを実感した。ただ、これは筆者の所感であり、現在の取り組みとしては欧米を中心に DH の課程や講座を設置する大学が増えており[4]、日本国内においても同様の動きが推進されているため[5]、このようなギャップはどんどん少なくなるだろう。
現段階で筆者のような研究者が D と H のギャップを解消するには、どちらかの領域に軸足を置きながら、もう一方の領域についても基礎的な知識を身につける、あるいは双方の領域の研究者の共同研究をより一層推進してゆく方向性が考えられる。具体的な筆者の取り組みについて紹介すると、情報学の基礎について勉強会で学んでいる最中である。また、DH2024ではデータサイエンティストと共同研究を行う話し合いも出来た。
以上、前半後半に分けて所感を述べたが、どれも現地で参加発表しなければなかなか実感できない事柄であった。今回は実り多い学会参加となった。
生成 AI が、いつの間にか新しい局面を迎えているように思います。問い合わせをするための文字数制限(正確に言えばトークンの制限)が大幅に増え、問い合わせの際に、前提知識として学術論文数十本、あるいは新書10冊くらいを読み込ませてから回答させることができるようになっています。これまでは「生成 AI の持つ知識」を問い合せる形になっていましたが、これによって、「こちらが持つ知識や情報を生成 AI に考えさせる」ことができるようになりつつあります。この流れがさらに進めば、今まではできなさそうだった有用性を発揮することができるようになるかもしれません。このあたりのことを試してみる具体的な方法を筆者のブログに紹介しておきました。Python が少しできる人なら使えると思いますので、ぜひお試ししてみてください。もし自分ではできなくても周囲の Python が少しできる人をつかまえてやってみていただくという手もあると思います。
DH2024のイベントレポートの続編をいただきました。大知氏が提起された議論の乖離という課題については、この学術大会を取り仕切るコミュニティの出自、すなわち、人文系研究者達が人文学のために始めたコミュニティであることを考えると、やや意外な印象があります。むしろ、セッションが10くらいに分かれる大規模学術大会では一般的な難しい問題としてとらえることもできるかもしれません。大会プログラムを見てみると、大知氏と同様にジェンダー問題を扱う発表が同じ時間帯のセッションに他に2つありました。ジェンダー問題を扱うセッションということで一つのセッションにまとめたら、もしかしたらもっと大知氏の発表の方向に近いような議論が活発に展開されたのかもしれません。とはいえ、400件を超える発表をとりまとめて3日間のプログラムに落とし込むというのは並大抵のことではなく、この件に限らず様々なコンフリクトを抱え込んでしまうのは避けがたい面があるというのも理解できるところです。このあたりがどうしても運任せになってしまうのは、大規模学術大会の宿命かもしれません。筆者自身も、DH に限らずいくつかの海外大規模学会に参加した際には色々課題を感じた時もありました。しかし一方で、特にこの種の海外学会の場合は、休憩時間が長く設けられていて、セッションでの議論の続きをするだけでなく、セッションがかぶってしまったために発表を聞けなかった相手に発表内容を聞いたりそこからさらに議論したりすることもできます。これに限らず、色々な工夫の余地はありますので、海外大規模学会への参加を有意義なものにするためには、そういったことも考慮してみるのも有益かもしれません。
今年度100億円を投入されたオープンアクセス加速化事業が着々と進んでいるようです。学術情報流通に関心を持つ私には、その情報が様々な形で入ってきていますが、一方で、人文系研究者としての私のところには、特にまだ波及効果がないように思っております。まだ今年度は半年ほどありますので、ここから広がってきて、私を含む人文系研究者のコミュニティも何らかの形で巻き取っていただけるものと期待しているところです。