ISSN 2189-1621 / 2011年08月27日創刊
この巻頭言が刊行される頃には、先月号で特集したアジア初の ADHO によるデジタル・ヒューマニティーズ国際会議が終了していることだろう。DH におけるアジアの多様性にフォーカスした回として、そして、日本で初めて開催された回として、有意義なものにとなっていることを願いたい。本稿を執筆している現在、筆者はそのようなことを思いつつ、大会の裏方として種々の対応にてんてこ舞いになっているところである。
一方、同時期に、TEI ガイドラインの日本語の入門書が刊行されているはずである。『人文学のためのテキストデータ構築入門』[1]というタイトルで、株式会社文学通信によるものである。TEI ガイドラインは、人文学のためのテキストデータ構築におけるデファクト標準として国際的に普及しており、とくに欧米先進国ではこれに準拠したテキストデータの膨大な蓄積があるが、日本語文化圏においては諸般の事情により普及が進んでいなかったものである。日本語文化圏でも、TEI ガイドラインに取り組むためにあたっては Web に様々な情報が各所に蓄積されて点在しており、検索すれば必要な情報は大体集まる形になっていた。とはいえ、Web の海に浮かぶそれらは、論文であったり、Web コラボレーションシステムに組み込まれたサイトであったり、英語で書かれたTEI ガイドラインの部分的な翻訳や解説動画の日本語字幕など、どれも有用ではあるものの、どこから始めるべきか、どこまで確認・習得すれば実用しても問題ないのか、そもそも実用とはどういうことなのか、といったことがなかなかうまく把握できない状態であった。本書は、そのような状況に対して、最初にどこから始めればいいのか、どこまで深く取り組めばどの程度の有用性が出てくるのか、といった、TEI ガイドラインの総体的な把握の仕方について1冊のまとまった単行本という形で提示すべく用意されたものである。
その内容は、人文学、なかでもテキスト研究において国際的な共通言語を志向する形となっている TEI ガイドラインをめぐるこれまでの歴史と葛藤など、その取り組みとしての全体像を把握するための章が提供されており、続いて、そこで活かされるテキストデータを手書き文書から作成するための Handwriting Text Recognition(HTR)における最先端のソフトウェアの一つである Transkribus[2]の使い方のガイドと、それに加えて、実際の活用例が示される。
この次には、そのようにして作成されたテキストデータを構造化するための基本的な手法についての解説が掲載されている。ここでは、かつてオックスフォード大学の DH を支え、現在はニューカッスル大学で中世英文学と DH の上級講師を務める James Cummings 氏がかつて作成した教材を、その基本的な枠組みを活かしつつ、日本語資料やその特性にあわせて改編したものが実践演習として提供されている。ここでは、用意された資料のマークアップを通じて、TEI ガイドラインに従ってテキストデータを構造的に構築していく際に必要となるパソコンを操作するための効率的な手技と、人文学研究を前提としてデータを作成するに際しての現代的なコンピューティングにおける基礎的な考え方の両方を習得できるようになっている。この教材で用いられているのは夏目漱石の書簡のデジタル画像である。漢字仮名交じりの合略仮名も含む筆致のテキストをマークアップする際には、配慮すべき様々な要素に配慮する必要がある。あくまでもチュートリアルであり、十全な成果が得られるものとは言えないものの、これを通じて人文学研究におけるテキストデータ構造化の基礎を固めることができるだろう。
なお、この夏目漱石書簡デジタル画像は、東北大学附属図書館から再利用可能な利用条件で最近公開されたものである。すなわち、この実践演習、引いてはこの書籍は、デジタルアーカイブ公開画像を二次利用した成果物と位置づけることもできる。
また、書簡を構造化するだけではその意義や効果がわかりにくいこともあるだろう。そのために、構造化テキストを、その構造に基づいて活用するための簡単なチュートリアルも用意されている。ここでは、XML エディタの機能を活用する方法や、XSLT という言語で簡単にテキストを変換処理する手法などを実践的に習得できるようになっている。
第三章は、様々な資料に対して TEI ガイドラインを適用した場合の事例研究の紹介である。日本の古辞書や財務資料、近代の資料や、Transkribus と TEI を組み合わせた自動人名抽出の手法など、様々なものが紹介されており、さらにデータを可視化する技術の事例紹介もある。ここで、TEI を適用したことによりどのような方向で研究プロジェクトが発展可能なのか、というヒントを得ることができるだろう。
第四章は、漢文仏典である大正新脩大藏経を構造化する取り組みであるSAT TEI 化研究会による大規模マークアップを前提とした試行とその成果についての紹介である。大正新脩大藏経には様々なタイプのテキストが含まれており、校訂テキストとしての一般的な仏典の構造へのより深い構造化手法についての検討が行われるだけでなく、日本仏教文献や禅籍、仏教音義書等を対象としたマークアップの手法が検討され、その過程で任意の段落設定の手法や外字や割注、知識グラフとしての表現など、様々な課題と解決方法が提示されている。一つの叢書をめぐり、そこに含まれる実に多様な構造への対応のプロセスを読み取ることができる章であり、ここでもテキスト構造化に際しての様々なヒントを得ることができるだろう。
また、本書にはコラムが各所に配されており、実際にマークアップを行うに際しての考え方や、世界各地の TEI 準拠の事例紹介、それに加えて、著作権法改正に基づいて Google Books のようなサイトを作るための基本的な考え方などが紹介されている。それぞれに有益な情報として活用できる局面があるだろう。
本書を通じて、多くの読者は物足りなさを感じるだろう。それは、テキストの構造化には様々な考え方があり、本書はそのうちのごく一部を扱っているだけに過ぎないからである。むしろ、より広く深い事例を扱う応用編が必要であり、そのような事例自体もより多く必要であることが、本書の刊行によって明らかになるということでもある。その意味で、本書はまさに一里塚なのである。
とはいえ、本書がもたらし得るものは、冒頭に述べたように、TEI ガイドラインを利用したテキストデータの構造化に具体的に取り組めるようになるための入口である。日本語文化圏でこの入口が整えられたことにより、日本の人文学における多様な取組みやその成果が様々な意味で世界に開かれ、そして未来につながっていくことを期待したい。
2022年6月30日、京都大学とプリンストン大学の共同事業「京都大学蔵古文書デジタル発信事業」により、京都大学総合博物館蔵駿河伊達文書のうち、中世史料56点が公開された[1][2]。この事業は、2020年に開始されたもので、第一弾はやはり京大総合博物館蔵の淡輪(たんのわ)文書であった[3]。京都大学側の参加組織は総合博物館、文学研究科および図書館紀行の三者で、プリンストン大学からは東アジア研究部が関与している。淡輪文書の際は、プリンストン大学東アジア研究部からも発表がなされたが、今回の公開に際しての発表は見当たらない。また、この時点では、この事業に特別な名称はなかったものと見受けられ、前記の名称は見当たらない。
これは共同事業ということだが、それぞれの大学がそれぞれの活用をしている[2]。[4]・[5]に同じ文書の京大側とプリンストン側のページを示したので参看されたい。
京都大学では、図書館機構のデジタルアーカイブのコレクションというかたちで公開している。それぞれのコレクションには、プリンストン側の一覧・概説ページへのリンクがある。このデジタルアーカイブシステムは、文書向けということはないと思うが、メタデータの出版年の項目を各文書の発行年月日の記載に用いるなどしている。[4]を見ると、翻刻があることはデジタルアーカイブ上のデータからはにわかに分からないが、京大図書館では以前から IIIF の description メタデータを翻刻の記載に転用しており、現状の画面では、Universal Viewer の“More Information”のパネルから閲覧可能である。
プリンストン大学では、同研究部のトマス・コンラン氏の運営する Komonjo[6]をつうじて史料が閲覧できる。このウェブサイトは、日本史研究者である同氏が、古文書を学習するために設置したもので、同氏のゼミナール参加者がテーマごとに古文書の原本画像の提示、翻刻・翻訳(注釈)を行い、同氏が概説動画を示すというものが本来であったようだが、そこに淡輪文書と駿河伊達文書の原本画像および翻刻と翻訳の提示と概説がなされている(淡輪文書ほどには駿河伊達文書の解説は充実していないようである)。Komonjo のウェブサイトでは、翻訳に携わったコンラン氏のゼミナール参加者の氏名が明記されているが、翻刻がだれの責任においてなされたのかは不明である(これは京大側でも同じ)。駿河伊達文書のページから京大デジタルアーカイブの淡輪文書コレクションのページにリンクがあるのは誤記であろうか。
貴重な中世古文書がこのようなアクセスしやすいかたちで公開されるのは喜ばしいことである。それだけに、デジタル人文学的な利用のしにくさは気に掛かる。京都大学デジタルアーカイブが翻刻の公開に IIIF のメタデータをもってするのは公開当初からのことであるが、デジタルアーカイブシステム本体が持つデータではなく、ある種の画像表示用データである IIIF のメタデータに翻刻が記載されているのは、やはり筋のよい設計とは思えない(デジタルアーカイブ本体のメタデータに翻刻の有無が注記のかたちででも記載されていないのも問題であろう)[7]。しかも、表現力に乏しい形式で文字面しか取れないうえに、(検索システム外で)検索もできないとあっては、やはり活用可能性に乏しいと言わざるを得ない[8]。アイテムに外部ファイルを紐付けられるようなかたちにして、リッチテキストファイルででも符号化テキストででもよいから提供するでもなく、そのような豊かなテキスト表現はないかわりに、検索システムで扱えるようなデータを提供するでもない状態は、量があるだけに惜しいことのように思われる。プリンストン側でもデータの再利用性の乏しさという点ではあまり変わらない。もともとの古文書が複製不可という条件で提供されたからなのだろうが、デジタルやインターネットの魅力というものを無料で見られることに限定してしまうのは惜しいことである。
クレジットが限定的なのも気に掛かる。ただでさえ、翻刻などの業績が軽んじられる現在において、それに携わった面々の時間を顕彰しないのはいかがなものであろうか。既発表の翻刻を用いたのかもしれないが、それもそれで貢献への顕彰という点で褒められたものではない。
プロジェクト運営という観点からしても、だれがなににどういう責任を持ったか――こういう言い方はとげとげしいかもしれないが、だれがなにを作業して、いまある姿にしたかということである――が明らかになると、学界に裨益するものとなると思う。時間や能力という点で所蔵者がすべてを管理するのはもともと難しいことで、デジタルゆえの協同の在り方はもっと模索されてよい。本プロジェクトは、協同の相手先が日本国外の機関(あるいは研究者個人や研究グループ)というところに特徴があり、詳しく知りたく思うところである。
7月11日~16日にベルギーの首都ブリュッセルにあるブリュッセル自由大学で開催された第12回国際コプト学会[1]において、筆者はいくつかの DH 関連の発表に参加したので、今回はその報告を行う。本学会は、もともとは2020年に開催される予定であったが、新型コロナウイルス流行のために2021年に延期され、終息の目処がたたなかったために、さらに2022年に延期された。
コプト学とは、キリスト教初期にエジプトに根を下ろし、発展したキリスト教であるコプト・キリスト教とその信者の歴史や思想や言語や文化遺産の研究を中心にした学問である。この学問は、それ以外にも、コプト語を用いたグノーシス主義キリスト教やマニ教など他宗教の文献や文化、古代エジプトとの文化的連続性をも対象として含む。
今回の国際コプト学会では、初めて、DH のチュートリアルセッションが開催された。2020年の時点では、チュートリアルは5つ行われる予定であったが、2つはキャンセルされ、以下の3つのチュートリアルが開催された。
このうち、筆者は2の Transkribus のチュートリアルを行った。Transkribus は、古写本の手書きテキスト認識(HTR)をし、自動翻刻テキストを生成するためにヨーロッパでよく用いられているソフトであり、本連載でも何度も紹介している。今回の受講者は Transkribus を全く知らない人がほとんどであり、Transkribus の話を聞いたことがあり、使ってみたいと思っていた者は一部であった。このチュートリアルでは、Transkribus のクラウド版である Trasnkribus Lite の使い方を主に教授した。Transkribus Lite は、最近機能が強化されたことで、クラウド版でもローカル版 Transkribus eXpert Client の基本的な機能が一通り使えるようになっている。1時間半という大変限られた時間の中で、受講者たちが各々の写本の写真で HTR を行い、グラウンドトゥルス(教師データ)を作成する練習を行なった。さらに機械学習の方法、そして、学習済みモデルに、新たな写本の写真で文字認識させる方法も学んだ。Transkribus に関しては、過去の本連載の記事を参照されたい[5]。
1の OCR4all を用いたコプト語の活字出版物のための光学文字認識(OCR)では、ベルリン・フンボルト大学のエリーゼ=ゾフィア・リンケがチュートリアルを行った。OCR4all はヴュルツブルク大学が開発した GUI を備えた OCR とレイアウト認識・コレクションツールの一式である。OCR エンジンには、OCRopus / OCRopy[6]を Tensorflow ベースに構成し直した、calamari[7]が使われており、レイアウト認識には LAREX[8]というソフトが用いられている。こちらの OCR4all を個人のコンピュータ上で動かすには、Docker[9]や VirtualBox[10]などを経由して起動させなければならず、かなりのコンピュータの知識を必要とする。そこで、リンケは、フンボルト大学の情報基盤センターのサーバ上に OCR4all を置き、外部から OCR4all を使えるようにした。また、代表的コプト文字フォントを教師データとしてリンケがトレーニングした3つのモデルも使用可能であり、過去に出版されたコプト語の校訂テキストを自動翻刻したい者にとって、大変有用なツールである。ただし、コプト文字以外はこれらのモデルでは読み込むことはできず、ScanTailor[11]や ScanTailor Advanced[12]といった画像前処理ソフトで非コプト文字を消す必要がある。コプト学の研究文献は、ラテン文字・コプト文字・ギリシア文字・アラビア文字が混ざったテキストが多いため、これらの文字混合にも対応できるモデルの提供が待たれる。また、ポストコレクション(後補正)ツールも大変使いやすく、修正がかなり早くできる印象を持った。惜しむらくは、このサービスが、セキュリティのために限定公開であるということである。大学が定めるセキュリティ対応を行うには、より多くの資金が必要であるそうで、助成金などの資金獲得が待たれる。
オクラホマ大学のキャロライン・シュルーダーは、3のコプト語多層タグ付きコーパスである Coptic SCRIPTORIUM によるコプト語のコーパスの検索のチュートリアルを行った。このコーパスは、Coptic Dictionary Online とリンクされ、コーパス上の単語をクリックするとその意味が表示される。そのほか、Universal Dependencies に準拠した統語情報・係り受け情報が付与され、主語や目的語といった統語情報による検索も可能である。また、固有名詞や、普通名詞のカテゴリの情報も付与されているため、人を表す名詞、場所を表す名詞など、名詞の種類での検索も可能である。クエリ言語を使えば、「文の最初に、ギリシア語由来の、場所を表す名詞が主語になって、そのあとに動詞が来る構文」など、複雑な統語条件を指定して検索することが可能である。
本学会は、チュートリアル以外にも、DH の研究成果の発表が目立った。サピエンツァ・ローマ大学の PAThs[13]、バーゼル大学の D-Scribes[14]、ゲッティンゲン学術アカデミーの CoptOT[15]、ミュンスター大学の NTVMR[16]、筆者らの CoptWordNet[17]、パピルス文献翻刻ポータルの Papyri.info[18]、コプト語における借用語データベースである DDGLC[19]等である。
PAThs プロジェクト は、コプト語の全ての写本に ID を振り、それらの発見場所を地図上に配置する Atlas(地図帳)を作っている。コプト語文献のメタデータには、寸法や内容、年代、写本の構造などが記されている。このデータベースはコプト語文献学にとって、もはやなくてはならないツールとなりつつある。
D-Scribes は比較的新しいプロジェクトである。このプロジェクトはギリシア語やコプト語パピルス文献などの古書体学の益となるデジタルツールを開発している。例えば、Hierax Enhancer は、インクが薄くなっていたりして、読むのが難しい文献の画像を読みやすくするツールである。今回の研究発表では、研究者が共同で、文献の画像を見ながら文字を分類していく新しいツールが披露された。
CoptOT プロジェクトは、メインのコプト語訳旧約聖書の諸写本のデジタル学術編集版、および校訂テキスト作成の進捗状況を報告したほか、断片化されたコプト語文献のページを再構築するツール、およびコプト語諸文献の聖書引用のデータベースを披露した。
NTVMR プロジェクトは、新約聖書の最大の校訂版である Editio Critica Major のための翻刻・校訂ツール New Testament Virtual Manuscript Room の発展状況を報告した。
筆者らの CoptWordNet 関連の2本の研究発表では、コプト語の同義語、上位語・下位語などの語彙の意味ネットワークのデータベースである CoptWordNet の開発状況と、新しいユーザインターフェースの報告のほか、引用や引喩などのテキストリユースの探知のためのソフトウェアである TRACER を応用した研究成果が発表された。
最後に、同時進行の他の DH セッションに参加していたため、残念ながら、Papyri.info と DDGLC の研究発表には参加出来なかった。しかし、それは、DH の研究発表が重なるほど、コプト学において DH の存在が大きくなってきたことを意味しているのであろう。国際コプト学会の学術大会は4年おきにあるが、次回の大会では既存の DH プロジェクトの発展と、より多くの新規プロジェクトの動向を知ることができることが期待される。