ISSN 2189-1621 / 2011年08月27日創刊
デジタル環境の発達に伴い、人文学資料を機械可読な形で記述するためのガイドラインとして Text Encoding Initiative が欧米の人文学研究者の手によって生み出され [1]、日本においてもそれに準拠したマークアップを行った事例の報告は少ないながらも行われるようになってきた。それに伴って、マークアップを行った結果、どのような成果物が出来るのか、またはどのような成果物が想定されてマークアップが行われるのかという部分についても徐々に紹介されるようになってきている。筆者が日本近代文学の江戸川乱歩の草稿のマークアップを行っていることもあり、自然興味は草稿のデジタル化に関する事例になるが、例えば、オックスフォード大学の Dirk Van Hulle らによる「Becket Digital Manuscript Project」[2]の試みが井上隆史によって検討されたことは記憶に新しい[3]。しかし、こうしたデジタル環境での取り組みがどのような理論的根拠に支えられているのかということに対する紹介は近年あまり行われていないように思われる 。そこで、有志による読書会で現在取り扱っている『Digital Scholarly Editing-Theories and Practices』[4]を要約の形で紹介していきたいと考えている。
さて、同書の具体的な内容に入る前に、「digital scholarly editing」というタームをめぐる日本における状況を(本当に文字通り大まかにはなるが)概観する必要があるだろう。まず、「digital」ではない「scholarly editing」について簡単に確認したい。仮に「学術編集」と訳すことができるこのタームについて、その端的な説明がニューカッスル大学のホームページにあるので引いてみよう。「学術編集とは更なる研究のために研究者が使用するテキストの高品質な版を生み出す過程のこと(…)どの根拠を用いるか、それらをどのように提示するか、そしてそれらをどのように注釈するかというプロセスは多大な研究と考慮が必要である」[5]。つまり、学術編集とは研究利用のためのテキストをどのように作成していくかというメタ学問的な営みのことを指している。日本ではこの種の取り組みは「編集文献学」という訳語で紹介されている[6]。この用語に対する認知度は、明星聖子が述べる様に「大方の読者にとってはまだ馴染みのないはず」という評価がなされており、そうした状況が現在大きく変わっているかどうかはわからない。しかし、「個々の本文校訂の問題として考えられ(中略)「編集文献学」の立場から総合的に考察することが少なかった」[7]という問題意識が挙げられていることから、こうした営みの必要性は十分に理解されており、関連文献なども出版されていることから[8]、徐々にその認知度は高まっていくと思われる。
では、そこに「digital」の修飾語がついた場合はどうであろうか。今日のデジタル技術の発達や、海外での digital scholarly editing の事例が数多くあることから、日本でもその機運が高まりつつある[9]。しかし、digital scholarly editing の本拠地である欧米での取り組みや議論について、『人文学と電子編集』や『グーテンベルクからグーグルへ』の日本語訳などが出版されているが、原書の出版はどちらも2006年であり、新しい事例の共有が日本語圏では十分に行われていない状況となっている。こうしたことから、『Digital Scholarly Editing-Theories and Practices』―序文を担当する Hans Walter Gabler によると同書は2012年11月にホイヘンス記念オランダ歴史研究所で開催されたデジタル学術版に関する NeDiMAH エキスパートセミナーが元になっている―という今から10年程前の文献にはなるが、やや断絶気味の欧米と日本の時間的な溝を埋めるという意味では、これを紹介することは充分に意味があると思われる。こうしたことを念頭に、同書の序文を要約しながらその目的と範囲を確かめたい。
Hans Walter Gabler の序文によると、本書は前述のセミナーにその端を発しており、その目的は「「デジタル学術編集」という主題を探究すること」である。そしてデジタル化が今日のテキスト批判とテキスト編集にもたらす様々な要求を描くものであり、人文科学の基礎となる2つの学問の未来について新たな概念化を構想するものでもある。そのため scholarly editing 即ち学術編集が依拠する批評、テキスト批判、編集については媒体と言う観点から再認識される必要がある。ここで学術編集版に目を向けてみると、作品のテキストとその伝達を指向する部分と、作品の媒介と解明を指向する部分がある。これを踏まえて版の構造を確認すると、版の中心は編集されたテキストであるが、それをとりまく形で注や異同などのテキストの読解を助ける機能も配置されている。こうした参照システムは、あらゆる種類の解説の実体を版にリンクさせることに成功している。こうした関係構造をモデル化できる媒体はデジタル媒体であるので、従来の印刷物の学術版の模倣にとどまるのではなく、デジタル媒体の特質と可能性を踏まえた学術編集版に対する徹底的な再認識と、再モデリングが必要であると Gabler は述べている。
以上のような概念的背景をもとに本書は理論から実践編まで全12章から構成されている。理論編では digital scholarly editing という学術的な営みに対する再認識から始まり、様々な事例紹介を織り交ぜながら、digital scholarly editing のあるべき形が再措定される。実践編ではそうしたことを踏まえ、具体的な取り組みがそれぞれの論者たちによって述べられている。理論とそれを踏まえた実践の論考は、日本において digital scholarly editing に取り組む際の参考になると期待されることから、来月から1章ずつ内容を要約して紹介していく予定である。
https://sites.google.com/view/pnc2023
https://digitalarchivejapan.org/kenkyutaikai/8th/
https://u-parl.lib.u-tokyo.ac.jp/japanese/mh5
https://dadh2023.chinese.ncku.edu.tw/%E9%A6%96%E9%A0%81
http://jinmoncom.jp/sympo2023/
去る9月4日〜8日、Text Encoding Initiative コンソーシアムの年度大会が DH 研究の本拠地の一つであるドイツで開催された[1]。中国思想文化を専門とする筆者にとっては、はじめて発表者として参加した人文情報学関連の学会であったため、応募当初から不安が絶えなかった。しかし、一週間の会期中は、総じて大きな知識や情報のギャップを感じることなく、比較的スムーズに発表内容についていくことができ、多様なバックグラウンドを持つ参加者と話ができた。振り返ってみると、コロナ以来の3年間に東京大学人文情報学リサーチハブ(UTDH)や TEI-C 東アジア/日本語分科会が主催する TEI 研究会に断続的に参加してきたおかげだと思う。これらの研究会では、人文情報学の研究者が多く集まり、国内外の最新動向について情報共有がなされる。筆者は素人としていつも聞く側だが、そこで何気なく聞いた研究者の名前やプロジェクト情報の多くは、今回の大会で役に立った。このコミュニティの温かいサポートがあったからこそ、筆者は今回の会議に参加することができたと思う。
さて、2023年度大会のテーマは Encoding Cultures で、募集要項によると、音楽・文字・口伝文化、マイノリティの文化、また音声・文字以外の文化実践の構造化を扱う発表を歓迎していた。このテーマにちなんで、今大会ではヨーロッパ以外の文化の構造化の実践に関する報告が往年より多かったようである。東アジア言語・音声資料を扱う日本「代表団」の発表が8本にも上り、閉幕式の基調講演のテーマはアラビア語資料のデジタル編集であった。そして、シリア語文字資料や中国伝統建築、インド伝統音楽のマークアップの実践に関する報告もあった。
筆者は中国語で書かれているキリスト教の教理文献の TEI 化について報告した[2]。参加者からは概ね興味を持ってもらい、ポジティブで有益なフィードバックを多数いただいた。しかし、「私も似たようなプロジェクトを進めているのでぜひコラボでもしましょう」といったお声がけはなかった。その理由として、やはり扱っている資料の言語や特質が異なるという大きな壁があるように思う。中国語や日本語資料の TEI 化は総じて好意的に受け入られ歓迎されるが、中国語や日本語で書かれた資料の特質に由来する課題などについて踏み込んだ議論をすることは難しいと感じた。一つの例を挙げると、筆者がポスターで提示した課題の中で、割書のマークアップや縦書きテキストの可視化などは、特に注目されなかった。翌日の昼食だったと思うが、非ラテン文字で書かれた資料の TEI 化が話題になり、人文情報学研究所の永崎研宣先生によると、英語や主要なヨーロッパ言語で書かれている資料の TEI 化に関する議論はすでに成熟化していて、他言語資料への応用が今後の一大方針になるという。欧米での TEI に関する議論が成熟化してきた背景には、今回会議に参加して感じたように、実際に TEI を採用しているプロジェクトの多さ、それに関連して作業人数の多さが大きいと思う。踏み込んだ議論を行ったり実際に作業に取り組むのには、やはりメディアである言語とその言語で書かれた資料の特質が分かる人でないと難しい現実がある。そのため、非ラテン文字テキストの TEI 化の実践や議論を進めるには、やはりラテン文字テキストの TEI 化の成熟化の過程と同様に、非ラテン文字テキストの TEI 化の作業規模や作業者数の増大を図るしかないのではと感じた。
続いて、筆者が実際参加したワークショップや聞いた発表の様子を報告したい。今大会の最大の特徴は音楽をマークアップする MEI コミュニティとの共同開催にあるが、筆者は MEI について全く知識がないため、TEI 関連の発表、中でも筆者の研究関心に近い、テキスト、特に宗教テキストの校訂・出版・研究に絞って、最も関連のある二本の発表と一つのワークショップについて所感を述べたい。
一つ目の発表は、ベルリン・ブランデンブルク科学アカデミーの Susanne Haaf 氏の「TEI 構造化が信仰文化について何を教えてくれるか」である[3]。この研究は、三つの TEI 準拠のコーパスに含まれる計約500のテキストを対象に、TEI 構造化情報を利用してテキストのレイアウト上の特徴や、言語表現(繰り返し、引用など)の特徴等を考察している。TEI 構造化情報そのものから、様々なテキストの特徴を取り出すことができるとのことである。宗教文献のコーパスを構築したい筆者としては、Haaf 氏が利用したコーパス、そしてそのコーパスを構築する過程に関心を持った。「TEI 構造化情報をどう利用できるか」以前に、報告者はテキストをどう TEI 化するかという段階を考察しているからである。詳しく伺うと、これらのコーパスはすべてドイツテキストアーカイブ(Deutsches Textarchiv、DTA)の一部で、Haaf 氏自身も本プロジェクトのメンバーの一人であると分かった。ここでいう DTA は2007年に始まった TEI データのリポジトリで、17世紀〜20世紀のドイツ語テキストの TEI 準拠データを構築・提供している[4]。同プロジェクトのウェブサイトによれば、現時点で計6,482点もの著作の TEI 準拠データを原画像付きで公開している[5]。興味深いことに、本 DTA に入っているテキストは単純に OCR 技術に頼っているのではなく、大半のテキストは手入力したものであるがゆえ、比較的に高い質が保たれているという[6]。
二つ目の発表は、ハンブルク大学の Eka Kvirkvelia とイリア国立大学の Tamar Kalkhitashvili の両氏による、11世紀に成立したグルジア語の『マタイの福音書』のパラレルコーパスに関するものである[7]。コーパスではグルシア語とギリシア語の文章レベルのパラレル表示が提供されていて、単語レベルではグルシア語テキストの各単語に、ギリシア語訳のほか、アルメニア語と英語の意味も付与されている。『マタイの福音書』はパイロットプロジェクトで、他の福音書やグルシア語版『聖書』の全体のデジタル編集版の作成が計画されているという。『聖書』の多言語コーパスが多数公開されているなか[8]、ほかのコーパスとの連携や比較についてもっと知りたいところだが、今回は伺うことができず残念だった。発表のアブストラクトによると、同プロジェクトでデジタル編集版を公開することの大きな目的の一つは、海外の研究者がグルシア語版『聖書』によりアクセスしやすくするためである。ただし、現段階のウェブサイト上のインタフェースではグルシア語のものしかなく[9]、グルシア語が読めないが『聖書』のコーパスに関心がある研究者にとって、利用のハードルがやや高いと感じた。
会議の最初の二日に複数のワークショップが開かれ、筆者もいくつか参加した。メリーランド大学人文科学技術研究所(MITH)の研究ソフトウェア主任開発者である Raffaele Viglianti 氏が企画した「Introduction to publishing XML with static site and front-end technologies」[10]では、筆者にとってこれまでブラックボックスのように見えた、TEI データをウェブ上に公開するプロセスをハンズオンの練習を通して少し理解できるようになり、特に学びが多かった。
ワークショップは前半の理論編と後半の実践編から構成されていた。理論編では TEI-XML ファイルをウェブ上に公開することに必要な技術と、それらの技術を利用・維持するに当たって経済的な制限が存在するなか、近年「minimal computing」へのシフトに向けて理念的・実践的な変革が行われていることが紹介された[11]。データの公開と維持に当たって最小限の技術・リソースに抑えるには、静的サイト(static sites)を活用することが有効で、XSLT またはオープンソースの静的サイトジェネレータ(static sites generator)を利用することができる[12]。後半の実践編では、参加者個々のレベルに応じていくつかのエクササイズが用意され、筆者は初学者として Viglianti 氏が作成した Gatsby プラグイン CETEIcean を活用して[13]、提供された練習例と手元にある日本語や中国語の TEI ファイルをブラウザー上に表示させてみた。ラテン文字で書かれたテキストのために作られたプログラムは、正確にマークアップした TEI-XML のファイルであれば、東アジアの言語のテキストにも応用できる。これは筆者がかつて校訂の可視化に利用した TEI Critical Apparatus Toolbox や Versioning Machine のケースとも共通している。
Viglianti 氏は、学術編集にまつわる理論と実践の成果を発表するオープンアクセス査読誌「Scholarly Editing: The Annual of the Association for Documentary Editing」の技術編集者兼マイクロエディション共同編集者も務めており、彼が開発した上記のツール等は、同誌におけるマイクロエディションの発表・公開にも利用されている。マイクロエディション(micro edition)とは、小規模のテキストのためのエディションで、一つのドキュメントや、複数の短いドキュメント、あるいはテキストの二つの異版比較などを指す[14]。エディションの編集者が提出した TEI-XML が査読を経て発表が決定されれば、公開に必要なテクニカルサポートを受けることができる。このマイクロエディションのセクションは、技術面に不安があったり大学などの組織的サポートが得られない小規模のテキスト編集プロジェクトにとっては、非常に良い発表プラットフォームである思った。筆者はこのマイクロエディションに大変興味を持ち、Viglianti 氏により詳しく話を伺った。マイクロエディションの査読は、マークアップの妥当性とテキスト編集の学術性の二方面で行われ、後者はコンテンツがわかる近い分野の研究者によって査読されるとのことである。そして、これまで同誌は、英語やフランス語、スペイン語等の欧米の言語による編集版を公開したのみでアジア言語のものがなかったが、原則どの言語の編集版の投稿も歓迎するとのことだった。これからより多様なマイクロエディションがここで公開されることが期待される。
筆者にとって初めての TEI 大会であったが、デジタルの時代におけるテキスト校訂・出版・研究について大いに学んだ。研究者だけでなく、ライブラリアンや、技術者など様々なバックグラウンドを持つ人々が集まって議論を通して合意を目指すという TEI コミュニティの文化にも惹かれた。またの発表機会を期待して中国キリスト教文献の TEI 化作業を前進させたい。
2023年11月18日(土)、東京ビッグサイト会議棟にて開催予定の、国際シンポジウム「デジタル・ヒューマニティーズと研究基盤:欧州と日本の最新トレンド」の準備がいよいよ進んできました。対面参加のみとなりますが、ありがたいことに参加申し込みは着々と増えてきています。このイベントは目玉的要素が様々に詰め込まれているイベントで、DH に少しでも関心をお持ちでしたら、来ていただくときっと面白いことや役立つことがあると思います。詳しくはプログラムをご覧ください。
このイベントのおすすめの一つは、DH に取り組む32の国内研究教育機関によるポスター/デモンストレーション展示です。ここに来て一廻りするだけで、実に多様な DH への取組みについての情報を一度に得ることができます。これだけでも参加する価値は多いにあると思います。参加費無料・要申し込みです。ぜひ、ふるってご参加ください。
先週は、韓国の DH シンポジウムにお招きいただいて講演をしてきました。本年、韓国 DH 学会(KADH)が国際 DH 学会連合(ADHO)に正式に加盟し、KAIST(韓国科学技術院)に Digital Humanities and Computational Social Science というマスターコースができるなど、着々と DH への取組みが本格化しているようです。DH の導入や普及に関する日本とのコンテクストの違いにはなかなか興味深いものがあり、機会があればどこかでご紹介したいと思っています。