ISSN 2189-1621 / 2011年08月27日創刊
仏教学は世界的に広く研究されており各地に研究拠点がありそれぞれに様々なデジタル研究プロジェクトを展開しています。本連載では、そのようななかでも、実際に研究や教育に役立てられるツールに焦点をあて、それをどのように役立てているか、若手を含む様々な立場の研究者に現場から報告していただきます。仏教学には縁が薄い読者の皆様におかれましても、デジタルツールの多様性やその有用性の在り方といった観点からご高覧いただけますと幸いです。
Resources for Kanjur & Tanjur Studies(rKTs)は、ウィーン大学の南アジア・チベット・仏教学研究室(Department of South Asian, Tibetan and Buddhist Studies)の Tibetan Manuscripts Project Vienna(TMPV)が構築・管理している、チベット大蔵経のデータベースである。TMPV は、チベット大蔵経(写本)の記録、保存、普及、調査を目的とした一連の研究プロジェクトであり、rKTs は、そのメインデータベースである。
カンギュル(bKa’ ’gyur, ブッダの言葉の翻訳)とテンギュル(bsTan ’gyur, 論書の翻訳)、そして古タントラ全集のオンラインカタログ、画像データ、電子テキスト等を提供しているが、メインとなるのは、カンギュル資料である。
チベットでは、8世紀末から、国家事業として本格的に仏典の翻訳がはじまり、これらの翻訳は、僧院や王宮で書写され、広まり、収集され、14世紀初には、「カンギュル」と「テンギュル」という文学的コーパスが出現した。このうち、ブッダの言葉を集めた「カンギュル」は敬礼対象として位置づけられ、何世紀にもわたって、宗教的、政治的指導者や裕福な在家の依頼により、かなりの数が製作され、伝承された。TMPV は、現地調査を行い、チベット文化圏に残されている写本カンギュルを調査・撮影・公開するとともに、コレクションの比較構造分析とテキスト批判分析により、その系統や伝承ルート等を明らかにしている(TMPV の詳細については、https://tmpv.univie.ac.at/ を参照)。
ウェブサイト(http://www.rkts.org/)は、10項目のサブメニューに構成されているが、そのうち、(1)コレクション(The Collections)、(2)検索(Search in the Canon)、(3)画像ビューア(Image Viewer)、(4)電子テキストビューア(E-text Viewer)、(5)分析ツール(Analytical Tools)、(6)他のツール(Other Tools)について簡単に紹介する。
(1)「コレクション」には、データベースに収録されている「カンギュル」「テンギュル」「古タントラ全集」の情報を掲載している。現時点で、カンギュルは80種を超えており、これらの略号(Sigla)、系統(Tshal pa, Them spangs ma, mixed, independent, Old Mustang, undefined の6つに分類)、地域・場所、一部のカタログ(outline)を示している。テンギュルは、ペトゥルマ版、チョネ版、デルゲ版、金字写本、ナルタン版、北京版の6種である。
(2)「検索」では、タイトル(Title)、章題(Chapters)、文句(Quotation)、各カンギュル・デンギュルの略号とテキスト番号(ID N°(Kanjur & Tanjur))で検索することができる。文献のタイトルについては、各カンギュルによって、あるいは、テキストの冒頭・末尾等に記されているものが異なる場合があるが、そのすべての異名が登録されており、部分一致方式が採用されている。検索された文献の諸テキストについては、各カンギュルにおけるテキスト番号、タイトル、ロケーション、巻数(bam po)、コロフォン等の情報、そして画像データや電子テキストを閲覧することができる。
(3)「画像ビューア」では、30種以上のカンギュル、4種のテンギュル(デルゲ版、金字写本、ナルタン版、北京版)、古タントラ全集の画像データを、(4)「電子テキストビューア」では、3種のカンギュル(デルゲ版、ラサ版、リタン版)、デルゲ版テンギュル、古タントラ全集の電子テキストを閲覧することができる。電子テキストは、該当ページの画像データと同時に表示される。
(5)「分析ツール」は、コレクションの構造分析(Structural analysis of collections)、テキストの構造分析(Structural analysis of texts)の二つに分けられるが、後者は、現在利用できない状態である。コレクションの構造分析は、カンギュルにおける経典の配列順を比較することによって、カンギュル間の構造的相違を分析することであり、その結果はグラフで表示される。
(6)「他のツール」では、チベット語縮約形辞典(Tibetan abbreviations)、ペリオ将来敦煌チベット語文献データベース(Pelliot Tibétains)、モンゴル語辞典(Mongolica)を提供している。
TMPV の一連の成果によって、消滅の危機に瀕していた写本カンギュルやカンギュル編纂以前の写本群の画像とカタログのデータが次々と公開されている。これにより今後、カンギュルの成立や伝承、系統等を扱う「カンギュル」そのものの研究はもちろん、カンギュルを用いた仏典研究の発展が期待される。
https://music-encoding.org/update/2022/11/13/mec2023-update.html
https://www.jadh.org/jadh2023cfp
https://jslis.jp/events/annual-conference/
https://sites.google.com/view/pnc2023
https://digitalarchivejapan.org/kenkyutaikai/8th/
2023年7月10日から14日にかけて、デジタル・ヒューマニティーズ(以下、DH)分野における最大の国際学会、ADHO Digital Humanities Conference の2023年大会(以下、DH2023)がオーストリア・グラーツで開催された。コロナ禍直前の2019年以来、4年ぶりの対面開催ということもあって各国から多数の参加者が集い、活発な議論や情報交換が行われていた印象である。この学会には日本からも20人規模での参加者があり、今後、国内でもさまざまな場で、さまざまな観点から情報の共有がなされることと思うので、ここでは筆者自身の関心に基づいていくつかのテーマや発表を取り上げ、参加報告としたい。
筆者の主な関心は、リンクトデータをはじめとするセマンティックウェブ関連技術の歴史(人文)情報への応用にある。近年、DH 分野では、これらの技術に関連する理論構築や実践がますます盛んに行われるようになっており、DH2023においてもこの傾向は顕著に見られたように思う。学会プログラムを見ると、セッション題目そのものに「Linked open data」を冠するものが二つ(LP-T4G, LP-F3E)あり、そのほか、「Networks and graphs」(LP-T4B)や「Network analysis」(LP-F1E, LP-F3D)といったセッションにおいても、リンクトデータや知識グラフを利用した研究発表が見られた[1]。また、研究発表のみならず、ワークショップやパネルにおいてもセマンティックウェブ関連技術を扱うものがいくつかあり[2]、それらも含めると、きわめて多様な議論がこのテーマに関して交わされたことがわかる。本稿でそうした議論のすべてを取り上げることはできないが、ひとまず、①資料メタデータの構造化と利用、②データ基盤の整備、③資料コンテンツの表現、の3点を軸に概要を述べることとしたい。
まず、①資料メタデータの整備と利用は、人文学におけるセマンティックウェブ技術応用の本丸ともいうべきテーマであり[3]、いくつかの有益な発表がなされた。たとえば、LP-T4G における Arcangelo Massari らの発表はデジタル資料の来歴、すなわち典拠資料やデジタル化に関与した行為者といったコンテキスト情報を記述するためのデータモデルや技術のサーベイを行なっており、リンクトデータによるメタデータ構造化をメタ的に分析する試みといえる[4]。こうした研究は、必ずしも技術的な新規性を有するものではないが、既存のスキーマやオントロジーを再利用することでデータ間の相互運用性を確保することが重要な意義をもつセマンティックウェブ技術の利用においては重要な試みであるといえるだろう。今後、国内の DH 学界においても、特定のテーマや分野を対象とした同様の研究がなされるようになれば、当該分野におけるセマンティックウェブ技術の活用に資する可能性がある[5]。そのほか、より具体的なデータ構築や利用の事例としては、「remediation(改善)」という概念に基づいて複数の異なるデータセットを接続し統合的な大規模リンクトデータを構築する試みを論じた Kim Martin らの発表や[6]、美術資料のメタデータと文献資料を接続・可視化し、単なるデータ検索にとどまらないデジタル・ストーリーテリングの実践を試みる Valentina Pasqual らの発表が興味深かった[7]。
他方、②データ基盤の整備という観点から有益であったのは Pelagios Network のパネル(PN-W3G)である[8]。Pelagios Network は、地名を中心とする種々の人文学データをリンクトデータとして整備することを目指す研究コミュニティであり、データモデルの提案やツールの開発など、さまざまな取り組みを進めてきた[9]。DH 分野において有名なウェブアノテーションソフトであるRecogitoも、この Pelagios Network の成果の一つである。今回のパネルでは、コミュニティ全体の沿革と理念が示されたのち、それぞれのパネリストが、コミュニティに参画している協働プロジェクトの紹介を行なった。その詳細については割愛するが、Pelagios Network はその歴史からみても規模からみても、人文学分野における最も重要なリンクトデータ研究コミュニティであり、その動向は今後も大いに注目される。セマンティックウェブ技術を用いた人文学研究のさらなる発展のためには、人物・地名・時間・出来事・概念等の参照点となる基盤データの整備が欠かせない[10]。そしてその際、大規模なコミュニティ形成に基づくデータ整備はきわめて有効である。この点に鑑みて、Pelagios Network の活動から学ぶ点は非常に多いと感じた。
最後に、③資料コンテンツの表現については、いくつかの萌芽的な研究が始まっているという印象を受けた。ここでいう資料コンテンツの表現とは、メタデータよりも「粒度の細かい」、個々の資料の具体的な内容そのものの構造化を意味する。この点で興味深い論点を提出しているのが、LP-F3E における Giacomo Nanni らの発表である[11]。この発表では、セマンティックウェブに基づくデータ構造化と非構造的なテクスト記述の関係性が重要な論点となっている。というのも、テクストに記述されている情報のすべてをリンクトデータとして構造化することが基本的に不可能である以上、どこまでを構造化データとして抽出するかが問題となるからである。Nanni らは、テクスト記述そのものを詳細に構造化することはせず、テクスト中の美術作品や人物への言及箇所のみをマークアップし、その箇所と外部データとのリンクをテクスト上で可視化することで、リンクトデータとしての構造化データと具体的なテクスト記述を接続しようと試みている。それゆえリンクトデータとして構造化される部分のみを見れば、それは依然としてエンティティ・リンキングの段階にとどまっているといえる[12]。他方、テクストの記述内容そのものをできるだけ詳細にデータとして構造化しようとするのが、LP-T3C における David Zbíral らの発表である[13]。彼らが提唱する CASTEMO モデルは、テクスト記述における各要素の配列や連関、具体的な表現・語彙などを保持したまま構造化データとして表現するためのモデルであり、いわばテクストの定性的な側面をデータ化しようとする試みである。彼らはこのような、きわめて定性的な情報を保持しつつ機械可読なデータを構築し、資料読解や解釈に活用する試みを Source Criticism 2.0と称している[14]。この Source Criticism 2.0の有効性を評価するにはいましばらく時がかかるだろうが、いずれにせよ、テクスト記述のセマンティックな部分にまで踏み込む先駆的な研究の一つとして興味深い。
以上、筆者の関心に沿いつつ、セマンティックウェブ技術に関連する発表をいくつか紹介した。冒頭で述べたように、当該技術はいまや DH 分野における主要テーマの一つとなっており、ここで述べたもの以外の研究も紹介されていた。そうした多様な研究動向を前提としつつ、あえて雑駁な所感を述べるならば、今後の DH におけるセマンティックウェブ技術の活用をめぐり、リンクトデータに基づく資料の解釈や叙述の実践がより重要になってくる可能性を指摘しておきたい。すなわち、これまではメタデータ記述を中心に、主に情報の検索性や発見性を高める方向でリンクトデータが用いられてきたが、リンクトデータを用いたストーリーテリングの試みや、テクストの記述内容そのものをリンクトデータとして構造化しようとする動きが存在することからもわかるように[15]、今後は資料の読解や解釈に関わる情報表現の分野へのセマンティックウェブ技術の応用が DH における重要な課題の一つになるのではなかろうか。その場合にはむろん、資料記述に含まれるさまざまな曖昧性や不確定性、多義性をいかにリンクトデータとして扱うかが重大な検討事項として浮かび上がってくることになるだろう[16]。
DH2023では、セマンティックウェブ関連以外にも DH のさまざまな重要テーマが扱われ、それぞれに興味深い研究発表と議論がなされていたが、それらの報告は他の参加者によるイベントレポートに譲ることとしたい。じつは筆者にとって、対面での DH 学会参加は今回が初めてであったが、他の学会とは比較にならない規模や議論の多様性に感銘を受けた。また、名前は知っていても面識のなかった研究者、あるいはそれまで知らなかった研究者やプロジェクトを知り、懇親会や休憩時間に深い議論を交わせたことは、今後の DH 研究へのモチベーションを高める意味でも大変有意義であった。
2023年7月10日から14日にかけて、オーストリアのグラーツにて人文情報学の国際学会 DH2023が開催された。コロナ禍の影響を遂に脱し実に4年振りの現地開催が叶った今学会は、874の参加者を集め239の口頭報告、28のワークショップ、105のポスター報告が為され、大盛況を収めた。本報告は、16世紀ドイツ法制史を研究する筆者の目に映った限りでの雑感をまとめたものである。なお筆者自身は10、11日に開催されたワークショップと12日の口頭報告ならびにポスター報告にのみ参加した為、また畑違いのことを専門としているので、情報や現状理解に不完全・不正確な部分があるであろうこと、ご海容願いたい。
筆者が身を寄せる法制史という領野にとって、DH の手法論は未だ懐疑的な視線を向けられる対象である。筆者自身も、(本大会への参加によってますます確信することとなったが)急速に成長する Digital な手法論の存在感を無視することはできないと感じつつも、未だ手を伸ばしあぐねている。そして、今回行われた諸報告から、その原因が少し明らかになった感覚がある。それ故以下ではその端緒となった文体統計学に関する諸報告を中心にレポートを著す。
今大会では1つのワークショップと二つのセッションが文体統計学を扱うものであった。11日に行われたワークショップ Drafting Standards for Stylometry では、パラメータの調整一つで全く異なる結果が算出され得るビッグデータを念頭に、如何にして信頼性を保つことが出来るのか、という手法論が、法廷における著者鑑定などを事例として交えつつ議論された。統計の信頼性を巡る議論はしばしば技術論に終始するが、ここでは寧ろ分析されるデータの質をどう確保し得るか、に焦点が当てられており、伝統的な手法を採る筆者にとっても実りの多い議論が展開された。
しかしこのワークショップで為されたような、手法論の信頼性に関する議論が実際の文体統計学の研究に於いてどこまで考えられているか、とりわけ伝統的な研究と接続可能であるかは、12日の口頭報告を聞く限り未だやや疑問であった。しかしこれは上述のような議論の不徹底に由来するものではない。幾つかの報告を事例に挙げてみたい。例えば、G. Yoffe et al., A Statistical Exploration of the Hypothesized Partition of the Books of Genesis and Exodus into Priestly and non-Priestly Components では、モーセ五書の形成に際して幾つかの元となる文書が存在するという、所謂文書仮説を文体統計学の手法によって検討しようとするものであった。元文書はしばしば四つ存在すると言われ、とりわけ P(Priest)史料と呼ばれるものが重要とされる。この仮説は19世紀旧約聖書学の偉大な成果の一つとされ、今日でもなお基礎的な学説である。それ故本発表は、文体統計学のみならず聖書学にとっても重要な知見をもたらし得るものであった。この報告では度々前述のワークショップで為された信頼性の議論が持ち出されており、史料の扱いも概ね納得し得るものであった。だが、この研究成果を我々が引用したいかというと、首肯しかねるのも事実である。本報告は元文書を P と non-P の二グループに分類するが、P 史料以外の三文書を一括りにして分析にかけて良いのかが判らないからである。より精確に言えば、三文書を一括りにして扱った際に生じる分析への影響が、どう結果に表れるのかが、技術に疎い伝統的な人文学者からすれば全く分からず、批判・検証のしようがないからである。それ故、我々は何故そのような前提に立ったかを問い、その前提に見合った条件設定の下でどのような解析が為されたのかを知りたいと思うのだが、限られた時間の中では大抵最初にこの説明が削られる。
同様の問題を抱えた報告は他にも為された。C. Ning, Z. Wei, Genre Identification and Network Analysis on Modern Chinese Prose Poetry では、中国近代詩の二つのジャンルの特徴を、文体統計学によって取り出そうとする試みであった。ここで行われた分析では、先んじて二つのグループを設定する手法論を採っていたが、このようなジャンル特定をする際には一種の循環論法を引き起こす懸念がある。また、詩のような短い文章は後述のように文体統計学に於いて分析の信頼性を担保しにくいことも知られている。しかし報告では史料に即した手法論の擁護はされていなかった。これは何も文体統計学に限った特殊な問題ではない。A. Niekler et al., Marco Polo’s Travels Revisited: From Motion Event Detection to Optimal Path Computation in 3D Maps で為された、マルコポーロ『東方見聞録』の旅程の3D マップ化に於いても、内容が異なる数多くの版が存在する史料群の内、どの情報に則って作成されたものなのか、といった史料と手法の関係の説明はされていなかった。
その点で白眉であったのは、S. Rebora, Short texts with fewer authors. Revisiting the boundaries of stylometry である。この報告では、文体統計学に於いて信頼性が担保できる下限の長さに関するものであり、複数の近代西洋語の様々な長さの文章を用いて実験的な分析を行った。解析に於けるパラメータの変更の影響は一目瞭然であり、史料と手法論の連関についても批判可能性が高く担保された、説得力のある議論であった。このような議論こそが、今我々人文学者側が求めている人文情報学の研究成果の信頼性の提示ではないだろうか。
とは言えそれぞれの研究自体が、総じて各研究者の手法論に対する深い議論に基づいていることを、疑うつもりは毛頭ない。情報学内部に於ける議論の信頼性を高める努力はこの大会を通じてひしひしと感じ、寧ろ我々よりもよほど誠実でさえあった。であれば、何故我々はこれ程までに頑迷に Digital な手法論に疑いと不信の視線を注ぎ続けるのだろうか。
我々が無知であること、それによって参入障壁が高いものになっていることがその一因であることは、これまでにも幾度となく指摘されてきたことであるので今更敢えて言うこともない。しかし今回の大会参加によって、人文学の需要と DH の供給の微妙な認識のズレにも一因があるのではないか、と感じるに至った。今日開発されている様々なツールや報告は、どことなく「内部構造が判らなくても使える・信頼できる」ようにすることで技術的障壁を越えることを目指している感があるが、我々が真に求めているものは違うのではないか。確かに我々は Delta や Zeta といった関数を使った計算や、Stylo R Package といった技術ツールについて知識を持ち合わせない。だからといってその数値に関心がないわけではない。寧ろ、我々はその数値やツールによる処理過程の妥当性について対話ができるようにして欲しいのではないか。言うなれば我々が求めているものは、技術の文体の、人文学の文体への翻訳ではないだろうか。
大会を終えドイツへ帰国して、指導教官から言われた言葉はその点で示唆的であった。「我々は使えればいい」。筆者自身もそうだ。しかしそのような伝統的な研究手法と Digital な研究手法の架橋の為に今必要なことは、ユーザビリティという言葉の意味をもう一度よく考えることではないだろうか。技術的な使い易さではなく、もっと根本的に二つの議論の枠組みを寄せ、人文学の文体で分かり易くしていく努力、史料と技術の連関を、人文学のそれと共通の枠組みで示すことが必要ではないだろうか。参入障壁を下げることも重要であるが、その一歩先に照準を合わせるべき時が来ているのかもしれない。
令和6年度文部科学省 概算要求が発表されたということで、あちこちで話題になっていますね。今回、人文情報学に関連しそうなものとしては、新規で「人文学・社会科学の DX 化に向けた研究開発推進事業」というのが出ているようで、デジタル・ヒューマニティーズコンソーシアムの運営、データ分析による可視化に向けた研究開発、という二本の柱のなかで、関連する規格の整備や利活用の促進、人材育成といったことに注力していくという話のようです。また、文理横断的なデジタル人材を輩出する学位プログラムの構築を支援すべくすでに展開されている「デジタルと掛けるダブルメジャー大学院教育構築事業〜X プログラム〜」についても、新規に12校が要求されており、学部のプログラムも対象にするとのことです。デジタル時代に向けた人文学のさらなる発展が学術政策として支援されていくのはありがたいことです。こういった支援を最大限活かしてよりよい研究環境の構築に向けて皆で進んでいきたいところですね。(永崎研宣)