ISSN 2189-1621 / 2011年08月27日創刊
Camille Desenclos による本章は[1]、『Digital Scholarly Editing』実践編の第3章であり、近世の書簡のデジタル編集版作成における問題点を挙げながら、著者が関わるフランス国立古文書学校の近世書簡の編集を通して得られた解決策とそこからの発展のために求められる姿勢について論じるものとなっている。
著者は書簡について、「歴史研究の分野において最も重要な資料の1つであり、おそらく他のどの資料よりも、政治的、文化的、さらには商業的な力が働いていることを示すものである」と指摘する。加えて、書簡は「1つの行為の結果ではなく(…)過程の一部」であるため、学術的な目的のためには「この過程を再構築しなければならない」。そうすることで、書簡を個々別々のものとしてではなく、他の書簡やアーカイブへの参照等を通じて、知的実体として考えることが出来るのである。しかし、書簡は様々な情報を持っているため、不均質なものであり、内部的な一貫性の保持が難しいという課題がある。
こうした編集上の問題に加え、メタデータの取扱いの問題もある。メタデータは「書簡の学術編集版にとって極めて重要であり」、差出人、宛先、作成日等によって、「書簡全体の中でのその書簡の位置を正式に証明する」。「メタデータの優れた構造化がユーザーに有用な基盤を提供するのであれば、これらはうまく表示されなければならない」が、現状のデジタル学術編集版は、検索ツールにより個々の書簡へのアクセスは問題ないが、「書簡の全体的な一貫性を反映しない」。これでは、「書簡によって生み出された対話が途切れてしまい、研究者は筆記行為のより広い文脈を検討できない」。そのため、書簡の学術編集版は、情報の継続性に注意を払わなければいけない。加えて、書簡のデジタル学術編集版の目的は「書簡のデータベースを作成することではなく、一貫した研究対象を提供することにある」。編集版は当初の目的と異なる目的で利用されることがあるため、「メタデータを明確にした上で、堅牢で再利用可能な構造を構築し、編集版のページによる直接的な研究と、基盤となる XML ファイルによるより広範な利用の両方を実現することが目標となる」。
しかし、近世の書簡は現代の書簡とは大きく異なる。例えば、「近世の書簡には封筒が無く、宛先は最後のフォリオの裏面に書かれる」。であるため、書簡の本文とは区別する必要があり、こうした形式は「デジタル編集版の準備の際に、明確にかつ正確に再度転写されなければならない」。著者らはこれらの符号化に際に TEI ガイドラインを用いるが、この論考執筆時では、TEI ガイドラインで提供される要素では、近世の書簡の仕様を符号化するには広い意味を持ちすぎており、そうした特殊な仕様を符号化するために属性を用いると冗長化してしまうという難点があることを指摘している。
こうした状況を受けて、著者は「近世の書簡に必要なのは、新しい要素ではなく、その特殊な構造に合わせた、より制約の多い符号化である」とし、ドキュメンテーションによる解決を試みる。実際、著者は、フランス国立古文書学校での書簡の編集版で、TEI に基づいたスキーマに、近世書簡のために特別に書かれたドキュメントを追加した。このドキュメンテーションは「編集上の要件と符号化の推奨事項の両面から構成されて」おり、「研究者にとっても使い勝手が良い」。研究者にとって意味ある符号化にするために、著者は当該プロジェクトにおいて、資料全体を1つの XML 文書とし、書簡を特定するために必要とされるメタデータ(差出人と宛先、場所、時間、要約など)を<front>要素内に記述することで、伝統的な学術編集版の構造を複製することに成功したと語る。また、TEI の方でも TEI-SIG on Correspondence による活動の結果、2015年に TEI ガイドラインには新しい要素である<correspDesc>が追加され、送信者、宛先、場所などの「1つの通信行為に関連する行為を記述することが出来るようになった」。しかし、未だ不十分な点もあるため、「近世においては、より軽く、正確な書簡の符号化を実現するために、さらなる工夫が必要である」。加えて、著者らのモデルも「いくつかの具体的な問題を解決するが、近世書簡の全分野をカバーするものではない」ため、「事柄は固定されたものではなく、符号化のそれぞれの経験や実践に従って適合されなければならない」。
著者曰く、「TEI-SIG on Correspondence は、切望されている共同への最初の重要なステップと考えることができる」。そこでは、「書簡を扱うさまざまなプロジェクトを結びつけ、メーリングリストや年次会議を通じて、一般的で自由な議論を奨励しようとしている。その活動は、書簡特有の特徴を符号化するための解決策をドキュメント化し、見つけることに重点を置いており、研究者が書簡を編集する際に遭遇する主な問題を特定し、リスト化することができる」。こうした試みの成功のためには、「多くの時代、国、文脈からの資料を網羅する、可能な限り最大のデータセットを考慮に入れることが重要であり」、効果的なモデルを構築するために、様々なプロジェクトと協力する必要がある。であるため、著者は「あらゆる種類の、あらゆる時代の書簡に適した一般的なドキュメントを構築するために、書簡にまつわる動的なコミュニティの創設を呼びかけている」。
以上、2016年に発表された論考について、原文の表現を借りながら要約と紹介を行った。この論考で印象的なのは、紙の学術編集版の利点として情報が細切れになることなく、継続的に読んでいけることを挙げており、紙版が持つ利点を積極的に活かそうとしている点である。伝統的な編集版の方法に優れた点があるならば、デジタル形式でそれを表現出来るようにすべきである。従来のやり方を再度検討し、必要とあらばそれを継承することは、良いデジタル化を行うために求められる姿勢なのかもしれない。さて、論考では近世の書簡の特殊性が強調されるが、著者はそこに留まるのではなく、様々な国、時代、文脈のあらゆる書簡を網羅するためのドキュメント構築のための呼びかけを行っている。論考を読む限りでも、極めて多彩な書簡でそのようなことが可能なのかどうか興味は尽きないが、もし可能であるなら、一般化が難しいと思われるような他の資料にも重要な知見となるはずである。
https://kn.ndl.go.jp/static/2024/11/06
https://www.hi.u-tokyo.ac.jp/di/news/2024-11-14
https://www.jinmoncom.jp/?CH137
2024年6月18日から21日にかけてポルトガルのリスボンで開催された DARIAH-EU の年次国際カンファレンス「DARIAH Annual Event 2024 」に参加してきました。このカンファレンスは、欧州におけるデジタル・ヒューマニティーズ(DH)に関する最新の研究動向や実践を把握すると共に、国や機関を越えた連携を促進し、新たな知を共創するための議論の場としても重要であると考えられます。
今年のテーマは「Workflows: Digital Methods for Reproducible Research Practices in the Arts and Humanities」であり、再現可能な研究手法の重要性を緩やかな共通のアジェンダとして事例紹介や議論が展開されていました。このイベントは多様なコミュニティとの出会いや学術的・実践的な交流を創発するようにデザインされており、技術的・方法論的・インフラ的・概念的な観点から、芸術・人文学研究の文脈における共通のトピックを探求する場をアレンジしている点に特徴があり、日本でも参考にしたいカンファレンス・デザインだと感じました。
DARIAH(Digital Research Infrastructure for the Arts and Humanities)は、2014 年 8 月に欧州研究インフラストラクチャコンソーシアム (ERIC) として設立され、現在は23 のメンバー国と11 の非メンバー国に複数の協力パートナーが協働している体制をとっています。個人的にはこれまでの研究では Europeana、特に EUROPEANA EDUCATION COMMUNITY との連携を進めてきましたが、芸術と人文科学全般にわたるデジタルを利用した研究と教育の強化・サポートを目指す DARIAH からは、DH コミュニティ間の連携や教育に関する実践知を学ぶと共に、日本における DH の発展に繋がる「人」と「データ」のネットワーク構築の一歩となることを目指したいと考えました。
ワークショップでは、SSH Open Marketplace ポータルにおいて提供されているツール・トレーニング資料・データセット・出版物などを研究の効率化と再現性の向上に貢献するものとして紹介されていたり、DH 分野の卒業生がどのようにして産業界や教育界でのキャリアを築くかについて議論されていたことが印象的でした。日本においても、日々忙しい業務に追われる皆さんが、いかにタスクを効率化しつつ研究をドライブさせるかといった実用性や、学部生・院生・若手研究者らのアカデミックキャリアをどうするか、そのためにどのようなカリキュラムや学習プログラムを構築すべきかといった教育面の議論を進展させることが重要だと思いました。
メインカンファレンスは、Toma Tasovac 氏(DARIAH-EU Director)とAndrea Scharnhorst 氏(Data Archiving and Networked Services, Royal Netherlands Academy of Arts and Science)の共同司会で始まり、Meredith Martin 氏による基調講演「Worked Up About Data」が行われました。この講演では、人文科学データをめぐる歴史と論争を探究するという視座のもと、データ駆動型研究の重要性が再確認されました。
おそらく世界中のあらゆる学会で同様の傾向であると思われますが、このカンファレンスでも AI に関するセッションが設けられ、注目を集めていました。「AI for DH」セッションでは、AI の DH への活用例が発表されていました。例えば、膨大な資料を対象としたデジタルアーカイブ化における機械生成カタログの作成手順が紹介され、テキスト・要約・名前付きエンティティ・キーワードなどのカタログとして、技術者でないユーザーでもアクセスできる Markdown 形式のタグ付けされた資料の公開までのフローが提示されていました。他にも、ヘブライ語古文書学と深層機械学習を組み合わせた研究として、写本の自動クラスタリングにより、新しい古文書パターンの発見や、文字種に基づくレイアウト区分の改善などが期待されるという主張も述べられていました。
このように、AI 等の情報技術が人文学研究に新たな視点を提供し、従来の方法ではなかった洞察を得るための強力なツールとなることが示されたことは、DH の大きな可能性を感じられた点であり、日本においても人文学研究者を楽しく DH コミュニティにいざなうトリガーになり得ると考えています。
GLAM(美術館 Galleries・図書館 Libraries・公文書館 Archives・博物館 Museums の頭文字)機関の連携のためのツールや、持続可能な識別子に関する議論も興味深かったです。その中でも個人的に関心を持った問いは以下のような点です。
これらは日本においても議論されてきた論点ではあるものの、十分に検討されていない節もあり、今後は機関を越えた連携に向けた、対話の場を創出していくことも肝要であると考えています。
今回私自身は、Poster セッションでの発表が採択されたので、人間文化研究機構の DH 促進事業で進めている Project のワークフロー、とりわけ教育動画コンテンツである「DH 講座」にフォーカスして発表を行なってきました。DH 講座は「DHの魅力や楽しさとは?」「DH に関する研究者の考え」「研究を発展させるための DH に関する知識や技術」などについて、動画を通して楽しく学べる教育コンテンツです。実はこのD H講座には、人文情報学研究所の永崎研宣先生の深大なご協力を賜り、DARIAH-EU の Director である Dr. Toma Tasovac 氏に特別出演していただいたご縁がありました。
発表では多くの方と議論・交流する機会があり、帰国後も今後の連携に向けて連絡をくださる方がいたりと、暖かく、力強い、素晴らしい出会いの場になったことを嬉しく思っています。とりわけ、DARIAH-Campus の Training & Education Officer である Vicky Garnett さんとは、今後の連携に向けた具体的な議論を続けており、DH 講座と DARIAH-Campus のコラボレーション実現に向けた歩みが踏み出されています。特に日本においては DH 教育のカリキュラムやプログラムが確立していない段階だからこそ、コンテンツの制作や相互運用、協力関係を築くことが重要であると考えています。
DARIAH Annual Event 2024 では、再現可能なワークフロー、AI 技術の応用、異分野間の連携に関する刺激的な知見を得ると共に、新しい仲間と出会うことができました。この貴重な機会を大切に、今後の研究と実践に励みたいと考えています。日本と欧州の DH に関する架橋・連携が進み、インタラクティブな知識交換を促進することができれば、新たな知が共創され、人文学資料や研究成果、文化遺産の保存と活用、そして教育におけるイノベーションが創発されると信じています。
このメルマガでもご紹介していた「仏教研究とデジタル・ヒューマニティーズ(DH)国際シンポジウム」の2日目は、筆者にとっては、おそらく2024年を通じて一番の大仕事になりました。元々、仏教研究においてデジタル研究環境を整備しようという動きは国際的にはとても盛んで、10年くらい前からは、毎年数回、世界のどこかで関係者が集まって情報交換や議論をするイベントが開催されてきました。コロナ禍の間は一時的に止まりましたが、徐々に復活し、筆者が参加したものだけでも2023年には1月にハンブルク、4月にウィーン、2024年には4月に台北、10月には UC バークリー、といった案配でした。こういう流れを受けて12月に SAT 大蔵経テキストデータベース研究会が開催したのがこの「仏教研究と DH 国際シンポジウム」でした。世界各地から代表的なプロジェクトの研究者を招待し、デジタル研究環境から AI の活用に至るまで様々な議論が活発に行われました。このような場を日本の多くの研究者の方々と共有できたことが何よりまずはとてもうれしいことでした。一方で、この日は国内の30カ所の DH 研究組織に集まっていただいてポスター・デモンストレーションを出展していただくというイベントを組み込み、世界のデジタル仏教研究者達と日本の DH の対話の場を設けることも企図しました。この件は、仕切りで忙しかった筆者には現場を直接確認することはあまりできなかったのですが、色々な議論が出来たと伝えてくださる出展者の人が結構おられ、概ね所期の目標は達成できたのではないかと思ったところでした。
このイベントは1日目は主に日本語で開催され、AI と思想研究ということで「西洋古典特化型 AI「ヒューマニテクスト」を開発している名古屋大学の岩田直也氏や東大 DH を率いる AI 研究者の大向一輝氏らとともに筆者も登壇させていただき、10月に UC バークリーで発表した仏教研究用生成 AI ボットを日本では初紹介しました。参加者限定で URL を公表して少し試してみていただいたりもしましたが、聞こえてくる限りでは面白がっていただけているようでした。こちらも生成 AI を研究支援やアウトリーチの可能性など、色々な建設的な議論ができた会になりました。これも大変ありがたいことでした。
12月は DH 関連のイベントが目白押しで、これ以外にもいくつか大変興味深いイベントがありました。11月の末から12月の最初に開催された台湾 DADH カンファレンスのポストイベントという位置づけで12月2日に台湾の中央研究院で開催された DH フォーラムでは、主に東アジア各地域の DH 研究者達が集い、それぞれ取組みが紹介されました。個々の研究者の研究背景や所属する組織の意向等に応じて様々なタイプの研究がありましたが、生成 AI や LLM をいかにしてうまく活用していくかが一つの共通のテーマになりつつあるようでした。その一方で、漢字の体系化や人物研究、東アジアにおける概念史の展開等において DH の研究プロセスの中に人間の解釈をどううまく組込んでいくか、ということも様々に取り組まれているようでした。組織の規模感や予算規模によって研究活動のスコープが規定されてしまうようであることも垣間見えましたが、これは DH 自体がそういう側面を持たざるを得ないということもあるのだろうと思ったところでした。筆者は午前と午後にそれぞれ、東アジア研究における Unicode の課題と日本での TEI の取組みの件という2つの発表をしました。
12月7日、8日に東北大学川内キャンパスで開催されたじんもんこんシンポジウムでは、コロナ禍以来初めての対面開催ということで120名ほどが参加して濃密な議論が行われました。ポスター発表が2セッションに分けて開催され、それぞれにじっくり質疑応答がなされていたことは、オンラインではなかなかみられないことで、筆者自身、様々に有益なものを得ることができました。やはり目立ったのは生成 AI や LLM を扱うものでしたが、一方で人がきちんとデータをデジタル化することを前提とした研究も着々と展開されており、その多様性もまたこのイベントの良い点だろうと思ったところでした。
これから年度末に向けて、さらに色々なイベントが開催されるようですが、まだ日程が公表されていないものも多く、メールマガジンではちょっと間に合わないこともありそうです。ここに掲載されるイベントカレンダーはこちらで随時更新されていますので、ぜひ注目しておいてください。