ISSN 2189-1621

 

現在地

DHM 088【後編】

人文情報学月報 / Digital Humanities Monthly


人文情報学月報第88号【後編】

Digital Humanities Monthly No. 088-3

ISSN 2189-1621 / 2011年8月27日創刊

2018年11月30日発行      発行数786部

目次

【前編】

  • 《巻頭言》「人文情報学による100年前の落穂ひろい
    鈴木俊哉広島大学総合科学部
  • 《連載》「Digital Japanese Studies寸見」第44回
    デジタル・コレクションを定位する
    岡田一祐国文学研究資料館古典籍共同研究事業センター
  • 《連載》「欧州・中東デジタル・ヒューマニティーズ動向」第8回
    ボドマー・コレクションが写本のオンライン・データベースを公開/ハンブルク大学が写本学のエクスツェレンツクラスター(ドイツ研究振興協会)を開設へ
    宮川創ゲッティンゲン大学

【中編】

  • 《連載》「東アジア研究と DH を学ぶ」第8回
    図書館総合展フォーラム「東アジア図書館とデジタルアーカイブ」
    菊池信彦関西大学アジア・オープン・リサーチセンター
  • 《連載》「Tokyo DigitalHistory」第7回
    『1641 Depositions』データベースとデータ可視化
    槙野翔東京大学大学院人文社会系研究科/日本学術振興会

【後編】

  • 人文情報学イベントカレンダー
  • 特別寄稿「書簡資料のデータ構造化と共有に関する国際的な研究動向:TEI2018書簡資料WSを通じて
    小風尚樹キングスカレッジロンドン/東京大学大学院人文社会系研究科
  • 編集後記

人文情報学イベント関連カレンダー

【2018年12月】

【2019年2月】

Digital Humanities Events カレンダー共同編集人

小林雄一郎日本大学生産工学部
瀬戸寿一東京大学空間情報科学研究センター
佐藤 翔同志社大学免許資格課程センター
永崎研宣一般財団法人人文情報学研究所
亀田尭宙京都大学東南アジア地域研究研究所
堤 智昭東京電機大学情報環境学部

特別寄稿「書簡資料のデータ構造化と共有に関する国際的な研究動向:TEI2018書簡資料WSを通じて

小風尚樹キングスカレッジロンドン Digital Humanities 修士課程/東京大学大学院人文社会系研究科博士課程

本稿は、2018年9月中旬に東京で開催された第18回 Text Encoding Initiative(以下、TEI)年次国際大会のイベントレポートとして、書簡資料のデータ構造化と共有に向けた Correspondence Description の取り組みに焦点を絞って、国際的な研究動向を紹介したい。近年、歴史研究において「書簡」は、コミュニケーションの媒体としての意味や効力、文化・社会的背景や様式論など、幅広い議論の射程を持つ研究対象として注目されている[1]。人文情報学の観点からは、本論で紹介するように、書簡にまつわる人物・日付・地理情報などのデータを構造的に管理し、コミュニケーションの履歴を視覚的に把握できるような取り組みが行われてきた。本稿は、書簡資料にまつわるデータ構築に焦点を絞るが、ここでの記述が歴史学および人文情報学研究者の間の分野横断的な研究プロジェクトを進める際の参考になれば幸いである。

本論の構成は、(1)タグセット開発の経緯とタグの解説、(2)書簡メタデータをめぐるデジタル・エコシステム、(3)書簡資料の相互運用可能なメタデータファイルの機械的生成のためのツール、である。

1 タグセット開発の経緯とタグの解説[2]

1.1 先行事例

書簡および書簡群をTEIで構造化するプロジェクトは長きにわたって存在してきたが、プロジェクトごとに異なる独自スキーマやガイドラインが提供されていた。例えば、1990年代にサウス・カロライナ大学で始まった先駆的なプロジェクト The Model Editions Partnership[3]、2000年代におけるプロジェクトとして Digital Archive of Letters in Flanders[4]や Carl Maria von Weber ― Collected Works[5]、フィンセント・ファン・ゴッホの書簡について原文と翻訳文の対照が可能な Van Gogh The Letters[6]などがある。進行中のプロジェクトもいくつか存在しており[7]、マークアップの対象としての書簡資料への関心の高さが窺える。

書簡資料をTEIマークアップなどにより構造化することで、キーワード検索に加え、人名・地名の索引などを提供するようなインタフェースを開発することが可能である。このようなインタフェースの例としては、オクスフォード大学ボドリアン図書館の Early Modern Letters Online(EMLO)[8]や、ヴィクトリア大学図書館の Colonial Despatches[9]のほか、書簡資料のマークアップに関するオンラインフォーラムとしても機能する correspSearch[10]が挙げられる。発展的なデータ活用事例として、書簡資料のやりとりを通して人的結合関係などを把握するためにデータを可視化することもよく見られる。例えば、啓蒙期ヨーロッパにおける学者の交流を描くスタンフォード大学 Humanities + Design ラボの Mapping the Republic of Letters[11]、イースター蜂起期における書簡のクラウドソーシング翻刻プロジェクトから発展してきたメイヌース大学(アイルランド)のLetters of 1916[12]、テキサス入植で知られる Stephen Austin の書簡を中心的に扱った Digital Austin Papers[13]をはじめ、さまざまなプロジェクトがある[14]。

1.2 <correspDesc> の開発に向けて

これまで挙げたような先行事例に基づいて、「TEIでどのように書簡をマークアップするべきか」、「校訂した書簡がどのようにリンクし合えるか」というリサーチ・クエスチョンを掲げ、2008年に TEI コンソーシアム内に Correspondence SIG(Special Interest Group)が設置された[15]。彼らは、書簡資料の TEI マークアップの方法論を開発するにあたって、書簡を構成する要素として「物質性」と「イベント性」を重視した。このうち物質性に関しては、TEI P5ガイドラインの10章「手稿資料の記述(Manuscript Description)[16]のタグセットを用いて書簡資料のマークアップを行うことが可能だとしている。

次にイベント性に関しては、コミュニケーションの形態という側面に注目し、人・組織/日付/場所/前後のやり取りを表現できるようなタグセットの開発が必要だと考えられた。彼らの活動の成果として結実したものが、2015年4月に TEI P5ガイドラインVer 2.8.0にて実装された <correspDesc> タグセットである[17]。一連のタグセットは、この書簡コミュニケーションにおける「イベント性」を記述することが目的である。したがって、書簡に関する「物質性」と「イベント性」に関する情報を包括的に記述するなら、<msDesc> と <correspDesc> の組み合わせが必要だということになる。

1.3 タグセットの解説

本節では、図1に示すように、簡単に <correspDesc> タグセットの解説をしたい。まず <correspDesc> は、<teiHeader> 内におけるメタデータ記述の一部として記述され、親要素として<profileDesc>[18]を持つ。子要素として、<correspAction>[19]と<correspContext>[20]を持つ。前者の <correspAction> は、@type 属性の値(sent; received; transmitted; redirected; forwarded)によって、人物が書簡のやり取りにどのように関わったのかを記述できる。後者の <correspContext> では、<ref> エレメント内の @type 属性の値(prev, next)と、(図1には示されていないが)@target 属性の値に URI を記述することによるID参照を通じて、当該書簡の前後の文脈を記述することができる。

図1:<correspDesc> タグセットの基本構成

2 書簡メタデータをめぐるデジタル・エコシステム

前章で述べたように、書簡資料のメタデータを記述するためのタグセットが開発されるに至ったが、書簡資料に関するデータを相互運用可能な形で記述することによって、どのような利点が得られるのだろうか。この問い自体は、書簡資料に限らず、人文学資料のデジタル校訂版を作成するにあたって、マークアップ規則が厳しいと指摘されることのある TEI を採用することの妥当性を問うことにつながるだろう。

書簡資料のメタデータを <correspDesc> タグセットを用いて記述することの利点は、端的に言えばデジタル・エコシステムを生み出すことである。すなわち、独自の基準ではなく学術コミュニティ内で共有された形式でデータを構造化記述することにより、コンピュータによる処理プログラム作成のコストを減らしたり、プロジェクトの垣根を越えてデータの指し示す内容を理解しやすくしたり、他のプロジェクトでの二次利用を促しやすくすることができる[21]。書簡メタデータをめぐるデジタル・エコシステムを生み出すためのプラットフォームとして機能しているのは、冒頭でも紹介したウェブサイト correspSearch である。

correspSearch は、オープン・プラットフォーム上で共有できる書簡のメタデータを提供することを目指したシステムである。すなわち、書簡資料のデジタル校訂版からデータを集約すること、集約した書簡メタデータに基づいてプロジェクトや組織の垣根を越えてユーザが書簡データを検索できるようにすること、特定の研究関心や時空間的制約あるいはテーマ的制約に依存しないこと、基礎データを修正したり更新したりすることを容易にする標準的でオープンなシステムであること、各種自動化処理や二次利用のために、集約したデータをオープンな技術インタフェースを通して提供すること、を目指している。

図2:correspSearch が生み出すデジタル・エコシステムのイメージ[22]

ここで言及される標準的な書簡メタデータというのは、前章で紹介した <correspDesc> の記述に基づいた CMIF(Correspondence Metadata Interchange Format)のことである。CMIF の記述対象は、書簡の本文ではなく、書簡資料のメタデータのみである。すなわち、書簡の送り手・受け手、書簡が書かれた(あるいは受け取られた)場所、あるいは書誌情報である。correspSearch では、この CMIF データを自動で生成する GUI ツール「CMIF Creator(図3参照)」を提供しているため、<correspDesc> の記法に習熟していなくとも、簡単な操作によって <correspDesc> に則って構造化された書簡資料のメタデータを取得することができる。

図3:CMIF Creatorのトップ画面[23]

ここで重要なのは、correspSearch が自動生成する CMIF ファイルは、人物名・地名に関しては、各国の国立図書館などが提供する典拠ファイルに準拠するということである。現状において correspSearch は、人名については次の典拠ファイルへの外部参照データを付与することをサポートしている。すなわち、ドイツ国立図書館の GND(Gemeinsame Normdatei)[24]、フランス国立図書館の Autorités der Bibliothèque nationale de France[25]、アメリカ議会図書館の Library of Congress Authorities[26]、日本の国立国会図書館の Web NDL Authorities[27]、そして OCLC(Online Computer Library Center)が提供するバーチャル国際典拠ファイルVIAF(Virtual International Authority File)である[28]。地名については、GeoNames をサポートしている[29]。このように、マークアップテクストから離れて、外部の典拠情報のURIへのリンクを参照するということは、セマンティック・ウェブの観点からも重要であり[30]、TEIコミュニティでも長きにわたって建設的な議論が蓄積されてきた実践である[31]。correspSearch で生成され、API で提供された CMIF サンプルも公開されているので、ご関心の向きは参照されたい[32]。

3CMIF の機械的生成のためのツール

 correspSearch では、GUI 操作による CMIF データの生成機能を提供しているのみだが、すでに表形式のプレーンテキストから CMIF データを自動生成してくれるツールが開発されている。この CSV2CMI ツールは、プログラミング言語 Python で開発されたオープンソースツールであり、ドイツの Saxon Academy of Sciences in Leipzig の Klaus Rettinghaus 氏によるものである[33]。CSV ファイルに書簡メタデータを記述しておくと、人名や地名に関しては correspSearch がサポートしている前述の典拠ファイルの情報と照合した上で、外部参照 URI を含めて CMIF データを出力してくれる[34]。もちろん、典拠ファイルとのリンク付けの信頼性について検討する必要はあるが、このように今では書簡資料のメタデータを簡単に生成できるようになっているため、生成された CMIF に基づいて書簡のやり取りに基づく人的結合関係の把握なども可能だろう。

4 おわりに

本稿は、TEI 2018 で行われた発表の中でも、特に書簡資料のマークアップに焦点を絞ったイベントレポートとなった。<correspDesc> タグセットの開発に至る経緯、書簡資料のメタデータをめぐるデジタル・エコシステムを生み出すプラットフォームとしての correspSearch、相互運用可能な書簡資料のメタデータファイル CMIF とその自動生成ツールについて紹介してきた。

関連事例として、個人的な研究実践で恐縮だが、書簡ネットワークの把握を試みたことがある。すなわち、筆者は2017年の第67回日本西洋史学会大会において、1860年代におけるイギリスと清朝中国との間の天津条約改正交渉にまつわるイギリス外務省内の政策決定過程について、イギリス外務省機密史料 FO 881を基に公信の送受信に基づく情報ネットワーク図を可視化したことがある[35]。データ可視化方法などについては自身のブログで公開しているが[36]、このような研究実践においても CMIF でデータ管理をしておくことが有効だったであろうと感じた。

冒頭で述べたように、書簡資料は歴史学および人文情報学の双方の分野で注目されている研究対象である。本稿が、日本でも書簡資料を対象とした TEI マークアッププロジェクトを分野横断的に進める際の参考になれば幸いである。

[1] 例えば、岡崎敦「西欧中世における「書簡」資料をめぐる諸問題」新井由紀夫編『「中・近世西欧における書簡とコミュニケーション」キックオフ・シンポジウム報告書』2018年、5–22頁、など。
[2] 基本的に本章の内容は、Peter Stadler, Sabine Seifert, Stefan Dumont, Anne Baillot, “Introduction to TEI Encoding of Correspondence Meta Data,” TEI 2018, Tokyo, 9th September 2018 に依るものである。
[3] The University of South Carolina Board of Trustees, The Model Editions Partnership: Historical Editions in the igital Age, 2000, http://modeleditions.blackmesatech.com/mep/(アクセス確認日時は2018年11月17日。以下同様)
[4] The Centre for Scholarly Editing and Document Studies of the Royal Academy of Dutch Language and Literature, Digital Archive of Letters in Flanders, http://ctb.kantl.be/project/dalf/index.htm; https://eadh.org/news/2011/05/20/digital-archive-letters-flanders-dalf
[5] Complete Works of Carl Maria von Weber, Digital Edition, http://weber-gesamtausgabe.de/A070009 (Version 3.3.1 of August 24, 2018)
[6] Leo Jansen, Hans Luijten and Nienke Bakker, eds., Vincent van Gogh The Letters, http://vangoghletters.org/vg/
[7] Jung Joseph, hrsg., Digitale Briefedition Alfred Escher, Launch Juli 2015 (laufend aktualisiert), Zürich: Alfred Escher-Stiftung, https://briefedition.alfred-escher.ch/;Letters and Texts:Intellectual Berlin around 1800, http://www.berliner-intellektuelle.eu/?en;Maurizio Ghelardi, Burckhardt Source, http://burckhardtsource.org/;University of Cambridge, Darwin Correspondence Project, https://www.darwinproject.ac.uk/; August Wilhelm Schlegel’s Correspondence, http://august-wilhelm-schlegel.de/briefedigital/
[8] Cultures of Knowledge Projects, Bodleian Libraries, University of Oxford, Early Modern Letters Online, http://emlo.bodleian.ox.ac.uk/
[9] Humanities Computing and Media Centre and UVic Libraries, University of Victoria, The Colonial Despatches, https://bcgenesis.uvic.ca/
[10] TELOTA, Berlin Brandenburg Academy of Sciences and Humanities, correspSearch, http://correspsearch.net
[11] Stanford University, Mapping the Republic of Letters, http://republicofletters.stanford.edu/
[12] Maynooth University, Letters of 1916, http://letters1916.maynoothuniversity.ie/
[13] University of North Texas, Digital Austin Papers, http://digitalaustinpapers.org/
[14] Niall O’Leary Services, visual correspondence, http://letters.nialloleary.ie/; LAB1100, nodegoat, http://nodegoat.net/
[16] TEI Consortium, eds. “10 Manuscript Description,” TEI P5: Guidelines for Electronic Text Encoding and Interchange. Version 3.4.0 (last updated on July 23, 2018), TEI Consortium, http://www.tei-c.org/release/doc/tei-p5-doc/ja/html/MS.html
[17] TEI Consortium, eds. “2.4.6 Correspondence Description” TEI P5: Guidelines for Electronic Text Encoding and Interchange. version 3.4.0 (last updated on July 23, 2018), TEI Consortium, http://www.tei-c.org/release/doc/tei-p5-doc/ja/html/HD.html#HD44CD
[18] TEI Consortium, eds. “<profileDesc>” TEI P5: Guidelines for Electronic Text Encoding and Interchange, Version 3.4.0 (last updated on July 23, 2018), TEI Consortium, http://www.tei-c.org/release/doc/tei-p5-doc/en/html/ref-profileDesc.html
[19] TEI Consortium, eds. “<correspAction>” TEI P5: Guidelines for Electronic Text Encoding and Interchange, version 3.4.0 (last updated on July 23, 2018), TEI Consortium, http://www.tei-c.org/release/doc/tei-p5-doc/en/html/ref-correspAction.html
[20] TEI Consortium, eds. “<correspContext>” TEI P5: Guidelines for Electronic Text Encoding and Interchange, Version 3.4.0 (last updated on July 23, 2018), TEI Consortium, http://www.tei-c.org/release/doc/tei-p5-doc/en/html/ref-correspContext.html
[21] デジタル・エコシステムについては、例えば次を参照のこと。Tobias Blanke, Digital Asset Ecosystems: Rethinking Crowds and Clouds (Kidlington, 2014)
[24] Deutsche National Bibliothek, Gemeinsame Normadatei (GND), http://www.dnb.de/DE/Standardisierung/GND/gnd_node.html
[25] Bibliothèque Nationale de France, Authorités, http://www.bnf.fr/fr/professionnels/donnees_autorites.html
[26] The Library of Congress, Library of Congress Authorities, https://authorities.loc.gov/
[27] National Diet Library, Web NDL Authorities, http://www.ndl.go.jp/en/data/ndla.html
[28] Online Computer Library Center, Virtual International Authority File, https://www.oclc.org/en/viaf.html
[30] Arianna Ciula, Paul Spence and José Miguel Vieira, “Expressing Complex Associations in Medieval Historical Documents: The Henry III Fine Rolls Project,” Literary and Linguistic Computing, vol. 23, no. 3(2008):313. doi:10.1093/llc/fqn018, p. 313.
[31] 特に TEI: Ontologies SIG の活動を参照(http://www.tei-c.org/activities/sig/ontologies/)のこと。近年の論文としては、Øyvind Eide, “Ontologies, Data Modeling, and TEI,” Journal of the Text Encoding Initiative [Online], 8 (December 2014–December 2015), Online since April 9, 2015, connection on November 18, 2018, http://journals.openedition.org/jtei/1191; doi:10.4000/jtei.1191.
[34] Klaus Rettinghaus, “CSV2CMI: A Tool for Creating a Correspondence Metadata Interchange Format File,” Book of Abstracts: The 18th Annual TEI Conferenceand Members’ Meeting, Tokyo, 2018, p. 218 https://tei2018.dhii.asia/AbstractsBook_TEI_0907.pdf.
[35] 小風尚樹「1860年代のヨーロッパおよび東アジアにおけるイギリス外交の比較:クラレンドン外相の国際観とその外交的成果を中心に」第67回日本西洋史学会大会、一橋大学、2017年5月。
[36] 小風尚樹「天津条約改正交渉をめぐる情報ネットワークの可視化過程(1)」『atelier DH:デジタル・ヒストリーの作業場』、https://naokicocaze.wordpress.com/2017/05/28/、2017年5月。
Copyright(C) KOKAZE, Naoki 2018– All Rights Reserved.

◆編集後記

本メルマガのイベントレポートは、Googleカレンダーを共有する形で共同編集人の方々によって情報提供されている。Googleカレンダーなので、読者のみなさまにおかれても、自分のカレンダーやサイトに組み込むこともできるので、ぜひ活用されたい。たとえば日本デジタル・ヒューマニティーズ学会では、これをサイトに組み込んで利用している。また、関連イベントは多岐にわたり、現在の編集人だけではフォローしきれないこともあり、情報を寄せていただけると大変ありがたい。

ちなみに、今週末は、国内最大級の人文情報学関連のシンポジウム、じんもんこん2018が東京大学にて開催される。お時間があればぜひご参加されたい。特に、今回は学生の参加費無料(要事前登録)となっているため、参加可能な学生諸氏はすぐにでもご登録されたい。

(永崎研宣)



Tweet: