ISSN 2189-1621 / 2011年8月27日創刊
5年ぶりくらいに図書館総合展[1]へ参加することとなった。
図書館総合展とは、図書館業界に関わる国内最大の見本市である。毎年秋にみなとみらいにあるパシフィコ横浜で3日間開催され、様々な図書館関連の企業ブースが立ち並び、また多数のフォーラムも開催される。今年は特に美術館界を対象にしたアートミュージアム・アンヌアーレ2018[2]が初めて開催され、図書館総合展と併催された記念すべき年であった。
筆者の図書館総合展参加の主目的は、その最終日である11月1日に関西大学アジア・オープン・リサーチセンター(KU-ORCAS)が主催したフォーラム「東アジア図書館とデジタルアーカイブ」の講演と運営である。これは、東京大学附属図書館アジア研究図書館上廣倫理財団寄付研究部門(U-PARL)との共催によって実現したもので、フォーラムでは、U-PARL 副部門長の永井正勝特任准教授と、アメリカのプリンストン大学東アジア図書館長である Martin Heijdra 博士(以下、敬称略)にご講演をいただくことができた。以下、フォーラムの講演内容について紹介する。
Heijdra は「プリンストン大学東アジア図書館とゲストコレクション―デジタルアーカイブを中心に―」というタイトルのもと、プリンストン大学の東アジア図書館の概要やそのデジタル化プロジェクトについて、そして、なかでも日本語資料のデジタル化やデジタルヒューマニティーズ(以下、DH)との関係について報告した。
プリンストン大学東アジア図書館は、その前身が1926年カナダのマギル大学のゲスト・オリエンタル・ライブラリーにあり、1936年にプリンストン大学へと移ってきたという(プリンストン大学自体は1716年設立)。当初は主に中国関係の資料で構成され、カリキュラムに東アジア研究が含まれた時に大きく蔵書構成が拡大され、1950年代に中国語、1960年代初めに日本語の資料が追加された。ちなみに、韓国語資料は2000年代まであまり充実したものではなかったという。コレクションの規模は、中国語資料が58.6万件、日本語資料が22.5万件、韓国語資料が4.1万件で、やはり設立当初からの中国語資料が蔵書の中心をなしているようである。
デジタル化プロジェクトの紹介では、学内のデジタルプロジェクト運営委員会がプリンストン大学資料のデジタル化を監督する立場にあり、内部の推薦と運営委員会の承認後に、学内にある Digital Imaging Studio の職員7名がデジタル化を実施するという。プリンストン大学のデジタルアーカイブは最近になって、新しいプラットフォーム Digital PUL[3]へと移行しており、これはもちろん IIIF にも対応している。Heijdra は IIIF に関連し「一つ特に希望していること」として、プリンストン大学東アジア図書館所蔵の敦煌資料と天理大学の敦煌資料とに同じ出所のものが多く、また同じ資料を部分的に所蔵していることから、IIIFの機能を使い、「オンライン上でヴァーチャルに一緒にできたら、素晴らしい」と述べていた。これについては前日の会食の場でも話題に上り、その際は、イェール大学の The Ten Thousand Rooms Project(廣廈千萬間項目)を利用してはどうかという議論であった。また、京都大学図書館機構と慶應義塾大学メディアセンターによる「富士川文庫デジタル連携プロジェクト」[4]にもオンラインでの資料統合の類例を見出すことができるだろう。
東アジア図書館の資料デジタル化の現況は、約300点の中国古典籍、非図書資料を数点ということで、まだ点数としては多くはない。だが、重要なのは、他機関との連携に基づくデジタル化に積極的である点にあると考える。最近、国際敦煌プロジェクトでデジタル化したプリンストン大学東アジア図書館所蔵資料も IIIF 対応として利用可能となり、また現在は台湾国立中央図書館と100点以上の資料のデジタル化のための交渉を続けていることも明かされた。日本資料のデジタル化については、院生教育用に購入した古文書が桜本坊の貴重な資料であることが判明したことがきっかけで、これを使った東京大学史料編纂所の研究者との共同研究プロジェクトがスタートしたところだという。
もう一つ、デジタル化に関して重要な取り組みは、RTI 技術を採用した甲骨資料のデジタル化である。RTI、すなわち Reflectance Transformation Imaging とは、資料の表面を様々な角度から撮影し、その画像データをソフトウェア上で結合させ閲覧できる技術で、表面の微妙な色あいや形状をつぶさに確認できるものという。ちなみにRTI に基づくデジタル化の事例には、CADAL(China Academic Digital Associative Library)とコロンビア大学の共同プロジェクトで公開された甲骨資料がある[5]。
最後に、DH に関しては、プリンストン大学図書館に Center for Digital Humanities があり、そこに最近新たに加わったスタッフは日本研究のバックグラウンドがあると紹介された。その意味で、積極的な国際連携が見込まれるかもしれないと感じた。また、現在進行中の DH プロジェクトには、東アジア関連のものも多く、例えば、語義辞典 Thesaurus Linguae Sericae のプロジェクト(京都大学の研究者と共同による)、旧唐書新唐書の列伝の区別の研究、前漢時代の写本と写本研究、GIS を使用したシルクロードプロジェクト等があるという。プリンストン大学東アジア図書館では、今後も古典籍を中心にデジタル化を進めていくが、それに関して提案やリクエストは歓迎しているとして、講演は終了した。
続いて、永井報告では、2020年の開館に向けて U-PARL を中心に準備が進められているアジア研究図書館の現況と、U-PARL によるデジタルアーカイブプロジェクトとそれに基づく図書館員と人文学研究者の協業体制が話題になった。U-PARL では、サブジェクトライブラリアンの体制整備を目指しており、これが実現すれば、東京大学のアジア研究図書館は日本における研究図書館の一つのモデルケースとなるであろう。また、菊池は KU-ORCAS のプロジェクトの紹介を行った。永井と菊池の2つの報告についてはこれまでにも本連載中で述べた内容であるので、ここでは詳細は割愛したい[6]。三者の講演の後に、フロアを交えた討論が行われた。討論では特にライセンスの問題について取り上げることとした。
筆者の主張は前号に記した通りであるが、Hijdra が報告の中で「ウェブ上に載せた画像を人々がどのように使うかは、コントロールができない。というか、そもそも私達にとってそれが何か問題なのだろうか?」と投げかけた点が、まさに我が意を得たりといったものであった。データを自由に使ってもらいたい、でもユーザがどう使ったかは把握しておきたい、だから CC-BY という利用条件を付けようという姿勢は、アメリカにおけるデジタルアーカイブの潮流にあっては、やや慎重に過ぎると言えよう。また、永井は U-PARL によるデジタルアーカイブのライセンスについて、公開当初は CC-BY-NC-SA という若干厳しい利用条件を付けていたが、現在ではそれを緩和し、CC-BY “相当”としてデータの提供を行っているという。
また、質疑応答で、データ提供側が所蔵館を明記してほしいと思うのであれば、資料に対して識別子を付けるべきではないかとの指摘もあった。これは確かに首肯しうるものである。KU-ORCAS は時限付きのプロジェクトであるので、実のところ、DOI の付与や管理に関しては諦めていたところがあったが、出張から戻って確認してみると、学内他部局が大学全体の DOI の登録と維持管理について検討を進めていることが分かった。これについては付与の方向で改めて検討を進めているところである。
2018年9月11日、The Eighth Conference of Japanese Association for Digital Humanities(JADH2018)において、Tokyo Digital History(以下 ToDH)メンバーで、パネル発表を行った。これまでの ToDH の活動の紹介の一環として、筆者は専門とする17世紀アイルランド史に関する個別の事例研究発表を担当した。本稿では、報告についての紹介とともに、報告において対象としたデータベースに関する問題点についても少し触れたい。
本報告は “Utilising 1641 Depositions in History: A Statistical Study” と題し、大きく以下3点を論じた。すなわち、大量のテクストが収められている特定のデータベースを取り上げ、メタデータを取得したのち、それらをいくつかの観点から可視化することを課題として設定した。
報告では “1641 Depositions”(以下 “Depositions”)を取り上げた。“Depositions” は、1641年にアイルランド北部で起こった土着カトリック貴族の反乱の際、プロテスタント聖職者が収集した被害者供述の集成を、デジタル・データベース化したものである[1]。アイルランド北部で勃発した反乱は、次第にアイルランド全土へ波及し、最終的にはブリテン諸島を巻き込んだ10年を超える戦争へと発展した。戦争に伴って供述収集も断続的に行われ、最終的には8000件にのぼることとなった。プロテスタント聖職者の集めたカトリック反乱に関する被害者供述という史料の性格上、バイアスのかかった史料である。それらの原本は、トリニティ・カレッジ・ダブリン(以下TCD)に所蔵されている。
本データベース公開以降、1641年の反乱に関する研究は活況を見せている[2]。被害者供述は17世紀アイルランド史研究上の最も重要な史料の一つであると同時に、「北アイルランド問題」を抱えるアイルランドにおいて、現代政治を左右する史料でもあった。それゆえ、アイルランド人文社会科学研究評議会(Irish Research Council for the Humanities and Social Sciences)、連合王国人文科学研究評議会(The Arts & Humanities Research Council in the UK)といったアイルランド・イギリス両国の学術組織から100万ユーロの資金提供を得たプロジェクトである本データベースは、21世紀のアイルランドにおける和平プロセスの一つの到達点として捉えることも可能である[3]。
“Depositions” のデータベースの性格に目を向けてみると、本データベースにおいて集積されている8000件の供述は、翻刻された文章とともに原史料の写真を表示することが可能である。供述者の姓・名、供述が取られた州の名前は、任意の語彙により検索できるようにもなっている。そういった供述の書誌情報に加えて、“Nature of Depositions”(以下“Nature”)という項目は、供述の内容によって供述をカテゴリ化し、供述に書いてある内容を捉えやすくしている。
“Depositions” には、TEIによってテクストはマークアップされているとの記述がある。しかし、確かに “Depositions” の技術的な側面の紹介ページに TEI に関する言及があるものの、XML データの取得は不可能であることが、すでに指摘されている[4]。本論点に関して、現在 “Depositions” の管理を行っているエンジニアの Gary Munnelly 氏(TCD 博士課程)と電話での面談を行ったが、指摘は正しいとの回答を頂いた[5]。
データベース上の問題のみならず、歴史研究上の問題点が、時間的な観点、地理的な観点、メタデータの観点において指摘できる。まず、戦争の進行に伴って供述収集は行われたものの、その時間的な変化に関する言及はあまり見られない。特に、戦争が終了した後の1650年代の供述については、あまり触れられることがない[6]。2つ目に、アイルランド全土の供述が集められているものの、反乱の起こった北部地域や植民地政府のあるダブリンなど特定の地域に注目した地域史的関心が高まる一方、地域的な偏差に対しての言及も見られない。3つ目に、これまでの研究では「反乱では実際に何が起こったのか」を、特定の地域に注目し実証的に明らかにすることを目的としていることが多い。そのため、通常の場合、各供述の情報は単純な翻刻テクストとして参照されている。言い換えれば、メタデータへの注目は、1641年反乱に関する歴史研究において見られない[7]。
そういった問題点を踏まえ、まず、本研究は “Depositions” のメタデータをウェブ・スクレイピングにより取得した。ウェブ・スクレイピングについては、ToDH メンバーである小風(山王)綾乃(お茶の水大学大学院博士課程)・中村覚(東京大学情報基盤センター助教)両氏から技術的なサポートを頂いた。次に、ウェブ・スクレイピングによって取得したデータを、可視化ツールのひとつである Tableau に読み込ませることで、分析を行った。Tableau を使用した理由は、操作方法の容易さ及びツール自体のアクセスの容易さによる。ただし、Tableau の操作性は、処理の過程が確認できないことの裏返しでもある。つまり、より発展的なプログラミング内容を表現させる場合、Tableau が可視化ツールとして最適かどうかは再考の余地があろう[8]。
データの可視化は3つの観点から行った。すなわち「地図上での可視化」、「グラフ化」、ならびに「カテゴリ別の供述数の可視化」である。特に、Tableau の機能は、数の変化などを表現しやすい。
まず Figure 1では、州ごとの供述の総数を地図上にプロットしたものを各年ごとに作成した。本可視化によって、供述収集がどのように進行していたかを明らかにすることができた。
Figure 2では、各月ごとの供述数の全期間にわたる分布をグラフ化することで分析した。グラフ化については、縦軸に地域、横軸に年を取った一覧表を作成したが、文字の羅列ではなく、数の大小を色の濃淡で表示することができる。色の濃淡によって、供述数のピークが1642年のみならず、1654 年にもあることが明らかとなっている。
Figure 1および3については、Tableau の機能の一つであるアニメーションを、地図上の可視化の結果を年ごとのタイムラインに落とし込むことで、時間による変化を文字通り定点観測することができた。このアニメーション化によって特に、Figure 3において1650年を境として Robbery の赤色の丸と Killing の緑色の丸の大きさが逆転していることがわかった。本分析で明らかとなった顕著な変化は、歴史研究上の重要な指摘であることは特筆に値するであろう。
JADH の報告では、可視化それ自体をゴールとして設定したため、より発展的な考察を行う事はできなかったが、本稿ではもう少し踏み込んだ言及を行いたい。
本事例研究紹介ではテクストに何が書いてあるかではなく、「どこ」で「いつ」、「どのような」供述が集められたかに注目することで、“Depositions” の供述の地域的な偏差・時間的な変化を明らかにした。ここからわかることは、メタデータの把握という史料の性格・構造を理解する視点の重要性であろう。言い換えるならば、データベースからデータを取得する際に、必要となるアーキヴィストが有するような階層的な思考法それ自体が、研究者に新たな視点を提供するとも言えるだろう。眼前にあるテクストをより深く読むために、メタデータの理解は非常に有益である。
しかしながら、本事例での「どのような」の部分には史料上の落とし穴がある。供述の性質を分類した “Nature” は、実際の供述にあるものではなく、“Depositions” 公開に伴って付与されたものである。そのため、テクストを読まない限り、その性質が正しいかは判断がつかない。もし、TEI によるタグが確認できるならば、性質の分類分けの判断についても検証が容易となるだろう。つまり、TEI の XML を取得できないという事実は、“Nature” の信憑性を考えた時、致命的な欠陥と言える。
本国の貢献について触れたい。まず、“Depositions” を用いた研究は、まだ本邦では現れていない。そのため、本事例報告が日本の学術界における本データベースの初めての本格的な紹介であったといえる。さらに、メタデータ視点から本データベースを考えることで、供述のテクストを分析するのみならず、より多角的な分析が可能であることが明らかとなった。こういった分析も歴史研究のみでは出てこない視点である。
本事例研究報告を行ったパネルは ToDH を紹介するものであった。ToDH主宰のTEIセミナー(2018年2月21日、於:東京大学)および Python セミナー(2018年7月19日、於:東京大学)によって、本事例研究のスタートが可能になり、毎週のセッションでのディスカッションによって、日頃行う研究とは別の観点から研究を進めることができた。今後は、“Depositions” に収められている供述のテクスト分析を行っていく。その際、同じく ToDH メンバーの福田真人氏(東京大学大学院博士課程)とも協働しながら、分析を進めていきたい。このように、常に誰かとともに行うことで得られる視点は、メタデータ的視点とともに ToDH で得られた大きなものである。
最後に、個人的な話をすれば、私は ToDH への参加が他のメンバーよりも遅い。思考法もまだまだ慣れず、技術的に先鋭的なことができるわけではない。そのため、人文情報学に慣れ親しんだ読者には当たり前のことを、素人がつらつらと述べてきたに過ぎないと映るかもしれない。しかし、歴史学を専攻するそんな素人の大学院生が、Python の処理の過程を眺めていた時、Tableau でアニメーションが動いた時に、素直に感じた驚きと高揚感が伝われば幸いである。