ISSN 2189-1621 / 2011年8月27日創刊
筆者が DH に出会ったのは、今から約4年前のあるシンポジウムに参加した時である。当時、ビジネスアーカイブズの保存と活用を研究テーマとしていた筆者には、DH はあまり接したことのない研究領域であった。 そして、DH 分野に少し足を踏み入れることになったのはそこから3年後である。渋沢栄一記念財団情報資源センターでは、昨年、『渋沢栄一伝記資料』(本編58巻、別巻10冊)の全文テキストを TEI に基づいて構造化するプロジェクトが始まり、筆者もこのプロジェクトに関わることとなったのである[1]。 『渋沢栄一伝記資料』は、渋沢栄一の生涯や事業を示す資料を収載した資料集である。この膨大な資料の全文テキスト化には10年という時間を必要としたが、2016年には本編1–57巻(索引の58巻を除く)をオンライン上で公開することに成功した[2]。 2018年に発足した新プロジェクトは、残りの別巻10冊分のテキストが対象となっている。 筆者はまだ DH 分野では素人であるため、プロジェクトを通じて DH 分野との接点を少しずつ増やしているところだが、最近一つ気になることがある。それは、様々な場面で用いられる「アーカイブズ」という言葉だ。
DH 分野では、例えば、研究や教育に使いやすい形で収集・整理され、オンライン上でテーマや、地域、人物などの基準で分類されたデジタル資料の集まりをアーカイブズという場合がある。 この中には、出版物が含まれることも多く、異なる所蔵機関やコレクションから選び抜かれた資料が混在することもある。しかし、アーキビストはこれらに「アーカイブズ」という言葉を用いることはないだろう。 特に、最近盛んに使われているデジタルアーカイブという言葉について、多くのアーキビストは違和感を覚えたことが一度はあるはずである。 アーカイブズ学の観点から考えるデジタルアーカイブは、ボーンデジタル資料の保存を意味するため、アーキビストは、例えば、3.5インチフロッピーディスクの記録[3]や、パーソナルコンピューターに保存された記録[4]などを思い浮かべることだろう。 しかし、ある研究者は様々なデジタルコレクションを、ある IT 専門家はデータのバックアップを思い浮かべることもあろう。
A Glossary of Archival and Records Terminology [5]によると、アーカイブズは「個人、家族、または組織が、その活動の中で作成または収受し蓄積した記録のうち、 価値のあるものまたはその作成者の機能と責任の証拠となるものをいい、出所、原秩序尊重、および資料群の一括管理の原則に沿って維持される」(筆者訳)資料、またはその資料を保存する機関を意味する。 そのため、研究や教育などの目的で集めた資料や、複数の所蔵機関にある資料を横断検索するために作ったデータベースなどは、伝統的な意味のアーカイブズではないわけである。 また、アーカイブズ記述に関する一般的な国際標準 ISAD(G)[6]では、記録をフォンド(fonds)というかたまりで記述するが、そのフォンドとコレクションの違いを明確に示している。 フォンドとは、「形式または媒体に関係なく、その作成者の活動および機能の過程で、特定の個人、家族、または組織によって有機的に作成および/または蓄積・使用された記録全体」(筆者訳)を意味し、コレクションは「文書の出所(provenance)に関係なく、 いくつかの共通の特性に基づいて蓄積された文書の人工集合」(筆者訳)であると定義し、フォンドと混用しないようにとしている。 つまるところ、アーキビストはフォンドとコレクションを分けて考える必要があり、筆者自身も近年様々なコレクションがアーカイブズとして称されることにやや戸惑っているのである。
このようなアーキビストの戸惑いに関連する興味深い論考がある。これは、Journal of Digital Humanities, vol. 3(2014)に掲載された “Digital Historiography and the Archives”[7]である。 これは2014年の American Historical Association(AHA)会議で行われたセッションを皮切りに、その後もブログを通じて展開された議論がまとまり記事となったものであるが、中でも Kate Theimer 氏の論考[8]は大変興味深い。 Theimer 氏は、資料のコンテクスト情報は研究において不可欠であるため、伝統的なアーカイブズと近年登場した様々なデジタル情報の違いを理解することはとても重要であるという。 また、2012年同誌に書いた別の論考“Archives in Context and as Context”[9]では、アーキビストには、アーカイブズという言葉がどう使われるかを統制する権利はないが、長い歴史の中でアーキビストがこの言葉に与えた定義があり、そこに込められた意味を理解することは必要であるとし、 アーカイブズという言葉があらゆるデジタルコレクションに使われてしまうことで、アーカイブズ(の一部)として保存されたそのコレクションの歴史的コンテクスト情報が適切に理解されなくなる危険性があること、そして、コンテクスト情報とともに資料を保存するというアーカイブズ固有の役割が薄れてしまう可能性があることを問題点としてあげている。
DH 研究において、この議論はどういう意味を持つだろうか? 当然のことではあるが、研究にアーカイブズを活用するからには、その資料がどのような理論で整理・保存されたかを考慮する必要があろう。 研究者が扱うデータは、アーキビストによる保存方法、メタデータ、情報構造の影響を受けており、研究内容にも大きく関わることになる。 また、歴史研究は、データを個々の短編的なものとして平面的に捉えるのではなく、記録の中で立体的に考察する必要があろう。すなわち、1)資料が組織や、団体、個人の活動の中で生まれた記録なのか、2)もしそうでなければ—例えば寄贈によるものなど—、その資料の編成(arrangement)には意味があるかどうか、 3)そして、そこには新しい理論を導き出すことが可能で、それを証明できる何かが存在するか、4)メタデータには出所(provenance)に関する正確な情報、 5)そして、その資料が誰によって、どのように作成されたかに関する情報が含まれているかなどを吟味することが、歴史研究には求められる。 これは、コンテクストから離れたデジタルオブジェクトからは得られない情報であり、伝統的なアーカイブズの言葉の意味を知らなければ、これらの情報に気づくこともできないかもしれない[10]。
デジタルは社会を大きく変化させ、20世紀以降のデジタル記録の真正性と信頼性を担保することは深刻な問題となっている。 そして、この難問を解決するためには、伝統的なアーカイブズに対する理解向上が求められているのである[11]。 そして、デジタル記録が今後どのように存在するかは、歴史研究にも直結する問題と言えよう。DH 分野とアーカイブズも切っても切れない関係にあるのである。 すでにデジタルデータの活用はますます増えており、歴史研究者や、ライブラリアン、アーキビスト、情報専門家などが連携する分野を超えた研究は広がっている。 このコラボレーションを成功に導くために必要なことは何だろうか? 各専門分野の重要な違いを理解しつつ、コミュニケーションのための共通語を持つことは共同研究の大前提となるだろう。 特に、筆者には、出発点におけるボタンの掛け違いを避けるための重要な鍵は、この「アーカイブズ」という言葉から生じるミスコミュニケーションを解決することなのではないかと思う。
2019年3月1日、NPO 長野県図書館等協働機構が「信州地域史料アーカイブ」のリニューアルを行った[1]。 このアーカイブは、TRC の提供する ADEAC というプラットフォームで2014年6月25日から公開されていたもので、三箇年の図書館振興財団助成事業を受け、2013年2月から NPO 長野県図書館等協働機構を設置して準備されたものだという[2]。 当初の趣旨としては、「地域史料の原本や写本を高解像度画像データ化し、誰でも読めて検索できるよう翻刻文、読み下し、現代訳及び解説を付けて公開」するものであったとのことで、とくに、「長野県に役立つ地域史資料100冊」[3]をテーマとして整備を進めてきたという。 更新履歴のたぐいがないため判然とはしないものの、当初から見て公開される史資料の点数や、映像資料や解説も充実してきたようである。 今回のリニューアルでは、公開画面の整理、パスファインダーの公開、一部史料の画像にフリーライセンスを適用したことなどが挙げられている。 なお、「new」表示によれば、このほか、映像資料に「信州の教育文化遺産 大正~戦前」が追加され、関連動画が多数公開されている。執筆時点で、「メタデータ(目録):352件、画像データ:357件、本文テキストデータ:658件」が公開されているとのことである。
公開当初の姿を見るうえでは、Internet Archive の Wayback Machine は当然として、NPO 長野県図書館等協働機構の上位組織にあたる長野県図書館協会副会長兼事務局長(当時)の宮下明彦による報告が参考になる[4]。 それによれば、文字や言語の問題から活用が難しくなっている、図書館や博物館などに所蔵される郷土史料の活用を意図して、共同で翻刻や翻訳、解説に取り組むのだという。具体的な史料としては、「地震後世俗語之種」や善光寺関連史料などの特色あるものが挙げられている。 それによって、学校教材や観光資源としての活用が期待されている。また、上記の図書館振興財団の助成にくわえ、文化庁からの助成(文化遺産を活かした地域活性化事業)によって「信濃史料」の翻刻や映像資料の作成が行われている。最近の地域系デジタルアーカイブとしてはお手本のようなところであろう。
今回のリニューアルで画面の改修が行われたが、ADEAC で公開されるアーカイブの傾向として、検索可能でデザインの調整に制限がある目録データベース部分と、デザインに自由度はあるが全文検索しかできないその他ページ部分とに分かれてしまい、検索可能なホームページに留まってしまうところがある。 とはいえ、フリーライセンス適用画像を簡便に検索することはできないなどの問題がないわけではないというのはひとまず措くとして、高すぎる自由度が画面リニューアルの原因だとすると、本末転倒ということになりはしないだろうか。 いまどきのシステムにある、高度な JavaScript のプログラムの結晶である画面が理想ということではないものの、そのつど人手で手入れをしなければ史料も追加しにくいということであれば、参加障壁となってしまうことになり、かならずしも望ましくないことのように思われる。
とはいえ、注文のつけようがないものなどないことを考えれば、言いがかりに近いかもしれない。 ADEAC を利用する機関は一般に熱心にデジタル展開に取り組むことが多いように思われ、このように継続してコンテンツを充実させていくのはなににも増して素晴らしいことであるといえる。 出して終わりとしてしまわない熱意と組織作りは、画面をいくら眺めていても出てくるものではなく、頭が下がる思いがするものである。
2019年6月24日から28日にかけて、筆者が勤務しているゲッティンゲン大学でIIIFの国際会議が開催される(2019 IIIF Conference; https://iiif.io/event/2019/goettingen/。 なお、URL の最終閲覧日は、以下全て、2019年3月17日である)。 IIIF(トリプル・アイ・エフ)とは、『人文情報学月報』の読者の中にはよくご存じの方も多いと存じ上げるが、International Image Interoperability Framework、つまり、「国際的画像相互運用枠組」の略で、API を駆使して、デジタルアーカイブにある画像の国際的な相互運用を推進させていくための枠組みである。 API(特に、Web で使われる Web API)とは、Application Programming Interface の頭文字であり、あるウェブサービスなどのデータや機能などの二次利用を容易にするために供給側が用意するものである。 API に所定の手続きでアクセスするとコンピュータにとって読み込みやすい形式のデータが返戻され、そのデータやアプリが別のソフトウェアやアプリ、ウェブサイトなどで二次利用しやすくなる。 このように、API を実装されたウェブサービスやウェブアプリなら、その API を利用して、ユーザや別のウェブサービスがデータやアプリの機能を容易に二次利用できる。 例えば、現在、Facebook や Google のアカウントを使って、他のウェブサービスやアプリにログインすることが多くなってきたが、これも Facebook なら Facebook の、Google なら Google の API を用いたものである。 IIIF は、画像をはじめとする様々なウェブコンテンツのための標準化された API の枠組みで、デジタルアーカイブ間、もしくはユーザによるデジタルアーカイブの画像の相互利用を容易にして、促進させていこうとするコミュニティーベースの試みである。 IIIF には、いくつかの API があり、現在、IIIF Image API[1]、IIIF Presentation API[2]、IIIF Authentication API[3]、IIIF Content Search API[4]の4つの API がある。 IIIF のマニフェストと呼ばれる JSON ファイルの URI を IIIF 対応ビューワーで読み込めば、その画像を閲覧することができる。 IIIF によって実現できることは多く、全てを紹介しきれないが、例えば、SAT 大正新脩大蔵経テキストデータベースと人文情報学研究所が開発した IIIF Manifests for Buddhist Studies(http://bauddha.dhii.jp/SAT/iiifmani/show.php)[5]のように、 様々な博物館や図書館の IIIF 対応ウェブアーカイブの画像のうち、特定のジャンルの文献の画像(ここでは仏典の画像)を集めて、一つのウェブサイトで表示したりすることができる。 また、画像の一部、例えば、絵画に描かれている人物や、文献の一部分にアノテーションをつけることも可能である。 IIIF に対応したビューワーには Mirador や Universal Viewer などがある。 コプト語パピルス文献や最古層のギリシア語新約聖書文献で有名なスイスのボドマー・コレクションのデジタル・ウェブ・アーカイブである BodmerLab(https://bodmerlab.unige.ch/)は Mirador を採用し[6]、そして大英図書館はUniversal Viewerの導入を推し進めている[7]。 また、日本の人文学オープンデータ共同利用センターは、IIIF Curation Viewer を開発している(http://codh.rois.ac.jp/software/iiif-curation-viewer/)。
筆者が専門としているコプト語写本では、バチカン図書館、フランス国立図書館、大英図書館、ボードリアン図書館、そして、以前紹介したボドマー・コレクション(BodmerLab)などが IIIF 画像を公開している。 本稿は、その全てを紹介することはできないが、今月号では、バチカン図書館、そして、来月号では、フランス国立図書館、および、IIIFを利用したウェブサイトである、Biblissima の IIIF Collections – Manuscripts & Rare Books を紹介する。
バチカン(使徒)図書館(Biblioteca Apostolica Vaticana)[8]は、ローマ・カトリック教会の「総本山」であり、サン・ピエトロ大聖堂、バチカン宮殿、バチカン美術館などを擁し、ローマ教皇を国家元首とする独立国家であるバチカン市国にある図書館である。 ヨーロッパの貴重な写本や資料はもちろん、コプト語やシリア語、アラビア語などで書かれた中近東のキリスト教の古写本、さらには、日本のキリシタン資料、その他、宗教やジャンルを問わず、アジア、アフリカ、中南米の文献など世界中の重要な資料を多数保管している。 バチカン図書館は、日本の NTT Data とともに、文献のデジタル化・公開を行なっている[9]。DigiVatLib というバチカン図書館が運営するデジタルアーカイブのウェブサイトで写本の IIIF 画像を閲覧することができる。次のスクリーンショットは DigiVatLib で閲覧したコプト語写本の IIIF 画像の一例である。
ビューワーの左上にある Read More 横の i マークをクリックし、出てきたサイドバーの真ん中より下側にある “IIIF manifest URI” をクリックすると、IIIF マニフェストを取得することができる。 この IIIF manifest URI を用いれば、Universal Viewer や Mirador など IIIF 対応ビューワーで IIIF 画像を閲覧することができる。
今回は、コプト語文献を有する IIIF 対応のデジタルアーカイブとしてバチカン図書館の例を紹介した。次回は、フランス国立図書館、そして、IIIF を利用したウェブサイトの例として、Biblissima について述べる[10]。