ISSN 2189-1621 / 2011年8月27日創刊
2018年6月23日、関西大学アジア・オープン・リサーチセンター(KU-ORCAS)では、「ベンダーからのデジタルアーカイブの提案~コンテンツホルダーとベンダーの良い関係!~」を開催した[1]。広報期間も短く、また、当日は豪雨に見舞われながらも、60名以上の参加を得た。本号では、このワークショップの報告をしたい。
ワークショップ開催のきっかけは、中国からCNKIの担当者が本学に来られるということで、それに合わせたイベントの企画が求められたからである。CNKI担当者はデジタルサービスを主に担当している方であり、イベントもこれに関連するものとした。そこで、デジタルアーカイブシステムを提供している日本のベンダー各社に依頼し、その結果、NTTデータ、大日本印刷、凸版印刷の各社からご報告をいただけることとなった。急なお願いにもかかわらず快く、また、いずれも充実したご報告をいただいた各社に対しては、この場を借りて、改めて厚くお礼を申し上げたい。以下、各報告内容について簡単にまとめていきたい。
NTTデータは「『アーカイブの、その先へ。』~デジタルアーカイブ事例のご紹介~」と題し、同社の提供するデジタルアーカイブシステムAMLADの紹介を行った[2]。AMLADは秋田県立図書館、大学共同利用機関法人人間文化研究機構、そして最近では近畿大学等でも導入実績があるシステムである。報告では、AMLADがデジタル化資料の長期保存のためにOAIS参照モデルに準拠し、画像データとメタデータを別々に保存するようにしていることや昨今日本でも導入著しいIIIFにも対応していること等の紹介があった。さらに、報告後半では、AMLAD導入機関としてバチカン教皇庁図書館、熊本県菊池市のデジタルアーカイブ[3]、スペインの王室等の貴重資料を管理するPatrimonio Nacionalとの事業(AMLADを利用したデジタルアーカイブ自体は非公開)について、それぞれ紹介が行われた。
続いて、凸版印刷からは「高精度全文テキスト化サービスのご紹介~活字からくずし字まで~」のタイトルで報告があった。凸版印刷が、高精度の全文テキスト化に取り組み始めたのは「電子書籍元年」と言われた2010年ころからであり、当初は電子書籍化しようにも本のテキストデータがないのでそれを作るためにはじめられたとのことであった。 凸版印刷のデジタルアーカイブの利用は圧倒的に企業の依頼からのものが多く、特に社史を扱うケースが多いとのことであった。大学や研究機関から依頼のあった事例として『早稲田大学百年史』があり[4]、そこではWikiを使って構築しているという。データベースを使わず、Wikiを使う利点は、ある意味で「枯れた」技術を使うことによって、障害のない、持続性のあるサービスを展開することができるとのことであった。報告の中心は、くずし字を対象としたOCR技術についてであった[5]。 くずし字OCRは、画像検索で重みづけを行いくずし字のデータベースを作成し、さらに人の確認作業の負担を減らすような校正ツールを活用することで、テキスト化を行っているとのことであった。また、1字種あたり約1,000字程度の学習用データが集められれば高い判定精度になるとのことだったが、文中で出現回数が少ない漢字ではその学習用データ集めに苦慮しているという。
CNKIは[6]、中国の知識リソースを電子図書館の形で発信する事業で、すでに20年の歴史がある。CNKIのシステムは自社開発で賄っており、電子出版等のサービス提供を行っている。CNKIでは、中国国内の2つの拠点で資料のデジタル化(スキャニングとOCR)を行い、ダブルチェックによるクオリティコントロールを経て、大学図書館等のユーザへ提供されるとのことである。また、各図書館等の所蔵する古い貴重な資料のデジタル化・データベース化も実施しているとのことだが、主に中国国内の機関からの依頼ばかりで、海外からの依頼は少ないとのことであった。
最後に、大日本印刷(DNP)から「DNPのデジタルアーカイブの概要と実績/天球儀のVR体験」の報告が行われた。その内容は、いわゆるデジタルアーカイブ“システム”ではなく、有形・無形の文化財に対してDNPがどのようなデジタルソリューションを提供しているかを紹介するものであった。例えば、能楽を鑑賞しながらウェアラブルデバイスを通じてその解説が見られるARシステム[7]、東京大学との高速ブックスキャナーのプロジェクト[8]、フランス国立図書館(BnF)の所蔵する地球儀・天球儀コレクションの3Dデジタル化プロジェクト等[9]について説明があった。最後に、「デジタルアーカイブを経営する」ための収益モデルを作る必要があることが述べられ、DNPのグループ会社であるTRC-ADEACによるデジタルアーカイブの公開事業と、DNP Art Communicationsによる画像貸与事業が紹介された。
最後に、質疑応答では、利用契約が満了する際にデータが囲い込まれてしまわないかという懸念から、ベンダー間の共通基盤はないのかとの質問が寄せられたが、報告各社からは総じてあまりベンダーロックにはなっていないとの回答があった。
今回は、各社の方向性が反映された、それぞれに特徴的な報告をいただけたと感じている。また、参加者からは、くずし字OCRの研究協力の可能性についても発言があり、本ワークショップが企業と文化機関との新たな橋渡しをする機会となったのであれば幸いである。今後も、より小規模な形で同種のワークショップを継続的に開催し、ベンダー企業と文化機関との間を近づけることができればと願っている。
この連載では、2018年4月15日にTokyo Digital History(以下ToDH)によって開催されたシンポジウムの登壇者が、それぞれの立場から歴史研究とDHの関わりを論じている[1]。 第3回は、西洋中世史・教皇史を専門とする纓田(おだ)が担当する。当シンポで最終報告を務めた筆者は、「データの活用から公開までを展望する」というテーマのもと、オンライン・データベースからデータを入手し、それを加工・表現して公開するプロセスを概観した。そのさい利用したDBは、西洋前近代史を専門とする研究者によく知られているRegesta Imperii Online(レゲスタ・インペリイ・オンライン、以下RI Online)である[2]。 RI Onlineは、とりわけ西洋中世史研究においては最も利用者の多いDBのひとつである。しかしながら、多くの日本人研究者にとってなじみがあるのは、その機能のひとつである文献検索サイトRI-Opacのみであり[3]、オンラインDBとしてそなえている機能についてはあまり知られていないのではないだろうか。 そこで本稿では、まず19世紀以来現在まで続いているRIプロジェクトそのものについて、および今世紀に始まったオンライン化について解説し、その後ToDHシンポで筆者が提示したRI Onlineの活用例を紹介する。本稿を目にしたMedievalistsが、DHに関心を向けることを願っている。
RIは、中世ヨーロッパの史料を綱文形式で記録する事業、および19世紀以来現在まで刊行が続いている史料目録集を指す。2018年3月までに、90冊を超える目録集が刊行された。
この事業は、カロリング朝期から神聖ローマ皇帝マクシミリアン1世まで(751—1519年)の王/皇帝に加えて、網羅的ではないながらも初期・盛期中世の教皇と教皇特使に関わる史料を対象としている。 目録集のなかでは、これらの聖俗有力者が発行した文書史料だけでなく、年代記などの叙述史料を含む記録媒体に記されたかれらの行為が、日付順に整理されている。各項目は、史料から明らかになるかぎりで、日付、行為者、行為内容、校訂版が採録された史料集名などを略式で記述している。対象とする史料は基本的にラテン語で書かれたものだが、綱文はドイツ語で記述されている。よって史料の本文をみるためには、綱文中の参照指示にしたがって該当する史料集にあたる必要がある。
RIプロジェクトの起源は、フランクフルトの図書館員ヨハン・フリードリヒ・ベーマー(1795—1863年)が1829年に着手したドイツ王/神聖ローマ皇帝に関わる史料の収集作業にさかのぼる。 本来、ミュンヘンに現在の拠点をおく中世史料編纂機関モヌメンタ・ゲルマニアエ・ヒストリカ(Monumenta Germaniae Historica/MGH)による史料校訂の準備作業として始められたベーマーの仕事は、その後独自の事業として発展した。1906年からはオーストリア科学アカデミーが事業を受け継ぎ、1939年にはRegesta Imperii改訂委員会(Kommission für die Neubearbeitung der Regesta Imperii)が設立された。 この委員会は、1967年以降、ドイツの公益社団法人として認可されている。現在この委員会は、エアランゲン=ニュルンベルク大学のクラウス・ヘルバースを座長として、ドイツ語圏の中世研究者25名で構成されている。 各メンバーは、現在進行中の14の小プロジェクトのいずれかを担当し、目録集が刊行されるさいには編者を務めることになっている。2014年の年次委員会においては、全プロジェクトの完了期限を2016年から2033年に延長することが承認され、ヨーロッパ各地の研究機関と協働して事業を継続している。
21世紀に入り、RIはインターネット・テクノロジーに対応し始める。2001年にはRI Onlineが開設され、ドイツ研究振興協会(DFG)の助成を受けたバイエルン国立図書館との共同プロジェクトにより、既刊目録集の紙面がPDFで閲覧可能となった[4]。さらに2007年には、綱文のテキストデータを蓄積するオンラインDBが構築され始めた。 RI Onlineでは、現在180,000件を超える史料目録がDB化されている。利用者は、キーワード検索機能を使って自身の関心に沿った史料を探すことができる[5]。このDBは現在も更新されつづけており、たとえばRI Onlineのスタートページに掲載されている2018年7月の月次報告によれば、RI I,4,3とRI IV,4,4,5に、それぞれ教皇ヨハネス8世(在位872—882年)と教皇ケレスティヌス3世(在位1191—1198年)の文書に関するデータが追加されたようである[6]。
先に述べたように、RIが提供するのは、批判的に校訂された原史料の文面ではなく、あくまでも史料の要約である。それゆえRIを利用する研究者の多くは、それを史料の内容を把握するための補助としてのみ利用していると思われる。しかし、RI Onlineはそれ以上の機能をそなえている。
注目すべき点は、検索インターフェースの背後にある元データが、Web APIおよびXMLファイルの形式で公開されていることである。今回筆者は、XMLファイルの一括ダウンロード機能を使って元データを取得した。RI Onlineでは一件の史料につきひとつのXMLファイルが用意されており、現在は約130,000件のXMLファイルをダウンロードすることが可能である。このXMLファイルは、TEIに準拠してマークアップされた目録記述を収めている。
ToDHの連載第2回では、福田真人が国立公文書館デジタルアーカイブの「公文録」を取り上げた[7]。「公文録」は、史料のメタデータを記述した元データを公開していないため、WebページのHTMLソースファイルを解析したうえで目当ての情報をスクレイピングする必要があった。それに対して、RI Onlineでは元データとなっているXMLファイルが利用者に公開されているため、Webページから大量のデータをスクレイピングする手間を省くことができる。しかもそれらのXMLファイル内のテキストはTEIに準拠してマークアップされており、みずからタグを改変・追加するなどして研究に利用することもできるのである。
なお、RI Onlineで採用されているマークアップ規格は、厳密にいえばTEIではなく、CEI(Charters Encoding Initiative)である。CEIとは、とりわけ西洋中世の証書史料(Charter)をエンコードするために策定されたTEIの派生ガイドラインであり、2004年にミュンヘン大学で行われたワークショップにおいて提唱された[8]。
RI Onlineが提供するXMLファイルのマークアップには、不十分な点がないわけではない。たとえば、史料の要約を示す<abstract>タグのなかで、当該史料の校訂テキストが採録されている史料集名の略号がタグづけされていないため、史料集名のみを一括で抽出するのは困難である。しかし、これらのXMLファイルには、RI Onlineの検索画面よりも詳細かつ利用しやすい情報が含まれている。例を挙げれば、ラテン語地名の現代語表記、ISO 8601に則った日付の表記、文書発給地の経緯度情報などを得ることができるのである。
以下では、ToDHシンポに向けて取り組んだ作業を紹介する[9]。しかしその前に、筆者の研究について簡単に触れておきたい。筆者は、中世ヨーロッパ世界で活動した教皇特使を研究対象としている。 教皇特使とは、ヨーロッパ各地からの求めに応じてローマ教皇庁から派遣され、滞在先各地で教皇に代わって法的・政治的・宗教的任務を遂行した、教皇の「分身」ともいわれる役人である。盛期・後期中世(12—15世紀)においては、教皇のブレーン集団を形成していた枢機卿が教皇特使を務めることが多く、かれらは一定期間教皇庁を離れて任務の旅に出た。
なんらかの証書史料群を扱ったことのある研究者であれば、史料番号、日付、発行者、発行地、内容、証人などの情報をエクセルシートにまとめようとした経験があるのではないだろうか。 以前はRI Onlineでデータを一括取得することができると知らなかった筆者自身も、RI Onlineの画面から史料の情報をコピー&ペーストして、エクセルシートに入力する作業を続けていた。ところが、2017年11月26日に東京大学本郷キャンパスでおこなわれた、歴史家・アーキビスト・エンジニアを交えたToDHのアイディアソンにおいてこの作業の効率化について話題提供したさい、RI Onlineでは各文書の情報を記述したXMLファイル群が取得可能であることを知った。
これを利用しない手はないと考え、筆者はこれをシンポの発表の題材にすることに決めた。RI V,2,3・4には、13世紀におもにドイツ語圏で活動したのべ25名の教皇特使の発行文書が目録化されている。 RI Onlineから取得した該当文書のXMLファイル内の<dateRange>、<issuePlace>、<abstract>などのタグで囲まれた文字列を収集・分析すれば、教皇特使の移動ルート・滞在都市・移動の季節性・滞在都市ごとの文書発行数などの傾向を数量的に示すことができる。 教皇特使の移動・滞在は、教皇権と各都市あるいは司教座との関係の指標となるため、歴史学的な成果への見通しも得られるのではないかと考えた。
今回対象としたのは、13世紀半ばに現在の独仏境界域で活動した教皇特使サン=シェルのフーゴである。ドミニコ会の修道士で神学者としても有名なフーゴは、1244年に枢機卿として登用されて教皇庁に入り、1251年から1253年まで、皇帝フリードリヒ2世死後の混乱のなかにあるアルプス以北で教皇特使として移動をくりかえした。 フーゴを選んだのは、かれの教皇特使としての動向が筆者の研究関心にとって重要であるだけでなく、RIに収録された教皇特使のなかでもっとも採録史料数が多く(232件)、作業を自動化する効果が高いからでもある。
さて、ToDHのグループワークを経て、シンポまでの目標を、フーゴの教皇特使活動をTimelineJSで表現することに定めた[10]。TimelineJSは、スプレッドシートに情報を入力してWeb上にアップするだけで視覚効果に優れた年表を作成できる無料のサービスである。 つまり、RI OnlineでダウンロードしたXMLファイル群から、必要なテキスト部分を取り出したtsvファイルを出力してスプレッドシートにコピー&ペーストすれば、年表で表現することができる。 目下、このtsvファイルを出力するプログラムを書くこと、および各文書の発行地を地図上にプロットした画像を作成することが作業課題となった。テキストの処理にはPythonを、地図の作成にはデータの分析・表現に優れたTableauを使用した[11]。これらの課題は、ToDHの関係者たち、とりわけ小林拓実、山王綾乃、小風尚樹の3名の惜しみない協力がなければクリアできなかっただろう。
試行錯誤の末、枢機卿フーゴの教皇特使活動全体をおさめる年表が完成した[12]。 表紙につづいて、1ページにつき1通の文書の情報を表示させている。各ページ左側の地図では、文書の発行地をその都市での発行数に応じた大きさの円で表している(ただし発行地不明の文書については地図をつけていない)。右側のテキスト部分では、綱文中に含まれている典拠先の史料集名の略号を黄色でハイライトさせることによって、RI Onlineの検索画面・XMLにおける不十分な点を部分的に解消した。また、文書の受取人(または宛先)の情報も追加するために、筆者自身の手作業で各XMLファイル内に<recipient>タグを追加し、年表に表示させている。他の十分な情報量のある教皇特使に関してもこの作業を適用すれば、13世紀の教皇特使の移動ルート・滞在都市などの傾向を把握するという課題に対して、現在RIから手にすることのできるデータ全てを検討した結果を出すことができるだろう。
ここまでの成果は、歴史学的に新鮮な知見となる結論を求める読者にとっては物足りないかもしれない。しかし本稿で筆者は、西洋中世学研究者にとって身近なRIというDBの構築にDHが貢献していること、そしてDHの世界に足を踏み入れてみれば、新たな研究の可能性が広がることを伝えようと試みた。今後DHの世界を覗いてみようという歴史研究者にとって、単純な作業の効率が上がったり、作業そのものがおもしろくなったりすることは、成果につながることと同じように重要なことなのだから。
https://www.ninjal.ac.jp/event/specialists/symposium/20180825_intlsympo/
https://www.ninjal.ac.jp/event/specialists/project-meeting/m-2018/20180907-sympo/
https://www.ninjal.ac.jp/event/specialists/symposium/20180908_intlsympo/
今回も巻頭言のみならず、4本の興味深い連載記事を掲載させていただき、大変ありがたいことである。 とりわけ、巻頭言「博物館の目録記述を再考する時期に来ている」は、デジタルネットワークがいよいよインフラ化してきた状況下で、博物館が提供すべき情報についての、当事者からの時宜を得た貴重な提言であるように思われる。 「国立歴史民俗博物館のkhirinと聆涛閣集古帖」において紹介されているkhirinの事例はまさにその提言の方向に沿おうとするものであるとも言えるだろう。
また、「Regesta Imperii Onlineの活用」は、欧州において公開されているデジタル史料の裏側がどのような構造をもってデジタル化されてきているか、ということを垣間見せるものであり、さらに、「ゲッティンゲン大学でのデジタル・ヒューマニティーズとコーパス言語学の授業を担当して」では、そのような構造化史料が欧州で実際にどのように教育研究に活用されているかをうかがい知ることができる。今後このような裏側の情報を我が国でも広く共有していくことで、海外先進国と対応しつつよりよい資料の共有方法を検討していく必要があるだろう。この点、「KU-ORCASワークショップ「ベンダーからのアーカイブの提案」」において紹介されたようなベンダーを交えたワークショップの取り組み等を通じてベンダーと研究者・現場が情報共有をする場を形成していくのも一つの道かもしれない。
イベントカレンダーにも記載されているが、欧米での人文学資料のデジタル化・構造化に関わるガイドラインの策定を30年にわたって牽引してきたTEI協会が、9月に初めて、欧米以外の地域での年次総会を東京・一橋講堂で開催する。欧米の人文学資料のデジタル化に関する第一線の専門家たちが集まるイベントであり、欧米の文化資料の「裏側」がどうなっているかを知る絶好の機会でもある。この方面について考える良い機会にもなると思われるので、ぜひご参加をご検討いただければ幸いである。https://tei2018.dhii.asia/会議は、主に英語で開催されるが、基調講演には同時通訳が用意される予定であり、日本語による入門編ワークショップも予定されている。
(永崎研宣)