ISSN 2189-1621 / 2011年8月27日創刊
私は、修士課程のときに民族学・考古学の研究室に所属して古代イスラエルの考古学を専攻していました。その後、博士課程では別の大学の大学院に編入学して、一般言語学の研究室に所属し、古代エジプト語(ヒエログリフやヒエラティックなどの文字で書かれた古代エジプト土着の言語)の言語学に関する研究を行いました。このように、研究者として重要な時期に転専攻を経験しているのですが、それでも古代オリエントに関する研究に従事してきたという点では、共通したフィールドで仕事をしていると言えます。
私の関わっている古代研究の世界について、その醍醐味は何かと言えば、対象が存在していないという点にあると私は考えています。古代そのものは、もはや存在していないのです。残っているのは、活動や思考の痕跡です。遺跡や遺物などの考古学資料(物的資料)、碑文や写本などの言語資料、壁画などの美術資料などは、現代まで残った過去の痕跡にしか過ぎません。
今から3000年以上も前の古代エジプト語の碑文や写本を私は日々読んでいますが、欠損が大きかったり、手書きの文字が汚かったりして、文字すら判読できないことも珍しくありません。また、文字が綺麗に書かれていて、文法が明確であっても、意味の取れない言語資料もあります。このような資料から過去の言語の姿を記述するのは、なかなか骨の折れる作業です。
研究において私がこだわっていることの一つは、原資料に基づく類例の収集です。原資料に基づくというのは、翻刻などの代替物(学者による解釈)に頼るのではなく、原資料そのものを実見したり、原資料の写真で文字の状況を確認したりする作業を意味します。いわば、現場にある証拠のレベルからデータを収集するのです。そして、もう一つのこだわりは、自分の属する学問のディシプリンに縛られすぎないようにするというものです。考古学者、歴史学者、美術史家はどう考えるのか、別の方法はないのか、別の見え方はないか、などを思考しています。このような二つの姿勢を大切にして、過去に向かい、見えなかった情報を引き出す、という研究をしています。
さて、ご縁があって、2018年4月に東京大学附属図書館アジア研究図書館上廣倫理財団寄付研究部門(Uehiro Project for the Asian Research Library = U-PARL)[1]の副部門長を拝命致しました。本部門は2014年4月に東京大学附属図書館に新設された研究部門であり、2020年に開館が予定されているアジア研究図書館の構築支援、研究図書館の機能研究、アジア研究などを行っています。
U-PARL の柱となる業務は、現在のところ、アジア研究図書館の構築支援です。東京大学には30にも及ぶ図書館・図書室があり、アジア研究の学術資源は学内に80万冊以上も存在すると言われています。これらの、いわば点在する資源を可能な範囲でアジア研究図書館に集約させることにより、アジア研究の拠点を築くことを目指しています[2]。
アジア研究図書館の開館に向け、U-PARL では研究者自らが選書と蔵書構築を行っています。また、総合図書館所蔵ならびに U-PARL 購入の「漢籍・碑帖拓本資料」のデジタル化を行い、2017年5月より高精細画像を Flickr で提供しています[3]。2018年9月には、これらの資料を IIIF として新たに公開致しました[4]。学術資源の公開に際しては、司書では作成の難しい「深いメタデータ」を専門の研究者が付与しており、今後は IIIF 画像で公開するコンテンツを増やすとともに翻刻を加えていく予定です。さらに、様々なセミナーを実施して研究支援[5]や図書館司書支援[6]を行い、学術資料を適切に扱うことのできる専門的人材の育成[7]にも取り組んでいます。
このように U-PARL の活動は、研究資源の収集、研究資源のオープンデータ化、研究資源を扱う人材の育成、と多岐にわたるのですが、それでは、これらの活動が目指す先は、いったい何なのでしょうか。いくつかの見通しや見解があるのですが、個人的には、学術資源という見えるものを集約させることにより、見えなかった情報を見いだす、という点に魅力を感じています。
存在する学術資源を見るために人が図書館に来る、というのが伝統的な図書館の姿です。これらの伝統的な役割に加え、図書館に存在する学術資源(既知の情報)を様々な情報と繋ぎ合わせることにより、今まで見えなかったもの(未知の情報)を紡ぎ出して提供するという新たな装置を図書館設置の研究部門として開拓していきたいと考えているところです[8]。
見えなかった情報を紡ぎ出すというと、何かドラえもんの世界のような夢物語にも聞こえますが、そのために重要となるのは、研究資源(原資料)に対する深い理解と、理解したものを可視化させる能力です。研究資源の中に秘められている情報をえぐり出し、言葉として紡ぎ出す作業は、研究資源に熟知した研究者の役割です。幸い、図書館には研究資源の現物があり、U-PARL には様々なディシプリンの研究者が集っています。研究資源の現物と向き合い、スタッフの学知を結集させることにより、ワクワクする仕掛けを作っていきたいと思う次第です。今後とも、U-PARL の活動に注目して頂ければ幸いです。
2018年8月13日に東京大学情報基盤センターの中村覚氏によって IIIF Discovery in Japan が開始された[1]。これは、日本国内で提供されている IIIF 対応で公開されたリソースのメタデータを収集し、そのなかでも二次公開が認められた状態で提供されているものについて検索ができるようになったものである。
IIIF は、International Image Interoperability Framework の略で、ウェブを通じた画像提供に関するメタデータやURIサービス設計の一標準であり、同時にその標準を推進するコミュニティの名称であって、本連載でも何度か取り上げてきたところである。 IIIF は、それ自体柔軟性の高い仕組みを備えており、他サービスとの連携を取りやすくしてはいるものの、それ自体に一サービスを超えて検索する仕組みがあるわけではないから、このような発見(ディスカバリー)サービスにどのように拾ってもらえるかといったところに課題があった。 本サービス開始以前にも、関西大学アジア・オープン・リサーチセンターの菊池信彦氏による「日本の図書館等における IIIF 対応デジタルアーカイブ一覧」があったが[2]、コレクション内に分け入っていくわけではなかった。 本サービスの開始を受けて菊池氏が一覧のメンテナンスを終える旨発言したところ、中村氏が検索対象の問題から終了の必要はないとコメントしているが[3]、検索対象の多寡ということを除いても、一覧とディスカバリサービスは目次と索引の関係にあたるわけであるから、相補うものであるように思う。
さて、検索してみると、そこまで思ったような検索が可能にはなっていない。その意味もあって、検索サービスではなく発見サービスと名乗っているのかとも思うが、これは、ひとつには、提供されている IIIF 対応のメタデータに起因するところが少なからずあるものと考える。
IIIF にはメタデータについてはあきらめている節があり、協調とまでゆくとあまりできることが多くない。たとえば、トークナイザーと閾値の問題なのか、検索窓でサジェストされている「百鬼夜行図」で検索するとおそらく「図」が入っているものがすべて検索されてしまう(執筆時)[4]。 これは、トークナイザーによって検索語が分割されて検索するために起るのであろうが、IIIF 対応リソースのキーワード一致検索ではおそらくあまり検索精度がよくないという問題もあるのではないか。 本サービスを紹介した発表では[5]、メタデータ収集に関する問題点は指摘されていても検索上の問題は指摘がなく、これは推測に留まるが、メタデータの粗密が IIIF 対応リソース提供者によって大きく異なることは確かである。IIIF じたい、詳しい情報の提供は seeAlso プロパティでべつのウェブ上のリソースを指し示すことを支持しているわけで、IIIF 対応のメタデータが詳細でないことは罪ではないのであるが。
IIIF でできないのであれば、Dublin Core や Google が推進していることで否が応でも耳目に入る Schema.org などで情報を補うということは当然検討の余地に入るわけであるが、やはりこれも IIIF の仕様の外である以上、それぞれの提供者がそれぞれの対応を取るのは避けがたい。IIIF 対応の要件とするには、IIIF 対応リソース提供者間で —グローバルに— 足並みを揃える必要があるからである。とはいえ、seeAlso プロパティで DublinCore や Schema.org に沿ったデータで詳細なメタデータを提供することで、IIIF 対応リソースであるという利点を活かしつつ、機械的にも処理の容易なリンクトデータ空間を作り出す意味は、本サービスのような可能性を展開していくうえでも見逃しがたいのではなかろうか。
現状、IIIF で提供することに特段の “SEO” 効果はない。しかし、本サービスのような発見サービスが普及していけば話は変わっていくだろう。自サービスがよそからどう見えているかということを Google の SEO は意識させるようになった。Schema.org が Google 検索に採用されて普及したのも、Google が推奨したからだけではなく、機械可読データが自サービスを発見されやすくする実力を持っていたからだろう。本サービスやそれによるメタデータの充実化への模索によって、協調的にデジタルアーカイブを取り巻く環境が充実していくと素晴らしいことだろうと思う。
前回は、欧米の DH の歴史の中で、長年多数のプロジェクトを生み出してきた聖書の DH 的研究とそのツールに焦点をあて、有料の商用である聖書研究ソフトウェアを紹介した。今回は、現在、聖書写本学の共同研究のためのプラットフォームとして、新約聖書学研究で著名なミュンスター大学も取り入れている、Virtual Manuscript Room(略称 VMR)、および、その母体となった CrossWire Bible Society について紹介する。
CrossWire Bible Society (https://www.crosswire.org/) は、GNU General Public License が付与されている、無料で、かつ改変・再配布ができる聖書ソフトウェアを The SWORD Project の名の下で多数提供している。例えば、Windows、Linux、Mac、Android、iOS といった OS ごとに異なるソフトウェアがあるし、機能も多少は異なってくる。これらのプログラムにおいては、著作権など権利関係上許可されている、聖書本文、翻訳そして関連書籍を中心としたコンテンツを揃えている。 ソフトウェアの機能には、語の上でカーソルを合わせれば、ギリシア語やヘブライ語の意味が表示される機能や、パラレルで本文と翻訳を表示させる機能など、有料の聖書研究ソフトウェアに搭載されているものが採用されている。そして、聖書ソフトウェア用の規格である OSIS 形式で保存された聖書データであれば、インポートして The SWORD Project の諸プログラム上で閲覧可能である。SWORD Project には、前述したように、パソコン向けのものと携帯電話向けのソフトウェアがあるが、携帯電話においても、タップすれば、単語の意味、そして活用形などの情報を見ることができる高機能のものもある。
これらのソフトにインストールできる聖書データの中には、CrossWire Bible Society と提携している研究者が独自に編纂・開発した聖書もある。例えば、ミュンスター大学新約聖書本文研究所(http://egora.uni-muenster.de/intf/)にて研究していた Christian Askeland と Matthias Schulz は、CrossWire Bible Society の Troy A. Griffitts と協働して、既存のデジタル・エディションや、独自にデジタル化した紙媒体の諸エディションを用いて、コプト語サイード方言訳聖書のデジタル版を編纂した(http://www.crosswire.org/study/fulllibrary.jsp?show=SahidicBible)。 この版は、CrossWire Bible Society 関連のポータルから検索・閲覧可能である。コプト語の聖書翻訳には、ラテン語のヴルガータ(Vulgata)訳やシリア語のペシッタ(Peshitta)訳のように聖書一つでまとまった翻訳がなく、聖書に収録されているそれぞれの書の翻訳がバラバラに存在するだけである。Askeland & Schulz 版は、St. Shenouda the Archimandrite Coptic Society(http://www.stshenouda.org/)がコプト語サイード方言新約聖書の紙媒体の各書のエディションをデジタル化して編纂したデジタル・エディション[1]に、新たにサイード方言の旧約聖書の各書のエディションをデジタル化して追加したものである。 ただし、旧約聖書のいくつかの書は欠いている。このヴァージョンは、デジタル化された旧約聖書の多くを持っていることから、コプト語訳聖書の研究上、大変利便性が高く、革新的である。このデジタル・ヴァージョンは、研究協力関係にある、ミュンスター大学新約聖書本文研究所や、ゲッティンゲン学術アカデミーの Digital Edition and Translation of the Coptic-Sahidic Old Testament プロジェクト(http://coptot.manuscriptroom.com/)で、聖書の写本のデジタル・エディションを作る際のベース・テクストとして用いられているほか、コプト語サイード方言のウェブコーパスである Coptic SCRIPTORIUM(http://copticscriptorium.org/)では、旧約聖書の部分が形態素解析を施された上で公開されている[2]。
CrossWire Bible Society の主な技術者である Troy A. Griffitts は、このプロジェクトの技術を駆使して、ミュンスター大学の新約聖書本文研究所(Institute for New Testament Textual Research)とバーミンガム大学の本文研究・電子エディション研究所(Institute for Textual Scholarship and Electronic Editing)において、Ulrich Schmid と協働して、VMR というウェブアプリを開発した。このアプリを用いれば、写本の写真の管理、テクスト・データおよびメタデータ作成の共同作業、そしてウェブでの公開が容易にできる。 このオンライン・アプリのプラットフォームの基盤には、Liferay が用いられている。VMR では、オンライン上で、画像の色合いやコントラストを調整できる写本の写真を見ながら、写真の隣のエディタ上で写本の写真上の文字を入力していくというエディタ上の作業が主になる。このエディタ部分は TinyMCE を基盤に、トリーア大学のKompetenzzentrum の Workspace for Collaborative Editing プロジェクトが写本学向けにカスタマイズしたものが用いられている。このエディタを用いれば、列・コラム、ページ、帖、欠損部、再建部分、コメントなどの写本学的な各情報を WYSIWYG(What You See Is What You Get)にマークアップできる。データは EpiDoc という碑文やパピルス文書、古代の写本に適した TEI 基準の XML 形式で出力できるほか、写本に比較的近いレイアウトでのHTML文書でも出力できる。 このアプリでは、写本を転写する上で参考となる、別の写本のテクスト、もしくは校訂版のテクストと書名・章・節の情報を「ベース・テクスト」として登録しておけば、新しい写本の転写をする際にそれの「ベース・テクスト」をロードでき、その「ベース・テクスト」を新しい写本と比較して、異なる部分を修正することができる。こうすれば、写本を最初から入力し写すことなく、異なる点を修正・マークアップしていけば、最小の労力で、短時間でデータが仕上がる。
VMR は Git を用いており、ログインしたユーザーによる変更による全てのヴァージョンがコントロールされている。さらに、特定のユーザーにタスクを割り当てたり、進行状況を確認できたりとチームワークに最適である。仕上がったデータは、デジタル・エディション、ウェブ・カタログ、ウェブデータベースとして公開できるほか、写本間の異同も、CollateX という視覚化プログラムを用いたヴィジュアリゼーションによって、一目で確認できる。
現在、VMR は、ミュンスター大学の新約聖書本文研究所における New Testament Virtual Manuscript Room、ゲッティンゲン学術アカデミーの Digital Edition and Translation of the Coptic-Sahidic Old Testament で用いられているほか、聖書写本以外、例えば、ゾロアスター教の聖典であるアヴェスターの写本(アヴェスター語)のプロジェクトでも用いられる予定である。アヴェスターは、右から左へ書かれるアヴェスター文字で書かれている。このように、VMR は右から左に書く文字(R-to-L)にも対応している。また、VMR には配布版として Virtual Manuscript Room Collaborative Research Environment(略称 VMR CRE)があり、そのホームページ(http://vmrcre.org/)からダウンロードすることが可能である。
VMR と Coptic SCRIPTORIUM で出力できる XML は EpiDoc に準拠して作られているが、データベースやコーパスの性質の違いのために、細かなところで記法は異なる。例えば、VMR は写本学的なデータの作成を目指したアプリであるが、Coptic SCRIPTORIUM は文献学的な情報のみでなく言語学的な情報のマークアップも目指したものである。 VMR が、碑文学およびパピルス学的な用途を想定して作られた EpiDoc の記法を遵守しているのに対し、Coptic SCIRPTORIUM には、品詞や統語樹を書くための情報など、EpiDoc にはない言語学的なマークアップがある。また、語のタグに関しても、VMR はスペースで語を分けているが、Coptic SCRIPTORIUM は、スペースなしで繋げて書かれるコプト語の接語も語としてのタグを付し、より言語学的なマークアップを行なっている。そこで、コプト学の諸DHプロジェクト間の協同作業の促進が目的の1つである KELLIA プロジェクトでは、筆者を含む3人の研究員が協働して VMR の標準的な EpiDoc に則った XML ファイルから Coptic SCRIPTORIUM で用いられている多少変化のある EpiDoc 準拠の XML へ変換する XSLT ファイルを作成し、KELLIA プロジェクトの GitHub リポジトリにて公開している(https://github.com/KELLIA/vmr_converter)。
今回は、ミュンスター大学、ゲッティンゲン大学、トリーア大学、バーミンガム大学が携わっている、写本共同研究のプラットフォームである VMR を紹介した。現在は、聖書写本学でのみ用いられているが、アヴェスタの例を紹介した通り、そのスコープは聖書以外の写本学を含みつつある。次回は、現在ドイツやフランスで研究が活発な text reuse についての情報を、2018年9月17日から9月21日までハンブルク大学にて行われる夏期講座[3]において筆者が行うコーパス言語学・計算言語学の講義の結果と合わせてお届けする。