ISSN 2189-1621 / 2011年08月27日創刊
人文情報学(デジタル・ヒューマニティーズ、以下、DH と略す)では紙媒体のテキスト資料を扱う研究活動が少なくない割合で含まれており、そこでは図書館に所蔵される資料を用いることが多く、その意味で DH は図書館との関わりが深い。日本の図書館でも、近年は貴重資料をデジタル化して公開し、DH というよりはむしろ人文学さらに言えば学術研究全般の基盤を提供する取り組みを進めるところが増えてきており、DH もその恩恵を受けている。
こうした動きの一方で、あくまでも筆者の個人的体験ではあるが、海外の DH コミュニティの方々とお付き合いをするなかで、図書館の人が日本よりもかなり深く人文学の側に歩み寄っている状況をよく見かけるようになった。もっとも驚いたのは、米国のデューク大学の図書館において、古典研究のためのプログラマ、というポストが用意され、その大学のみならず世界の人文学者のためにソフトウェアの開発や国際的なデータ規格の整備に従事する人(そしてこの人はギリシャ古典で博士号を有している)が雇われていたことである。もちろん、この1名だけではなく、さらに2名が雇われて一つの部署が設置されている[1]。大学図書館でそれほどまでに古典研究を支援してくれるところがある、ということに大きな感動を覚えたところであった。古典研究とまではいかずとも、「デジタル・ヒューマニティーズ・ライブラリアン」や、「データ・キュレイター」「データ・ビジュアライゼーション・ライブラリアン」「システム・アーキテクト」等のポストに就いている大学図書館所属の人たちと一緒に仕事をしたこともあり、こういった方々もしばしば DH の学会に参加したり発表したりしていた。
一方、人文学・DH に特化される話ではなく、より幅広い分野にも関連する話になるが、IIIF (International Image Interoperability Framework) の日本での普及に力を入れていた時期には、IIIF 対応のビューワ、Mirador[2]の開発にも参加しており、そこでも図書館からの参加があった。開発を主導していたのはスタンフォード大学図書館とハーバード大学の方々であり、後者は図書館ではなく大学内の DH センターのようなところ(Arts and Humanities Research Computing)に所属する人だったが、他にもノルウェー国立図書館やバイエルン州立図書館、そして、UCLA、トロント大学等から図書館に所属する内製エンジニアの参加があった。そのようにして図書館でソフトウェア開発する人が雇用されて仕事として取り組んでいることに改めて驚きを覚えたものだった。内製エンジニアは予算が切れると雇用が失われることもあるが、IIIF をはじめとする図書館関連の技術に関する国際会議が各地で開催され、最新情報の交換だけでなく人材交流や仕事の融通も行われ、所属組織を移して専門技能を活かせる職を探す場が提供されているようだった。
研究データ構築についても、図書館による取り組みについての大小様々な話を聞いてきた。なかでも大きなものとしては、研究利用しやすいテキストデータを構築して共有するための国際的な図書館間の互助組織として Text Creation Partnership (TCP)[3]がある。1999年に米国のミシガン大学図書館と英国のオックスフォード大学ボドリアン図書館が中心となって始まった事業であり、大きな成果としては、Early English Books Online (EEBO)[4] のテキストデータ化がある。まず、この元になった EEBO について簡単に説明しておくと、EEBO は ProQuest 社が提供する初期英語(1473–1700年)の文献資料の画像を提供する有料のデータベースサービスである。比較的老舗の基幹的なデータベースであるため、日本でも英語英文学に力を入れている大手大学の図書館であれば契約していることがあるだろう。146,000以上のタイトルと1,700万頁以上のコンテンツを提供しており、たとえば「shakespeare」でキーワード検索すると5,839件がヒットするといった具合である。
EEBO は、元々は画像データベースであり本文検索はできなかったのだが、そのデジタル文字起こしに取り組んだのがこの TCP である。主に大学図書館の方々により、テキストデータは TEI ガイドライン[5]に準拠する形式で構造化され、ミシガン大学がそれを活かした検索システムを開発し多様な詳細検索を可能とする一方で、オックスフォード大学のサイトではそのテキストデータが自由にダウンロード可能である。最終的に150以上の大学図書館が参加し、英国・米国だけでなく、豪州・カナダ・アイルランド・香港等、英語英文学に力を入れている地域からの参加があった[6]。現在は、EEBO における計60,331タイトルの文献資料のテキストデータがパブリックドメインとして公開され、誰でも利用できる。TCP のこの活動は、人文学にも DH にも多大な支援になっているといえる。
また、人文学や DH に特化された話ではないが結果としてそうなっている例として、HathiTrust デジタル図書館[7]がある。これは、大学図書館が所蔵する本を可能な限りすべてスキャンしてデジタル化資料とし、OCR で文字列検索もできるようにするという Google Books が開始した取り組みに対して、そのカウンターパートとして大学図書館側で組織化しシステムを用意したものである。HathiTrust は北米の大学中心ではあるものの世界中からの参加があり、288の参加機関の中には日本からも慶應義塾大学がデータ提供機関として名を連ねている。このデータの管理はミシガン大学が担っており、著作権保護期間中の資料も大量に含まれているため、外に漏れないように厳重に管理されているとのことである。HathiTrust はコロナ禍に閲覧可能範囲を一時的に拡大するなどして当時の大学教育の危機の打開に大きな貢献を行ったこともあり、デジタル図書館だけでも有用性は高いが、これに加えて、DH を支援する組織として、イリノイ大学とインディアナ大学が共同で設立した HathiTrust 研究センター[8]も運営されている。ここでは著作権保護期間中のテキストデータを「カプセル化」して分析可能とするシステムをはじめとして、HathiTrust のデータを用いた研究を可能とするための様々な仕組みが提供されている[9]。
DH の活動を続けていくなかで、筆者は、このような取り組みを支える背景として、「研究図書館 (Research library)」という考え方があることを知るようになった。ここには、大学図書館だけでなく、強力な研究支援機能を持つ国立図書館や専門図書館も含まれるようである。筆者は図書館制度の専門家ではないのだが、本稿を執筆するなかでこの全体像を少し確認してみることを思い立ち、「research libraries association」などといった検索語でグーグル検索してみると、いくつかの組織がヒットした。あくまでもグーグルで Web サイトを見て調べた限りなので、また後ほど他の資料にもあたってきちんと調べてみなければならないが、その結果を古い方から見てみよう。
1932年に Association of Research Libraries (ARL)[10]がシカゴで設立された。これは1961年にはコロンビア特別行政区の法律に基づいて法人化された。現在の参加機関127の中には、米国・カナダの主要大学だけでなく米国の国立図書館である議会図書館も入っており、政策立案やアドボカシー、参加組織間の共同プロジェクトの促進等に力を入れている。
1949年には現在の Center for Research Libraries (CRL)[11]の前進となる組織がシカゴに設置された。これは国際的な研究図書館のネットワークを志向しており、216の参加組織の中にはドイツやカナダの組織も含まれており、希少な学術資料の収集と提供に力点を置いている。ここには世界最大の図書館カタログ WorldCat[12]を運営する OCLC (Online Computer Library Center) は入っているが米国議会図書館の名前は見当たらない。このことが組織の性格を表しているといえるだろう。
欧州で研究図書館を冠する組織としては、1971年に欧州評議会の下で設立された LIBER (Ligue des Bibliothèques Européennes de Recherche – Association of European Research Libraries)[13]がある。40カ国から420以上の図書館が参加しており、英国図書館やフランス国立図書館をはじめとして欧州各地の国立図書館も含まれている。政策提言、教育プログラム、協力促進に関する広範な活動を行っているとのことである。
1983年には、英国とアイルランドの主要な研究図書館のネットワーク組織として Research Libraries UK (RLUK)[14]が設立されている。ここには35の大学図書館と3つの国立図書館、ウェルカム図書館が含まれている。RLUK では、図書館の研究サポート機能を強化することに重点を置いており、現在は、研究データ管理、デジタル化プロジェクト、学術コミュニケーションの改革、政策提言などに力を入れているようである。
1992年に設立された Consortium of European Research Libraries (CERL)[15]は、ヨーロッパの印刷遺産、特に初期印刷本へのアクセスを改善し、その活用と保存を図るために、研究図書館間でリソースと専門知識を共有することを目的とする組織である。これは人文学・DH と活動内容としてかなり近接するものがある。参加機関267の中には、欧州の各地の国立図書館と有力大学図書館だけでなく、米国の大学図書館やフォルジャー・シェイクスピア図書館の名前もある。他の研究図書館ネットワーク組織に比べて目的が特化されたやや珍しいものであると言えるかもしれない。
ということで、研究図書館をつなぐ組織をいくつか見てきた。さらに、これらのうちのいくつかの組織をつなぐ International Alliance of Research Library Associations (IARLA)[16]という組織も存在するようである。なお、こういった組織とは別に、「大学図書館」のネットワーク組織も存在していることから、研究図書館と大学図書館は、やや違うものとして扱われる場合があるのかもしれないが、その点については機会があれば今後調べていきたい。
日本では近年、国立国会図書館がこの種の研究支援も含めた活動を徐々に推進しつつあるものの、他の先進国の国立図書館の取り組みに比べるとまだ規模が小さい。そして、大学図書館となるとこのような人文学・DH に向けた本格的な支援という意味ではまだかなり水をあけられており、むしろ、この種の支援業務の一部を研究者のポストによって推進しているという面がある。つまり、海外で図書館の業務とされることの一部を研究者が担うというのが日本の人文学・DH における均衡点になっていると理解すべきなのかもしれない。人文学でも研究データ管理やDXが推進されつつあるなか、どこが基盤を担い、それをどう形成し発展させていくか、今後の課題として意識的に取り組んでいく必要があるだろう。
それから、最後に付言しておくと、人文学における研究成果としての論文や本も、図書館に所蔵されるものである。今後はそのデジタル化・オープン化がますます進展していくと思われるため、今後、研究成果と図書館の関係がどうなっていくかということもまた、人文学にとっての重要な検討課題となっていくことだろう。
2024年2月20日、『イスラーム・デジタル人文学』という書籍(図1)が、U-PARL 協働型アジア研究叢書の1つとして、人文書院から出版された[1]。本書は、イスラーム研究とデジタル人文学という、二つの学術分野の架橋を図る、画期的な書籍である。編者の須永恵美子氏と熊倉和歌子氏のもと、イスラーム学の多様な専門領域の研究者が結集し、デジタル技術を活用したイスラーム研究の新たな可能性を探る、意欲的な論考が並んでいる。
本書の最大の特徴は、イスラーム研究の第一次資料であるアラビア文字資料[2]のデジタル化とその分析手法の提示にある。クルアーンやハディース、イスラーム法学書など、大量の文献をデジタル化し、コンピュータで分析することで、テキストマイニングやネットワーク分析など、これまでのアナログな手法では不可能だった大規模かつ精緻な考察が可能になる。各章の論考は、Transkribus などのソフトウェアを用いたアラビア文字テキストの自動翻刻など、実践的で有用性の高い事例を数多く紹介している。
また本書は、デジタル技術を単なる研究のツールとしてではなく、人文学的思考そのものに変革をもたらす存在として捉えている点でも注目される。デジタル化の進展は、テキストや読解の概念を根本から問い直すきっかけとなる。本書では、イスラーム世界に伝統的な「知のネットワーク」的発想と、デジタル時代の新しい知のあり方との接続可能性が示唆されており、新たな知的パラダイムの萌芽を感じさせる。
各章では、イスラーム研究の多様な分野の資料を対象に、計量テキスト分析、自動文字認識、TEI マークアップ、ネットワーク分析など、デジタル人文学の代表的な手法を用いた研究成果が披露されている。
第1章「イスラーム・デジタル人文学ことはじめ」(須永恵美子)では、イスラーム研究におけるデジタル人文学の意義やメリットと、そのインフラ整備の諸例と重要性、そして、図書館の役割が論じられる。欧米の大学図書館を中心に、イスラーム関連資料のデジタル化が急速に進んでおり、日本でもその重要性への認識が高まりつつある。それらのデジタル化された資料を用いたデジタル人文学的手法がどのようにイスラーム学を変えていくのかを、デジタルアーカイブやツールの活用、「方法論の共有地」、そしてオープンな研究環境の整備の面から述べている。
第2章 「デジタル化される聖典――クルアーンとハディースの音と文字」(竹田敏之)では、イスラームの根本聖典クルアーンとムハンマドの言行録ハディースのデジタル化が、テキストの系譜分析や読誦法の研究に与えるインパクトが考察される。クルアーンはもともと「音」としてのテキストであり、その「文字」としての側面もあわせ持つ。デジタル技術を活用することで精緻な校訂や、音声データベースの構築が可能になりつつあることが紹介される。ハディースについても、膨大な数の伝承を対象にその真正性を計量的に判定する試みが進められている。
第3章「閉じられたテキストを世界に向けて広げる――デジタル人文学とイスラーム法学のテキスト研究」(塩崎悠輝)では、イスラーム法学のテキストを素材に、デジタル化が伝統的なテキスト観とテキスト研究に変革をもたらす可能性が論じられる。従来「閉じられた」テキストと見なされてきた法学文献を、テキスト分析やネットワーク分析などを駆使したデジタル技術の力で「開かれた」テキストとして読み直すことができるようになる。
第4章「自動文字認識とテキスト化――Transkribus によるウルドゥー語の自動翻刻」(須永恵美子)は、ウルドゥー語の手書き文書を事例に、複雑なナスタアリーク体アラビア文字で書かれた資料の、Transrkibus[4]というアプリケーションによる自動翻刻について論じている。OCR(光学文字認識)や HTR(手書きテキスト認識)の技術は目覚ましい進歩を遂げており、それによって手書き資料のデジタル化も飛躍的に進展しつつある。ただし正確な文字認識のためには、言語や書記の特性に適合した学習データの整備が欠かせない。
第5章「計量テキスト分析――文字データを量的に解析する方法」(山尾大) では、計量テキスト分析の手法を用いて、イラク紙の報道トーンの推移を分析した研究が紹介されている。この分析により、「イスラーム国」台頭前は宗派対立をあおるような報道が目立っていたが、台頭後は一転して「国民和解」を呼びかける報道に収斂していったという知見が示された。ここではイスラーム地域の社会動向を探る上で、テキストマイニングが有力なアプローチになり得ることが示唆されている。
第6章 「TEI ガイドラインと OpenITI mARkdown――マークアップ手法を用いた歴史研究と分析」(熊倉和歌子)は、TEI ガイドラインと OpenITI mARkdown[5]のマークアップ手法を用いて、デジタル化されたイスラーム関連テキストに構造化記述を施す方法を解説する。機械にも人間にも理解可能な形で、テキスト間の関係性を明示的に記述することで、イスラームの知識体系を再構築する基盤が整備されると論じられている。
第7章「ネットワークを可視化する――近世マグリブの伝記史料を題材に」(篠田知暁)は、近世マグリブの学者の伝記資料を用いて、イスラーム世界の知識人コミュニティーの広がりを、デジタル人文学の手法で可視化する試みを紹介している。師弟関係のデータからネットワーク分析を行うことで、同時代の学者たちの交流の広がりを俯瞰することが可能になる。ただし機械的に抽出されたデータの解釈には、研究者の専門知が不可欠である。
第8章「五線譜のデジタル化――クルアーン第1章第2節を例に」(石田友梨)は、クルアーンの朗誦を五線譜化し、MuseScore、Humdrum、MEI、MusicXML、『初音ミク V4X バンドル』といったさまざまな方法でデジタル化することで、初音ミクにクルアーンを朗誦させる「クルアーン・ミク」を作成する方法を解説している。
第9章「人工衛星で人間活動を測定する――夜間光画像を利用したラマダーンの分析」(渡邊駿)は、リモートセンシングの一種である夜間光データの特徴と中東・イスラーム研究への応用可能性について述べている。ヨルダンでのラマダーン月の事例分析を紹介しつつ、夜間光データの利点と留意点を論じ、今後の研究の発展性を展望している。
各章に加えて、章間にある各コラムも見逃せない。アフガニスタンにおける歴史資料電子化の取り組みの意義、ソーシャルメディア上で交わされるイスラーム言説の分析、文献などの画像の比較閲覧を可能にする IIIF(国際的画像相互運用枠組)、アラビア文字の Unicode 化の進展など、イスラーム世界のデジタル化を考える上での多様な話題が提供されている。
巻末のデジタル・プロジェクトおよびアーカイブの紹介は、イスラーム文献をオンラインで調べる者にとって大変有益である。ここで紹介されているのは、イギリスの FIHRIST[6]に代表される欧米のイスラーム学のプロジェクトのウェブデータベースだけでなく、マルマラ大学貴重書デジタルコレクション[7](トルコ)や東南アジア・イスラーム写本データベース[8](インドネシア)など、広く中東から東南アジアにかけてのイスラーム世界で構築されているデジタルアーカイブやデータベース、さらに日本で構築されているオスマン碑文データベース[9]など広範である。
以上の各章およびコラムの叙述は、デジタル技術の専門的な解説と具体的な研究事例とを織り交ぜつつ、平明な語り口で「イスラーム・デジタル人文学」の魅力を伝えている。本書が、日本におけるイスラーム研究とデジタル人文学の協働と対話に、大きな弾みをつけることは疑いない。