ISSN 2189-1621 / 2011年08月27日創刊
今月から、《デジタル・ヒストリーの小部屋》と題した連載を開始させていただく運びとなった。内容としては、英語圏を中心としたデジタル・ヒストリーのあれこれについて、必ずしも最新のものばかりではなく、歴史研究者たる者、研究史をさかのぼりながら近年の動向を考察することとしたい。読み物としてもとっつきやすい記事を心がけたいと考えているので、どうかお付き合いいただければ幸いである。
初回の記事は、連載のタイトルにも含まれている「部屋」の含意について、アメリカのデジタル・ヒストリアンであるスティーブン・ロバートソンによる2016年の論考「デジタル・ヒューマニティーズとデジタル・ヒストリーの違い」[1]を引きながら説明し、本連載の立場を示すこととしたい。
デジタル・ヒューマニティーズ(以下 DH)の分野的特徴を表す語として、「方法論の共有地(Methodological Commons)」[2]や、スタンフォード大学で開催された2011年の DH 会議のテーマ「Big Tent」[3]などがある。これらは、人文学諸分野の垣根を越え、テキストデータや GIS、視覚化データといった研究の方法論を下支えする材料を媒体として成立する学際性に価値を見出した表現であると言えよう。ただ、後者の Big Tent は、DH の開放的性質を過度に強調するあまり DH 関連ポストの有給雇用の現実的な難しさを覆い隠す語である[4]、といった批判を受けるなどしており、20世紀アメリカの文化・社会史家でデジタル・ヒストリアンとしても著名なスティーブン・ロバートソンも、Big Tent という概念は、DH が単一の学問分野であるかのような印象を与えかねず、人文学の個々の分野における研究蓄積との対話をしにくくしていると批判している[5]。
この研究蓄積との対話について話をもう少し掘り下げてみよう。ロバートソンによれば、歴史家のデジタル利用として主な二つの要素は、ひとつはパブリック・ヒストリーの実践、もうひとつは地図であるという。ロバートソンが所属するジョージメイソン大学の Roy Rosenzweig Center for History and New Media と言えば、デジタルアーカイブ構築のための Omeka、文献管理ソフト Zotero といったツール類を開発していることでも有名だが、同センターにその名を残すロイ・ローゼンツヴァイクこそ、パブリック・ヒストリーの実践者として、ウェブ利用を通して非専門家の歴史観にひろく働きかけることを推進した歴史家である[6]。ウェブを通して非専門家の人々が自身の過去の体験を発信しやすくなれば、それらの情報は必然的に玉石混交のものとなるわけだが、ローゼンツヴァイクらはこのような発信行為に職業歴史家が意識的に介入することで流通する歴史情報の質を担保しようとしたのである[7]。また、地図の利用については、1970年代にはじまった空間論的転回の影響を受け、これまたパブリック・ヒストリーの文脈における史料の提示プラットフォームとしての利用や、テキスト読解からだけではつかみ取れない空間的なパターンを明らかにするための分析ツールとしての利用が見られた。このことは、現在ほど歴史学の分野において構造化されたテキストが流通しておらず、テキストデータベースを作成してもキーワード検索が主な利用法であったことが、言語学分野などにおけるテキスト解析の実践例が歴史学でさほど盛んにならなかったことの原因であるとロバートソンは論じている。
ロバートソンのこのような研究史の整理は、アメリカのデジタル・ヒストリーの潮流を一般化しすぎているようにも映る。筆者としては、より多様な研究史がさまざまな地域・言語圏から提示されるのが良いと考えているが、それは別稿に譲るとして、ロバートソンの議論で賛同できるところもある。それは、DH が単一の学問分野ではなく、人文学諸分野におけるデジタル利用の蓄積や系譜を踏まえて参集した分野であり、いまや DH の実践者が分野的意義を主張しなければならない相手は、分野固有の文脈で研究・教育に携わっている人々であると主張する点である。歴史学なら歴史学固有の問題を解決するために、DH 的手法がどう有用かを説かねばならないのであって、歴史学者にあまりなじみのない DH 的手法をいくら説いても両者の溝は深まるばかりだとロバートソンは考えているのである。先ほどの議論との関連で言えば、地図を用いた GIS 分析などが、両者を結びつけるものとして有用だということになる。
ロバートソンは、このような主張をまとめるにあたって、DH の分野的特徴を、「すべてを包含する大きなテントではなく、多くの部屋があるひとつの家」だと再認識するよう説いている。
現代的な例えかもしれないが、ロバートソンによるこのような DH 像の定義は、「シェアハウス」のようなものであると筆者は理解している。単純に言えば、ターゲットオーディエンスに応じて議論の力点を変えるということに尽きるのだが、歴史研究者としての顔、デジタル・ヒューマニストとしての顔を使い分けて研究・教育に携わる筆者としては、歴史学固有の問題関心や方法論との対話を重視しながら DH の成果を紹介することが多々あるため、ロバートソンの定義が腑に落ちたということである。
以上、今回取り上げてきた通り、本連載では DH をひと言で言い表す語としてロバートソンの議論を踏まえて「シェアハウス」を提唱し、シェアハウスの中でも歴史学の部屋の様子を紹介するとともに、時にはシェアハウスの住人が集うリビングで共有された話題を歴史学の部屋に持ち帰って議論する仲介役を担えたらと考えている。
https://www.ndl.go.jp/jp/event/events/20220209digi_info.html
http://www.kita.zinbun.kyoto-u.ac.jp/zinbun/symposium/seminar/2022_kanseki_tokyo
https://www.ninjal.ac.jp/event/specialists/project-meeting/m-2021/20220313/
2021年11月27日の土曜日、「人文情報学による仏教知識構造化の新潮流」と題されるシンポジウムが、東京大学の下田正弘教授が代表を務める科学研究費補助金基盤研究(A)「仏教学デジタル知識基盤の継承と発展」によって主催された[1]。シンポジウムは Zoom を用いたオンライン開催となり、70名弱が参加した。
プログラムは前半部と後半部からなり、前半部ではフランス語の仏教辞典『法寶義林』をデジタル化する、現在進行中の取り組みが特に主題となった。下田教授によるシンポジウム全体の導入、今回初公開となった『Digital 法寶義林』の永崎研宣氏による紹介[2]、コレージュ・ド・フランスのジャン=ノエル・ロベール教授による『法寶義林』の編纂経緯や特徴についての発表、再び永崎研宣氏からテキストの TEI 化とは何かという解説がなされた。
後半部では、漢文仏典の一大叢書『大正新脩大蔵経』(以下、『大正蔵』)を TEI 化する最新の取り組みの詳細が紹介された。まず渡邉要一郎氏から『大正蔵』の電子テキストを TEI によって構造化していく取り組みの、基本的なフレームが紹介された[3]。そしてその後、現在進行形で進められている『大正蔵』の TEI 化について、その作業チームのメンバーから10個の連続したショートプレゼンテーションがなされた。発表者は発表順に、村瀬友洋、井野雅文、朴賢珍、矢島礼迪、佐久間祐惟、余新星、渡邉眞儀、左藤仁宏、王一凡、片倉峻平(敬称略)の10名であった。村瀬氏からは作業チームである SAT-TEI 研究会の作業環境について報告がなされ、井野氏以降の発表者からはテキストの TEI 化についての具体的な検討など、各論的な発表が続いた。そして、それらに対して、チベット文献の電子テキスト事業に携わっている崔境眞氏がコメンテーターとして総括を行い、最後には、参加していた研究者たちからコメントが出され、閉会となった。
シンポジウム全体を通して、仏典をデジタル化する事業の意義という大きな理念的枠組みと、デジタル化という実務のなかで直面する問題とその対処法という細部の実際との、二つの側面がともに意識されながら議論が進められたように思う。
以下では特にその二つの視点から、いくつかの発表、議論について見ていきたい。
シンポジウムは、下田正弘教授の導入によって始まった。このシンポジウムの前提でもある、「仏教学のデジタル知識基盤の継承と発展」という一連の科研事業の現代的な意義、その理念が、下田教授から語られた。
仏教誕生以来、連綿と紡がれてきた仏教言説をひとところに集約することを目論んだ、「大蔵経」というテキストのありようをウェブ上で共有し、そこにさまざまな情報を紐付けながら知的空間を広げていくという、SAT テキストデータベースを構築する取り組みが、これまでの科研で推し進められてきた[4]。シンポジウムの導入として下田教授は、そのような一連の取り組みは古典研究の文脈にあるものとしながらも、古典研究とは固定的な過去の「古典」を陳列するばかりの懐古趣味のごときものではなく、古典が古典としてその価値を語られるときに立ち現れている現在の創造的精神、及びそこで生じる、未来に開かれていく問いをこそ、その本質とするものであると指摘した。
哲学者ジャック・デリダの論などを援用しながらの、下田教授によるこの導入は、その後の諸発表に対して正鵠を得た補足でもあったと筆者には感じられた。というのは、シンポジウムの後半部でも報告されていたように、ある作業者があるテキストをデジタル化するという実務のなかでは、技術的な解決に先立って、その作業者がそのテキストをいかに解釈するのかという、作業者自身の価値観に依存した人間的な問いこそが問題となるからである。それは、下田教授が述べたような古典研究の性格と、その本質を一にする問いであるように思われた。
シンポジウム後半部において主題となったテキストの TEI 化は、必ずしも機械的に行われるものではなく、むしろある人間、作業者の解釈の枠内で進められることが少なくない。そしてそのような側面があるがゆえに、TEI 化に際しては作業者のクレジットが明記される必要があり、その解釈の根拠も何かしらその電子テキスト内部に提示されていくべきだという議論にもつながっていく。そのような議論の足場たる、古典研究の意義が、下田教授の導入と、その後のロベール教授の『法寶義林』の編纂経緯の解説によって明確にされたと感じられた。
後半部ショートプレゼンテーションでは、特に SAT-TEI 研究会でそれぞれの作業者が実際に『大正蔵』を TEI 化していくときに生じた問題やそれへの対処法などが報告された。漢文文献、それも日本撰述の漢文文献を大規模に TEI 化していく試みはこの研究会においてのものが世界に先駆けているため、それぞれの発表報告が新規性の高いものであった。
作業者たちのショートプレゼンテーションでは例えば、作業対象のテキスト内部には表れていない何かしらの情報を、作業者が自身の判断で電子テキスト内に表現したい場合に、それらのマークを自らのクレジットと共に記しておく方法が提案、紹介された。通常、作業対象のテキスト内で段落分けがなされるときには、電子テキスト内に <p>~</p> のタグを付してそれを表現、処理するが、テキスト内部に段落分けがないものの、なんらかのテキスト外の根拠がその箇所での段落分けを示唆している場合に、<p resp="#作業者のid">~</p> の形式を用いて、作業者のクレジットで私的パラグラフを表現するという方法が報告された(井野雅文氏、朴賢珍氏の発表)。
また矢島礼迪氏の発表では、日本天台の文献を例にしながら、テキストの内部構造を解析している文献学的な先行研究を <teiHeader> 内に参照しながらマークアップを行うという、過去の研究成果を電子テキストの内部に組み込む手法が紹介された。このほか、禅籍を取り扱った佐久間祐惟、余新星の両氏の発表や、『大正蔵』日本撰述部の目録についての渡邉眞儀氏の発表、音義書に関する王一凡氏の発表があったが、それぞれ特殊な事情を抱えたテキストの構造をどのようにマークアップするのが効果的かを検討した結果が報告された。筆者もこの並びで、概念の整理を目的としたテキストから <standOff> エレメントを用いて知識グラフを出力するためのマークアップ方式について発表させていただいた。
いずれも、テキストの表面に現れるもの以上の情報を電子テキスト内で表現するための工夫であり、専門的素養を有する作業者であるからこその報告であったように思われた。
下田教授の示したような古典研究の文脈のまさに只中で、電子テキストの TEI 化という最新の取り組みが進められていることが、このシンポジウムを通して参加者に共有されたと思う。テキストをどう読むか、その根拠はなにか。そういった情報を電子テキストを通して他者と効率的に共有するための表現方法を整備する、その取り組みは人文学の営為そのものと言える。
電子テキストに含ませる情報があまりに専門的で狭いものになると、電子テキストをウェブ上で共有するという間口の広さをこそ目指す事業の方向性と矛盾があるのではないか、という批判はありえるにせよ、それは古典研究、人文学が一般に有してきた二面性でもあるのだから、「矛盾」というよりも、ただこれまでと同様に学知には二重の課題が課せられているのだと表現した方が正確であるようにも、筆者には思える。
このシンポジウムには、必ずしもデジタルに親しんでおられるわけではない、人文学研究者も多く参加なさっていたようだった。このような催しを通して、TEI などの取り組みが広く知れわたっていくとすれば、それはデジタル人文学にとってというよりも、人文学全体にとって非常に意義深いことであるように感じられた。
国立国会図書館の「次世代デジタルライブラリー」で、約10万点の書籍の本文全文検索ができるようになりました。といっても人が手で文字起こしをしたものではなく、OCR でコンピュータが読み取った文字です。しかしながら、この、OCR の精度がなかなか素晴らしいのです。こちら(https://lab.ndl.go.jp/dl/fulltext)で「本文のみを検索する」にチェックを入れて、何か検索してみると、結構な精度で、主に明治大正期の活版本の内容を検索できてしまいます。これまではよくて目次までの検索、だったものが、今回、10万点の資料の本文がある程度の精度で検索対象となったことで、一気に有用性が高まっています。すでにツィッタには活用報告たくさんあがってまして、その一部をリストしてみるとこういう感じです。
とにかく、タイトルから関係を想像できないような本や雑誌の中からも気になる単語やフレーズを見つけ出すことができるというのが非常に画期的で、当時の社会文化の全体像の把握の仕方が一気に変わることが想定されます。これについては、今後あちこちで色々な人が様々な角度から報告することになると思います。もちろん、OCR の精度による限界がなくなったわけではないのですが、この精度で、さらにおそらくは20万点以上の本文資料が追加されるであろうこともあり、とりあえず、Google Books や HathiTrust Digital Library のようなことが日本語資料でもできるようになってきた、ということと、その圧倒的な探索力を、皆で喜び、堪能しましょう。
(永崎研宣)