研究活動/ 人文情報学研究部門/ DH2010の紹介/

DH2010参加報告

はじめに

2010年7月7日から10日にかけて、ロンドンのKing's CollegeでDH2010が開催された。 DH会議は、既に紹介されているように、Digital Humanities(人文情報学)関連で最大規模の年次国際学会であり、この名を冠しては五回目の開催であるという。 今回はじめてこのDH2010に参加し、またその内容を報告する機会を与えられたので、管見の限りではあるが、その一端を紹介したい。

4日間にわたるDH2010の詳細に関しては、プログラム、発表要旨等が2010年8月31日現在http://dh2010.cch.kcl.ac.uk/から参照可能である。 発表要旨自体は、当日配布されたA4版の冊子でxxvi+396pp.に及ぶほどの大部となっており、若干の分量の差はあれ、非常に簡潔かつ充分に論じられている稿が多数あるので、是非参照されたい。

日程的には9:00-10:30, 11:00-12:30, 14:00-15:30の三つの時間帯で四部屋に分かれて行われた個別発表とパネル、そしてその後の時間に設定されたポスターセッション(初日・最終日はplenary講演)となっていた。 個別発表には各時間各部屋ごとにテーマが設定されていたが、そのテーマを見ると、

といったところが比較的大きな枠を占めている。

以下では自身で聞くことのできた発表の中からいくつかのテーマを取り上げて、若干詳しく紹介していきたい。 なお、筆者は文献学的手法におけるTEI等のマークアップ利用を主たる関心事としているため、多様な人文学のデジタル化全般を対象とするDH会議の部分的な、しかし主要な、側面が中心となっていることはご留意いただきたい。

TEI

TEIというテーマには7月8日午前の二枠があてられ、以下の六件の発表が行われた。

まずTEI(Text Encoding Initiative)について改めて簡潔に紹介しておくと、人文学・社会科学系のデータを対象とするXMLマークアップのための汎用的なガイドラインを提供している団体あるいはその規格であるが、この枠以外の発表においても、デジタル資料の共有に関わる多くの発表でこのTEIが利用されており、欧米の人文学ではTEIをひとつのスタンダードとして、着々とその成果が蓄積されているということが実感できた。

さてそれでは先に列挙した六件の中からいくつか若干コメントを加えつつ紹介しよう。

Using ODD for Multi-purpose TEI Documentation. Julia Flanders, Syd Bauman

TEIによるODDプロジェクトの今後の展開、およびその試行プロジェクトについての報告であった。 ODDプロジェクトとは、ごく簡単にいえば“one document does-it-all”という名が示す通り、一つのドキュメントに複数用途(リファレンス、チュートリアル等)のドキュメントを含めておき、適宜用途に応じた文章を生成することを可能とするものである。

TEIのスキーマ自体はプロジェクトごとに比較的高い自由度をもってスキーマをカスタマイズすることができるが、そのカスタマイズ性の高さにも関わるドキュメンテーションの必要性とそのような状況の下でのODD利用の解説が行われた。

Two representations of the semantics of TEI Lite. C. M. Sperberg-McQueen, Yves Marcoux, Claus Huitfeldt

TEI Liteは、簡潔に言えば、比較的一般的な用途をおおよそカバーできるだけの簡略版TEIタグセットである。 ここでいう二つのrepresentationとはIntertextual semantic specificationsとFormal tag-set descriptionsで、前者は文章の中での意味関係を表示するもの、後者は“skelton sentences”と呼ばれるようなある種の文構造を表示するものである。 ここで取り上げられた問題のひとつは、一見すると同じようなマークアップに見えてしまうものが、内容的にまったく異なる内容をもつということが起こりうる、ということであり、それをどう解決していくか、というようなことであった。質疑応答の際にも言及されたが、ある意味でテキストとは何かというような本質的な問題を考えさせるものとして非常に興味深いものに思われた。

TEI P5 as a Text Encoding Standard for Multilevel Corpus Annotation. Piotr Bański, Adam Przepiórkowski

この発表が、TEIのスタンダードとしての有効性を述べるという点で、TEIの現行バージョンであるP5に関してある意味最も基本的な発表ともいえる内容であった。 分野的には、言語学的観点からのコーパスエンコーディングに関するものであったが、基本的な枠組みとしては他分野にも通じるものであろう。

内容的には、言語資料を扱う際のエンコーディングスタンダードとしての要件として、異なるプロジェクト間のデータ・ツールの相互運用性に加えて、特 に多様な協力者がいたり、多様なレベルでの言語的データを含みうるプロジェクト内部でのそれにも重点を置きつつ、ヨーロッパで利用されているという他の三つのコーパスエンコーディングスタンダードを比較対象としながら、TEIの有効性を論じていた。

“It’s Volatile”: Standards-Based Research & Research-Based Standards Development. John A. Walsh, Wally Hooper

Character Encoding and Digital Humanities in 2010 - An Insider's View. Deborah Anderson

いずれもUnicodeに関する話題であったが、前者はUnicodeに登録された錬金術記号を例に標準化サイドと研究者サイドの相互関係を紹介し たものであった。錬金術記号自体の必要性は正直なところ実感はもてなかったが、Unicode認定の一ケースとして興味を引かれた。 他方、後者はUnicode全盛でありながら、一方でUnicode自体が抱えるいくつかの問題を挙げ、またUnicode Technical CommitteeとISO/IEC JTC1/SC2 Working Group 2という二つの標準化グループがその態度を異にしていることも紹介していた。さらに文字エンコーディングの成立の過程には地域的、歴史的な経緯が含まれていること、またその過程における人文情報学の領域の役割が示されていたように思われる。

Annotation/Markup

次にAnnotation/Markupというテーマのもと行われた7月9日午前二つ目の枠の発表を取り上げよう。

この枠では以上の三つの発表が行われたが中でも一つ目のものを紹介しよう。



Towards Hermeneutic Markup: An architectural outline. Wendell Piez

ここでいう“解釈学的マークアップ”とは客観的に定められうるようなテキストの意味づけに限らず、研究者等の観察や推測をも自由な形で記述しようとするものである。

本発表では、TEIをベースとしつつ、それ、特に現行のXMLに見られる問題点を整理し、さらにそれを解決するための枠組みを提示していた。その上で、その第一歩としてtaggingを使ったいくつかのデモを多様なアウトプットを介して紹介していた。残念ながら具体的にどうなのかということまでは十分把握できなかったが、個人的には非常に興味深い手法であると感じた。

ここでXMLに見られる問題点として挙げられていた二点について簡単に紹介しておこう。ひとつは自由な“解釈学的マークアップ”をしようとするといわゆる樹構造から逸脱してしまうことが間々あることであり、これに関しては既に周知のことといえる。第二点はマークアップを続けていく作業によって特定のスキーマを措置してしまうことであるという。そしてこの第二点はXML developerたちがそれ自体問題のあることとして見なしていない。が、実際には終わりなき作業の末、限界にいたる、と述べていた。これはある面では まさにその通りであると感じたが、多様な解決方法の模索が期待される。

日本の人文情報学への取り組み

最後に7月10日午後に行われたパネルについて報告しよう。

The Origins and Current State of Digitization of Humanities in Japan

これはタイトルからしてわかる通り、日本における人文情報関連のこれまでの取り組みと現況を国際的な場で紹介したものであり、初めての試みであるという。 各機関の具体的な活動の内容についてはウェブサイト等を参照していただくことにして、ここでも大まかな様子のみ報告しよう。

まず最初に司会のCharles Muller先生(東京大学)による本パネルの趣旨説明ののち、 原正一郎先生(京都大学)によって20年以上に及ぶSIG-CH(情報処理学会人文科学とコンピュータ研究会)の取り組みの紹介があった。情報処理上の問題のみならず、人的資源の確保等の問題等も簡単に言及されていた。

次に小木曽智信先生(国立国語研究所)によって、同研究所の太陽コーパス、UniDic、KOTONOHA等について、実例も交えた紹介が行われた。 同じく、相田満先生(国文学研究資料館)によっては同資料館で作成された古事類苑データベース等の紹介が行われた。 また続く安岡孝一先生(京都大学)によっては東洋学文献類目、ORICOMの活動等の紹介が行われ、Unicode利用に転換しても解決できない字形の問題への言及も行われた。

次の赤間亮先生(立命館大学)によっては、原則文字・文献情報を扱う他の発表とはやや趣を異にして、同研究所の活動として能や浮世絵等に関するデジタル・アーカイヴが紹介されていた。

そして、下田正弘先生(東京大学)により、大正新修大蔵経データベースを例に、大規模データベースの構築に関わる財政・評価・技術の問題が論じられ、その関連データベースとのコラボレーションの紹介が行われ、最後にMuller先生による総評と質疑応答で閉じられた。

全体的には、各機関の組織やデータベース構築の経緯等の包括的かつ具体的な紹介と問題意識の提示が主となっていた。 このような内容を世界中の研究者が一堂に会する人文情報学研究の最先端の場で発表し、さらに、日本の研究者達が問題意識を堅実に共有化しておくことは、今後の日本の人文情報学研究の展開にとって非常に重要な意味をもつものと思われる。

最後に

DH会議の報告として取り上げるのはここまでとしておくが、他にもポスター発表を含め数々の非常に興味深い発表があった。 さらに、全体的な印象として、いずれの会場においても非常に活発な質疑応答や議論が行われており、この分野が非常に意気盛んであることが伺われたことを付言しておきたい。

(東京大学東洋文化研究所 松田訓典)