ISSN2189-1621 / 2011年8月27日創刊
2020年11月20日、JADH2020に先立って開催されたワークショップ「人文系大学院における情報リテラシーの在り方」における議論を受けて、「人文学のための情報リテラシー」研究会(SIG:Digital Literacy for the Humanities)が JADH内に設立され、筆者が主査として会の活動を始めることとなった。同会では、人文学の教育研究に必要な情報リテラシーのあり方を調査・議論・検討し、シンポジウムの開催や教材開発をはじめとする情報発信を中心に活動を展開したい[1]。その調査の対象として、同会では国内外におけるデジタル・ヒューマニティーズ(以下、DH)教育の諸相を射程に収めたいと考えている。そこで本稿では、筆者が2018–2019年度に留学していたキングス・カレッジ・ロンドン(以下、KCL)のDH 修士課程での経験を基に、DH を通して培われる素養について考察したい。
KCL の DH 部門(Department of Digital Humanities.以下、DDH)は、1991年設立の「人文学におけるコンピューティングのためのセンター(Centre for Computing in theHumanities)」が2011年に改組された後継組織で、KCL の文学部(Faculty of Arts and Humanities)の一部を構成している。
DDH では学士課程・修士課程[2]・博士課程を設置しており、とくに学士課程の名称が Digital Cultureとあることからも示唆されるように、デジタル技術の革新が社会にもたらす可能性と課題を文化的・社会的な側面から考察することに重きを置いている。DDH の名誉教授 WillardMcCarty が述べるように、DDH では、DHの学際的な性質から、入学を希望する学生の専門性がまちまちであるため、人文学的・技術的な理解についての最低要件を設定することをせずに、自らに足りない部分を教育プログラムの中で補完的に習得させることを企図している。とくに技術的な素養がない場合には、既製のツールを批判的に使用したり、コンピューティングがもたらす成果物に対して知的に洗練された考察を行ったりすることが重視されるという[3]。実際、筆者の留学経験の中でも、技術に習熟することよりもその技術がもたらす社会的諸影響について批判的に考察することを、折に触れて求められた。
DDH での教育のキーワードは、Epistemology であった。『オクスフォード英語辞典』によれば、Epistemologyは哲学用語で、「知識および理解についての理論、特に、その方法、妥当性および範囲、ならびに正当化された信念と意見との区別に関する理論」とある[4]。ただ、実際の講義の中では、哲学の専門用語としてよりも、「物事をメタに理解する力」といった含意を持つ語として、頻繁に用いられていたことを覚えている。たとえば、筆者が受講した選択科目のひとつ、Crowdsand Clouds: Digital Ecosystems は、ソーシャルメディアや IoEを支えるクラウドコンピューティングやオープンデータについての技術的なトピックを扱いつつも、その焦点は「技術ではなく、オープンなデジタル情報のエコシステムを開発してさまざまな新興プラットフォームでデジタルコンテンツを公開するプロセスを理解すること」に置かれ、そのようなエコシステムを支えるデジタル資産がどのように重要で、どのような社会的課題を含むものなのかを批判的に評価することを主眼に置くものであった[5]。ほかにも、筆者の学位論文執筆指導の過程では、主眼に置いていたテキスト構造化について、DDHの Paul Spence 上級講師から次のような趣旨の助言を受けた。「君は、デジタル技術を活用するスキルに関しての習熟度は充分だから、テキスト構造化が人文学の営みにもたらすEpistemological な課題についての考察により多くの時間を割いた方が良い。たとえば、Peter Shillingsburg や Joris van Zundertを読んで、テキストを読み理解するという行為が電子媒体上で行われるようになったことが人文学そのものに何をもたらすかについてなど、文献学的な知のあり方に踏み込んだ議論に触れると良い」といった内容だったように記憶している。このような教育方針の下で留学期間を過ごしたことは、必然的に筆者自身のDHに対する関心を、技術やツールそのものを対象としたものよりも広いものにし、結果として自身の人文学の専門である歴史学の営みへの関心を回帰的に強くさせ、史料批判や歴史理論、言語論的転回や史学史的な潮流といった、これまでさほど深くは関心を持たなかった論点に自然と目を向けるようになったように思う。
しかしながら、このような KCL の DDH における教育方針は、手放しで賞賛されているわけでもないようだ。2015年まで KCL の DDH に所属していた JohnBradley は、自身の開発経験から、DH におけるツール開発に関する評価のあり方に不満を抱き、2019年の論文で次のような問題提起をしている。
ここでは Bradleyが、イギリスにおける研究助成金の獲得において、人文学研究の問いを解決するためのデジタル技術の利用の方が、デジタル技術の開発よりも優遇されていること、そしてその風潮が KCLの教育・研究実践にも変化をもたらしたことを残念に思っていることが窺える。ただし Bradley は、同論文の結論部にて、KCL の DDH の制度設計を評価してもいる。
ここでは、ツール開発者の功績がアカデミア内で軽視される風潮に対して、King’s DigitalLab(KDL)というセミアカデミックな組織が設立されたことがひとつの方策を提示していると評価している。KDL は、DDHにおけるプログラミング演習の授業を担当する講師を派遣したり、ソフトウェアやツール開発を受注したりするなど、DHにおける技術開発に特化した組織として成果を発信しており[8]、このような組織のあり方自体が、技術開発をアカデミアが軽視する風潮への対抗策であると Bradleyは考えているのであろう。
これまで述べてきたように、KCL の DDHにおける留学中に触れた学び、とくに技術開発よりも技術に対するメタ批判を重視する教育方針は、イギリスの人文学研究における助成金配分の志向の変化に少なからず影響を受けたものであったかもしれない。DH分野における筆者の専門は、テキストの構造化であり、留学前は KCLにはテキストの構造化に強い研究者が多く在籍しているという印象を抱いていた。蓋をあけてみると、2018/19年度の KCL DDH の修士課程の在籍学生数は、1位がDigital Asset & Media Management MA で200人強、2位が Digital Culture & Society MAで100人強、3位が Big Data Culture & Society MA で30名強、4位が筆者の在籍した Digital Humanities MAで20名弱、5位が Digital Curation MA で5名弱と、いわゆる人文学研究を前面に出した DHのコースはそこまで学生に人気があったわけではないようだ。ただし、修士課程の同級生の多くがマーケティングやゲーム会社、システム会社に就職していったことを見ると、オープンデータやクラウドコンピューティングに対する基礎知識、データ・ビジュアライゼーションやプログラミングの演習、技術レベルの違う学生同士でのチーム作りと役割分担の設計スキルなどを実践的に学ぶことができる教育プログラムは、さまざまな進路に応用できる基礎リテラシー・スキルが涵養される機会であったように思われる。
翻って日本における DH 教育・研究の状況を見てみると、よく指摘されるように人文科学とコンピュータ研究会が情報処理学会の分科会であることから、情報工学系の研究者が多い。そのため、本稿で紹介したBradleyの不満、すなわち技術開発への軽視はそこまで見られないのではなかろうか(そう願いたい)。もちろん、人文学研究者がデジタル技術を批判的・建設的に評価するための素地が充分に整っているかと言えば、それは今後の課題であろうし、表題のJADH 新 SIG が取り組むべきものであると考える。
Hugh Cayless(Duke University, Senior DH Developer)は、TEI によって構造化されたテクストデータは、同等の重要性を持つ3つの層によって構成されると述べている[1]。すなわち、1)文字の連なりとしてのテクストそのもの、2)文構造の入れ子状の階層化、3)グラフ構造で表現されうるメタ構造である。3つ目に言及される「メタ構造metastructure」はやや難解な表現だが、Cayless 自身の説明によれば、TEI が提供する何らかの linking mechanismを用いて構造化されたテクストデータを意味するという。以上の3つの層のうち、1)2)については、階層的な XML のタグ構造を用いて記述することに大きな問題はない。しかし3)に示されるようなセマンティック記述を実現するためのマークアップ手法をめぐっては、なお活発な議論が行われている。ここでいう「セマンティックな記述」とは、Caylessのいう「メタ構造」とほぼ同義であり、TEIで構造化される個々のエンティティが含有する意味や他の要素との意味連関を機械可読な形で記述するということである。だが、そうした意味情報は往々にしてテクスト外在的なものであり、注釈(アノテーション)としての性質を持たざるをえない。それゆえに、マークアップの手法が問題になるのである。
TEI を用いたセマンティック記述の手法は大別して2つ存在する[2]。一つは本文 <text>中に直接タグを挿入し、注釈情報を付与する、インライン・マークアップといわれる方法である。この方法でマークアップされたテクストデータは、注釈対象となる箇所と注釈情報が一体となって記述されるがゆえに、個々の記述に対して注釈を施すという人文学的作業との親和性も高く、データの可視性という面でも優れている。もう一つの方法は、テクスト中の記述とその注釈を分離するスタンドオフ・マークアップである。分離といった場合には、同一ファイル内において別の場所に記述することもあれば、ファイル自体を分離して記述することもある。近年のTEI における議論の動向を見るに、2つ目の手法、すなわちスタンドオフ・マークアップを用いた構造化手法の標準化を進める方向性が強く見出される。TEI ガイドラインに新たに<standOff> なるタグが導入されたことも、その一環と捉えることができよう[3]。こうした方向性の存在は、第一に OHCOモデルに基づくテクスト構造理解の見直しが進んでいる点[4]、第二に、人文学資料のデータ構造化という大きな文脈において、セマンティック記述や Linked OpenData(LOD)活用の重要性が増している点に帰することができよう。
そもそもスタンドオフ・マークアップという手法は、入れ子状の階層記述に基づく XML マークアップの制約を克服するための手法として提案された。すなわち、XML では入れ子状の階層構造には収まらない重複要素や複合的な階層関係を十分に表現することができない。このような問題は、単一の語について複数の POS注釈の可能性や形態・統語といった異なる観点からの注釈を要する言語学的注釈においてとくに顕著であったがゆえに、スタンドオフ・マークアップ手法は言語コーパス構築のためのデータ構造化において広く採用されてきた[5]。だが、当然ながらこのような問題は言語学的注釈に限られるものではなく、あらゆる史資料の構造化に当てはまる。これは、先にあげたテクスト構造理解の変化とも関わるが、テクストは段落や文といった構造的観点、校訂情報や他文献との関連といった文献学的観点、人物や場所に関する歴史学的観点など重層的な観点から理解される可能性がある。このような重層的で重複もありうるような注釈情報を記述するにあたって、スタンドオフ・マークアップが適していることは間違いない。それゆえ、TEIにおいてもスタンドオフ・マークアップを可能にする様々なタグは従来から存在し、<teiHeader> 内に記述された <listPerson>などはその一例である。
以上のような、テクスト理解の重層性を構造化するという問題に加えて、LODの活用を推進する動きが人文情報学分野において進んでいることも重要であろう。このことは、テクスト内の記述を外部 LOD に繋げる形で注釈を施す「利用」の側面と、テクスト内の情報をLinked Data として記述し、それを公開することで LOD を「構築」する側面の両面を含んでいる。前者については、従来から @ref や @corresp を用いて URIを指定する外部参照の手段が用意されており、これが注釈情報をテクスト本文の記述から分離するスタンドオフ・マークアップとしての性格を有していることは言うまでもない[6]。一方で後者についても以前からいくつかの試みがなされているが[7]、近年では、RDFaを表現可能な形で TEI スキーマを拡張し中世フランス語で書かれた医学関連文献を辞書データに紐づける試みや[8]、財務記録史料の内容を RDF 準拠の Linked Dataとして、TEI でマークアップする手法を提案する DEPCHA などが存在する[9]。こちらについては、一概にスタンドオフ・マークアップが必須とは言えないが、RDFによる構造化の特徴であるグラフ構造、それも複雑で重層的な意味連関を表現するトリプル群を記述しようとすれば、やはりインライン・マークアップでは難しく、スタンドオフ・マークアップが適していると言えよう。
このように、様々な局面においてスタンドオフ・マークアップに対する需要が高まる中で、<standOff> が導入された。<standOff>は、スタンドオフに記述されたあらゆる注釈情報を含みうるエレメントであり、従来は <teiHeader> 内で記述された <listPerson> なども<standOff> 内に含まれることになる。このエレメントの導入により、テクスト本文と分離されたスタンドオフな注釈情報を、<teiHeader>に記述されるメタデータでも、<text> に記述されるテクストそのものでもない要素として一括に記述することが可能になる[10]。TEIにおいて従来からスタンドオフ・マークアップ自体は可能であったことを考えれば、<standOff>の導入によって新たな構造化手法が提案されたわけではない。それよりはむしろ、スタンドオフ・マークアップの標準化を進める試みの一環とみなすべきであろう。というのも従来は、注釈内容や本文とのリンク情報についての具体的な記述法はもちろん、注釈がTEI ファイル内のどこに記述されるべきかについてさえ明確には定まっていなかったのである[11]。<standOff>の導入は、これらの標準化という面で大きな意義がある。しかしそれでも、スタンドオフ・マークアップの手法はいまだ限られた範囲でしか採用されていない。これについてはやはり、テクストの記述と注釈を別個にマークアップすることによるコストが大きく影響しているだろうが[12]、それに加えて、個々の史資料やプロジェクトごとに注釈の対象や観点が異なる以上、分野横断的な共通基準を確立することが難しい点も問題であろう。
今後、スタンドオフ・マークアップに基づくセマンティック記述の手法が TEIにおいてますます議論されるようになるだろうが、その議論は、個々の分野における実践例を蓄積し、そこから方法論的共通項を見出していくという仕方で進むのではないだろうか。そのような見通しの下、筆者が進める時間的文脈情報を含む社会ネットワークデータ記述モデルを事例に、TEIにおけるスタンドオフ・マークアップを用いたセマンティック構造化および LOD 構築の手法を改めて検討したい。
https://ancientindia-datascience.hakubi.kyoto-u.ac.jp/events-ja/
https://blog.goo.ne.jp/engi-kanto/e/e06cdab9af4eab4f10e232b1efaf36d9
おかげさまで、2020年も毎月メルマガを刊行することができました。本年は、コロナ禍のために、予定していた研究や活動ができなくなってしまうばかりか、生活・精神面でも困難な状況に直面しておられる方も少なくないと思います。本当に大変な一年でした。未だに先が見えないなかではありますが、それでもできることを探して、皆で手を取り合って、これからも新たな可能性を追求していければと思っております。2021年も、よろしくお願いいたします。
(永崎研宣)