ISSN 2189-1621 / 2011年08月27日創刊
私の専門は日本近世(江戸時代)の文学である。そして情報学についての専門知識は、ほとんどもたない。そんな私にお鉢が回ってきたのは、個人的に昨今の人文情報学の威力を実感する機会が重なり、それについて何度か、感嘆とともに妄想めいたことを、SNS などで発信していたからだと思う。妄想めいたことはいくつかあるが、ここではそのひとつについて、具体的に記してみたい。
私は今年のはじめに、「洒落(しゃらく)・平淡・かるみ―蕉風俳論と宋代詩論」[1]という論文を執筆した。中国宋代の学芸で重視された「洒落(しゃらく)」という概念が、松尾芭蕉が晩年にたどり着いたとされる「かるみ」の概念と類似しているということを論じたものである。
「洒落」という言葉は、日本の17世紀の漢詩文を中心に散見されるのであったが、もともとは中国の言葉であるから、「本場」の漢籍における用例を調べてみる必要がある。そこで私は、京都大学人文科学研究所のウィッテルン・クリスティアン氏が開発した「漢籍リポジトリ」[2]を、おもに利用させていただいた。本データベースのトップページ、およびブログによれば、2015年時点で「9000種」のテキストが収録されており、その後も毎年100種前後のテキストが追加されているという。
使い方はとてもシンプルで、トップページ上欄に置かれた検索窓に「洒落」と入力するだけで、たちまち宋~明代を中心とした360種のテキストから、658例の用例を得ることができた。そのなかから、ある程度あたりをつけて用例を絞り込むのであるが、たとえば全140巻もある大部な『朱子語類』から、たった9つの「洒落」の用例を見つけ出すのは、紙の書冊でやるならば、気の遠くなるような作業になる。しかし本データベースを利用すれば、まさしく一瞬である。
これは、とくに中国哲学・文学を研究している人々は日常的に経験していることであろうが、もはやこうしたテキストデータベースなしには、研究は成り立たなくなっている。つまりここがスタート地点になっているわけで、ここで得られた膨大な(ときには稀少な)データから何を見出すのか、どう考えるかということが、研究の成否を分かつ。その意味ではこれまで以上に、研究者の「センス」が問われる。研究者は決して、楽になったわけではないのだ。
ひるがえって、日本古典のテキストデータベースの現状はどうか。
国文学研究資料館(以下、国文研)が2014年度から進めている「歴史的典籍 NW 事業」[3]は、2023年度までに、日本全国に散在する30万件の古典籍について、その画像を WEB 公開することを目標としている。現在公開されているのは15万件弱であるが、私の実感としては、7~8割の確率で、見たい本の画像が閲覧できるという状況である。たとえば前記『朱子語類』の和刻本(江戸時代に木版印刷されたもの)なども、140巻まるごと隅から隅まで閲覧できる。これはかなり有難いことだ。
しかし、では「洒落」という言葉の用例を、日本古典から検索しようということになると、Japan Knowledge に収録されている小学館の「新編日本古典文学全集」、国文研が岩波書店の協力を得て公開している「日本古典文学大系本文データベース」などを利用するのが基本であるが、これらのデータベースからは、有力な用例はひとつも探せなかった。
それもそのはず、前者は263タイトル、後者は556タイトルの作品しか収録しておらず、「9000種」以上の収録数をほこる「漢籍リポジトリ」とは比べものにならないのである。結局、私が論文中に取り上げることができた用例は、私が20代の後半から折に触れて、ボチボチと集めてきたものばかりであった。
そこで抱いた感慨が、日本古典についても「漢籍リポジトリ」並みのテキストデータベースがあれば、どれだけ研究が進展するだろうか、という思いである。画像の収集・公開に一定の成功を収めつつある国文研が次に取り組むべき喫緊の課題は、このテキストデータベースの収集・公開ではなかろうか。
もっとも、そのことは私のような者が指摘するまでもなく、国文研でももうとっくに気が付いているようだ。上述した「歴史的典籍 NW 事業」に続く事業として、「データ駆動による課題解決型人文学の創生プロジェクト」[4]の計画を進めており、そのなかには「AI 技術に基づく機械可読データの自動化」や「国際テキスト(TEI[5])に関するツール開発」といった、テキストデータベース化にかんする研究項目も予定されている。ぜひその方向でお願いしたいが、ここではそれに付け加えて、ひとつの提案をしたい。
つい最近、スマホ版アプリの、AI くずし字認識アプリ「みを(miwo)」[6]がリリースされ、大きな話題になったように、AI による自動テキスト化の技術は大きな進化を遂げている。まことに慶賀すべきことであるが、しかし開発者のカラーヌワット・タリン氏が再三、注意深く述べているように、精度の高いテキストを大量に生産していくには、まだまだ程遠いレベルである。
また、複数のテキストを横断的に検索するためには、それらのテキストが共通の書式(基準)で記述されていることが望ましく、そのために、すでに欧米などで普及している TEI に準拠した、新しいテキストを作成していこうというのは、正攻法である。しかしこれには、当然ながら、大きな労力と資金、そして相当の時間が必要になってくるだろう。
そんなことをしていては、大規模データベースはなかなか実現できそうもない。
そこで提案なのだが、上記二つの方法と並行して、研究者がこれまでに作成した既存のデジタルテキストを寄せ集め、それに最低限の手を加えて、公開するという方法はどうであろうか。むろん、それぞれのテキストは、TEI のような入力規則に則っているわけではないので、全体としては「粗雑」なデータベースであろう。しかし、粗雑ではあっても、言葉は悪いが、「ないよりはマシ」である。中世には、「塵袋」「塵芥」「塵滴問答」など、「塵(ちり)」の文字を冠した辞書・雑書がいくつも作られた。塵のように無価値なものでも、数量が集まれば何かの意味が出てくる、という発想である。こうした、既存のテキストを放り込んだ、いわば「塵袋(ちりぶくろ)」のような場は構築できないのだろうか。
そのためには、まず、全国に少なくとも3000人以上はいると思われる古典文学研究者の方々に、このデータベースの趣旨を丁寧に説明して、協力を仰がなければならない。資料の翻刻を、雑誌や紀要類に載せた経験がある人は少なくないだろう。パソコンのハードディスクの片隅に保存されている、それらのデジタルテキストを提供していただくのである。むろん、雑誌などには未公表のものでもよい。
ただし、とくに未公表のものなどは、翻刻の正確さに不安があるなどという理由で、提供を躊躇する人もいるだろう。しかしこのデータベースは、もともと高い精度のテキストを集めることを意図していない。読めない字が〓マークになっていてもよい。なんなら、全6巻のうちの前半しかデータがないものでも構わない。
上述した私の例でいえば、「洒落」という文字さえ検索できれば、あとは自分の責任において、その作品の原本を確認したり、それを利用できるかどうかを判断したりする。つまり、粗雑でも不完全でもいいから、検索できるデータベースがそこに「ある」ことが大事なのである。なければ何も始まらないし、何も生まれない。
オープンサイエンスとも言えないようなレベルの話であるが、正規のテキストデータベースが整備されるまでの過渡期的な措置として、かかる「塵袋」のようなデータベースの構築も有用ではないか。
2021年8月26日、デューク大学図書館のブログに、同貴重書図書館(David M. Rubenstein Rare Book & Manuscript Library)で技術部門の学生バイトを勤めたという Miriam Shams-Rainey 氏(以下 S-R 氏)の記事が掲載された[1][2]。これは、同図書館の記録史料記述、すなわち歴史史料などの目録上などでの説明において、人種などに対する差別の文言を担当者が整理するためのツールを S-R 氏が開発したというものである。
このプログラムじたいは単純なもので、ユーザが任意で設定するカテゴリ別に指定したキーワードを検索し、出現位置や文脈などを示すのみである。GitHub でソースコードが公開されている[3]。このプログラムが必要とされたのは、直接には、デューク大学図書館の反差別プログラムにおいて、「デューク大学図書館の所蔵品における白人優越主義を武装解除(dismantle)し、より包摂的なメタデータ生成を実践する」[4]こととされるのに基づく。史料そのものの改変を行うわけではないが、そこに近づくための道筋をどうするかは自身の責任であるということであろう。そのためにアーキビストたちが記録史料記述のデータを精査することになるが、その効率化にあたって求められたのがこのツールということになる。
技術的に興味深いのは、じゃっかんのオーバーさを S-R 氏自身認めないではないが、自然言語処理ライブラリである spaCy を用いて、文脈の取り出しや変化形への対処を容易にしたことである。S-R 氏によれば、これまでよく用いられてきた正規表現による指定よりも、ユーザフレンドリーであるという。GitHub 上の語彙の CSV では、複数形が別に指定されているなど[5]、どのように spaCy の価値を発揮させているのか分らなかったが、たしかに、やりかたしだいで、たんなる文字列一致よりは見えてくるものもあるのであろう。この語彙は Hatebase というヘイト・スピーチ検出サービス[6]の提供する語彙も使うことができるという。
S-R 氏の考察も興味深い。S-R 氏は、問題化された語彙の出現する文脈を次のように評価する。ひとつにはその発言が自身を表現するものなのか、他者を表現するものなのか、そして第三者であるアーキビストの表現するものなのか区別する。そして、それは固有名詞なのか、引用なのか、言い換えなのか、それとも、アーキビストによる語りなのか。その語彙はどのような問題を引き起こすのか(あきらかに無害な場面なのか、問題の存在への言及なのか、それとも差別語を差別のために使ったものなのか)。これらの検討は、メタデータをアーキビストが精査する出発点である。これは S-R 氏の創見でない部分もあると思うが、それをツールとしてどう設計してゆくかという視点から興味深く感じる。現状のツールにはここまで評価する機能はないと思うので、これをすこしでも容易にするにはどうするか—それは、現実の問題に立ち向かううえで、ツールをどう作るかという問いだからである。
これが日本において、もちろん異なった文脈において、無縁でないことはすでに古地図に触れて幾度か論じたことがある[7]。古地図のウェブ公開については、奥野吉宏氏が詳細な検討をしているのに接した[8]ほか、この論考の公開と前後して全国部落史研究会からあらためて提言がなされている[9]。ここでは、不用意に過去の偏見が広められていくことへの懸念が表明されていると受け止めてよいだろう。
このような不幸を避けるためには、やはり、機械に助けを求めたうえで、判断能力のある—地位によってではなく理知によって—者が対応を定める、デューク大貴重書図書館のようなありかたが望ましいのだろうと思える。そのためには、日本のそのような史料の翻刻が遅れていることは対応を遅らせることであるのではある。そこで「みんなで翻刻」[10]のような万民の協力を仰ぐ体制を布くことが倫理的なこととは思えない。やはり、自動認識器の活用が求められるのであろう。この点において、問題となるものの量が多い写本の文字データセットの整備が未着手であることが課題にはなってくるのであろうが[11]、人手支援だと思えば現状でもやってやれないことはないのだろうと思う[12]。S-R 氏をはじめとするデューク大貴重書図書館の問題意識とその解決から教えられることは多い。
今回は、筆者が2021年9月からその編集者の一人として加入した、デジタル東洋学関連の英字マガジンである The Digital Orientalist[1]についてその発展の歴史と現在の動向について紹介する。この記事を書くにあたって、The Digital Orientalist の古参の編集者で、前編集長でもある James Morris 氏(筑波大学助教)から、非常に懇切丁寧な情報提供をいただいた。この記事の大部分は Morris 氏からの情報をもとにしたものである。
The Digital Orientalist(以下、DO)は2013年に L. W. Cornelis van Lit 氏の個人ブログとして始まった。van Lit 氏は、現在はユトレヒト大学に所属するオランダのイスラーム学者である。DO は初めは、van Lit 氏個人による、コンピュータを活用したイスラーム研究に関する記事をメインに掲載していたとのことである[3]。van Lit 氏は、イスラーム学を中心としながら、人文学の様々な分野で日常的に応用できるようなデジタル技術の使用法をこのブログで多数紹介していた[4]。それゆえ、Morris 氏によれば、2018年初頭頃には、DO はかなりの人気を博していたとのことである。この人気を受け、van Lit 氏は DO の拡大を計画し、東洋学におけるイスラーム学以外の諸分野での編集者を募り始めた。この結果、DO のチームに、イスラーム学担当の Maksim Abdul Latif 氏、古代オリエント学担当の Megan Lewis 氏、アフリカ学担当の Charles Riley 氏、そして、日本学担当の James Morris 氏という4名の編集者、及び、SNS 広報担当の Deniz Çevik 氏が加わった。各編集者は、毎年9月に始まる年度内に10回(毎月1回)のブログ記事の投稿の責任を負った。投稿は、編集者自身が執筆することもあれば、編集者の依頼を受けた寄稿者によって執筆されることもあった。このチームによる定期的で高頻度の投稿スケジュールにより、DO の読者は大幅に増えた。
2019年に、DO はツイッター上でツイッターカンファレンス(DOsTC)を開催し、7名の発表者がツイッター上で研究発表した[5]。van Lit 氏は交渉によって、DO をアメリカ東洋協会に加入させることに成功した。この年の9月から DO の編集長は Morris 氏になり、編集チームが再編・拡大された。この再編で、Latif と Lewis の両氏が抜けたものの、新たに Giulia Buriola 氏(インド学担当編集者)、Alex Mallett 氏(イスラーム学担当編集者)、Ephrem Ishac 氏(シリア学担当編集者[6])が加わった。ゲスト寄稿者の寄稿した記事を含めて投稿は週1回のペースを守り、幅広い領域と頻繁な投稿ペースで新たな読者も増えていった。van Lit 氏は同年、DO の記事をベースとして書籍 Among Digitized Manuscripts をオランダの Brill 社から出版した[7]。
2020年、van Lit、Morris、Çevik の3名は、DO の範囲と歴史を探る論文を出版した[8]。2020年にも ツイッターカンファレンス(DOsTC2020)が開催され、11名の発表があった[9]。
その年の夏、DO は新たな局面を迎えた。編集者の募集に多数の応募があったのである。そのため、DO は編集チームの更なる組織化を進めた。9月に発足した編集チームは、オスマン学担当の Fatma Aladağ 氏、モンゴル学研究の Daigengna Duoer 氏、インド学担当の Julie A. Hanlon 氏、仏教学担当の Matthew Hayes 氏、DH 実践学担当の Sarah Ketchley 氏、韓国学担当の Elizabeth Lee 氏、聖書学担当の Jonathan Robker 氏 、中国学担当の Mariana Zorkina 氏が加わった。さらに寄稿者という制度も公式で設け、イラン学の寄稿者 Shiva Mihan 氏、インド学の Adrian Plau 氏、中国学の Maddalena Poli 氏と Lu Wang 氏、シリア学の Claudia Simonelli 氏、オスマン学の Ahmet Yusuf Yuksek 氏が寄稿者として加わった。これにより、チームは女性11名、男性9名、北米在住者10名、北米外在住者10名と、ジェンダーバランスもとれ、居住地域も多様になった。チームが拡大したことで、投稿は週2回となり、更なる読者を獲得した。
2021年6月には、Poli と Zorkina 両氏が主体となって Zoom によるカンファレンスとワークショップが開催され、20名の研究発表者と252名のその他参加者が参加した[10]。
Morris 氏によれば、この大きな転換期となった2020年度の創設者 van Lit および編集長 Morris 両氏の目標は DO の「プロ化」であったという。この目標の下、DO は2021年に ISSN:2772-8374を契約し、経営体制を整えることになった。この経営体制では、長期的な展開のための理事会を設置し、van Lit、Morris、Robker の3氏が理事に就任した。そして、編集体制を分野・地域別に再編した。再編された編集チームは、北東アジア学チーム(日本学・朝鮮学・モンゴル学など)、仏教・インド学チーム、中国学チーム、中東・北アフリカ学チームである。
2021年9月に Morris 氏は編集長を退任し、Daigengna Duoer 氏が新しい編集長に就任した。彼女のもとには4名の監督編集者がいて、それぞれのチームを管轄する。Hanlon 氏、Simonelli 氏、Yuksek 氏、Ketchley 氏、Mallett 氏、Riley 氏、Çevik 氏が退任したと同時に、寄稿者だった Mihan 氏、Plau 氏、Poli 氏、Wang 氏が編集者になり、寄稿者のポジションは廃止された。Poli 氏が Çevik 氏に代わり新たな SNS 広報担当者となった。新しい編集者として、Elizabeth Bishop 氏(北アフリカ学担当)、Udita Das 氏(インド仏教学担当)、Bryce Heatherly 氏(中国物質文化学担当)、Thomas Newhall 氏(仏教学担当)、Michele Eduarda Brasil de Sá 氏(日本学担当)、Theodora Zampaki 氏(ギリシア-アラブ学担当)、そして筆者(宮川)がエジプト学を中心とする北東アフリカ学の担当編集者として加わった[11]。
現在、DO の読者は国別にするとアメリカ合衆国、日本、ドイツ、イギリスの順で多いが、インド、トルコ、モンゴルなどでも読者が増えているという。現在、DO の理事会では、より多様な分野での専門性の高い投稿を目指している。特にアフリカ学チームの拡充と、新たな太平洋地域学のチームの結成を企画している。さらには、DO に掲載された記事をアーカイブ化して、それぞれに DOI を付与し、さらに世界中の様々な機関との協同も計画している。
以上が、DO のこれまでの沿革と新チームが発足して、より多様になった DO の編集体制の動向である。現在の大勢では、各編集者が年3–5回の投稿に責任をもち、その投稿は編集者自身か、編集者が直接依頼したゲスト寄稿者によって執筆されることになっている。本誌『人文情報学月報』など英語以外の言語で書かれた優れた記事の英訳も掲載可にすることが協議されており、本誌との提携も前向きであるとのことである。DO はゲスト寄稿者や新しい編集者も随時募集中であり、日本発の研究を英語で世界に発信したい方は、ぜひ DO の編集チームまでご連絡いただきたい[12]。