ISSN 2189-1621 / 2011年8月27日創刊
「人文学にデジタル技術を適用するに際して、面白いと思っていること」というお題を頂戴し、僭越ながら、本号の巻頭言を執筆します。まず、簡単に私の専門分野の紹介をさせていただきます。日本語を言語学的分析の対象とする日本語学(国語学)を専門としており、情報学との絡みで言うならば、コーパス、辞書類のデータベース、デジタルアーカイブ、最近ではくずし字の解読といったものがキーワードになると思われます。私はその中でも、日本語の文法の歴史に関する研究を進めており、これは上のキーワードの中ではコーパスとの関係性が強い分野です。以下、私が分かる範囲の話ということで、コーパスに限定して話を進めます。
遡って2014年4月、私は晴れて大学院に進学したのですが、それはちょうど国立国語研究所編『日本語歴史コーパス』(以下 CHJ)[1]の第一弾である「平安時代編」の本公開と同じタイミングでした。まだ「通時」コーパスではない CHJ と、何者でもない私。大学院生活での成長は、CHJ の資料の拡充とともにありました。国語学・日本語学という学問は、総索引の作成やテキストデータベースなど、もともとコンピュータ利用との親和性が高い分野であり、CHJ だけでなく、既に学部生の頃から、国文学研究資料館編『日本古典文学大系本文データベース』[2]、『噺本大系本文データベース』[3]、国立国語研究所の提供する全文検索システム『ひまわり』[4]、また、日本語学以外の文脈で作られたものとして、東京大学史料編纂所によるデータベース[5]、SAT 大正新脩大蔵経テキストデータベース[6]など、Web 上で利用可能なデータベース類が目の前にありました。既に先人によって切り拓かれ(、そして新たな分野が切り拓かれつつあっ)た場所で研究に触れ始めたわけで、言うなれば、DH ネイティブの世代と言えます。
一方、「日本語史研究において有用な資料」と「文学史的に価値がある資料」は必ずしもイコールではありませんので、当然ながら、電子的な検索が可能な資料がそのまま日本語史研究に必要な資料を網羅するわけでもありません。そのため、資料性をよく理解しないまま検索をして結果を並べるだけ並べて、ため息を吐かれるということも、ままありました。このあたり、まさにネイティブといったところでしょうか。
こうした環境で育ち、大学院時代に人文情報学に出会った私は[7]、日本語学においてある程度道具が出揃ったであろう現段階で殊更に Digital を押し出そうとすること、特に、この輪を日本語学の研究者の側(Humanities の側)に拡張することに困難を感じています。この要因はおおよそ、以下に示す2点に集約されるのだろうと思います。
コーパスの収録作品について、「次は何が出るの?」「まだあの資料は使えないの?」などという声を聞くにつけ、データを「使う側」と「作る側」の二項対立が存することをひしひしと感じます。
「研究所が作り、研究者がそれを享受する」という構図はやや不健全なものですが、テキストデータを個人個人が作成・共有してきた時代はかつて確かにあったわけですから[8]、こうした構図が以前からずっと存在したというわけでもなく、むしろ時代が進むにつれて明確になったものとも思われます。求められるデータの質が高度になるにつれて、個人の技術の範疇では手に負えないものになることで、この断絶が必然的に大きくなってしまったのでしょう[9]。
「日本語史研究の取っ掛かりは資料の通読から得るのが主であって、最初からデータベースに向かっても何も得られない」ということを、着任早々、偉そうな顔をして学生に話しています。自分がよく触れるタイプの研究では、実例、もしくは現代語の研究から発想を得て、仮説を立て、捜索する資料を増やして検証し、仮説を修正して一般化する……という流れがスタンダードであり、こうした研究では、資料の通読、索引やテキストデータの利用による用例収集の延長上にコーパスの利用があります。
この点において「コーパスを利用した」研究は(私自身の研究も含め)、資料に当たって目視で用例を拾い、索引を1例1例引いていけば根性でなんとかなる類のものが多く、この域を抜けません。そしてこの制約は、研究の発想方法が上述のものである以上、不可避なものでもあります。すなわち、日本語学の研究のうちの結構な割合が、コーパスに「便利ツール」以上の役割を求めていないのです。これは現在の研究がその範疇にある限りでは、(良くはないけれども)それほど悪いことでもありませんが、Digital 側からすれば行き詰まりの原因そのものであることこの上なく、日本語学側からしても、新たな視界を開くことの妨げとなっているようにも思います。
上記2点「使う側と作る側」の二項対立を無くし、コーパスを単なる「便利ツール」以上のものとして使い、この閉塞感を打破するための手がかりを考えます。
まず前者については、最近、「通時コーパス」プロジェクト[10]の代表、小木曽智信氏(国立国語研究所)の試みがありました[11]。CHJ 平安時代編のデータの助動詞「(ら)る」(現代語の「(ら)れる」に相当)の例に、用法(受身・尊敬・自発・可能)の追加情報を付与・再配布することで、研究者間で参照・共有できるようにするという事例です。個人レベルでのコーパスへの情報付与を可能とすることで、先述の参画ハードルを大きく下げています。
後者の手がかりとなるものに、田中牧郎氏(明治大学)の近代雑誌を対象とした一連の語彙史研究があります[12]。概略、明治・大正期の雑誌コーパスに現れる全ての自立語(名詞と動詞)の出現頻度を年代ごとに区切って計上することで、明治・大正期に「周辺的な語であった(使用頻度が低い)」という地位から「中心に近い重要な位置を占める語(使用頻度が高い)」へと移行した語を抽出することに成功しています。これは、「コーパスでなければできない研究」の代表格と言ってよいでしょう。
以上、日本語学と情報学の融合に際しての、特にコーパス利用における壁とその解決策について述べてきました。読者諸氏の分野と関連付けて、この問題は自分のところにもあるとかないとか、既に乗り越えたとか乗り越えてないとか、これから起こりそうだとか、自分の分野ならこう解決するとか、他分野との比較を通しての相対化の材料を提供できたようであればそれはこの上なく幸いなことであり、巻頭言としての役割を全うできたと言えるでしょうか。
国立国会図書館は、2019年3月29日に「次世代デジタルライブラリー」を公開し、新機能の試験的利用を開始した[1][2][3]。これは、国会図書館デジタルコレクション[4]の資料の実験的検索システムとして公開されたものである。今回は、PD 資料のうち、NDC で産業に分類される書籍の一部が検索対象となっている。これが対象となった理由は、「図版を含む多様な資料が含まれ、機械学習技術のデモンストレーションに適していると考えられたため」[2]とされる。
これは、国会図書館の次世代システム開発研究室が担当している次世代システムに関する調査研究の一環である[5]。次世代システム開発研究室は、これまでも館外の研究者との協力から、書誌情報検索・可視化システム[6]や脚注表示機能を有した電子読書支援システムの構築実験[7]、翻デジ[8]などの実験環境や、OCR の結果を活用した平仮名や漢字の文字画像データセットを提供してきたほか[9]、アイディアソンやハッカソン、NDL デジタルライブラリーカフェなどのイベントも実施している[10]。今回の試みは、いま述べたような OCR の結果や、近年の機械学習を活用した画像認識の結果の活用と言うことができるだろう。
今回の実験機能は、大きく(1)OCR データの検索活用と(2)画像の機械学習による検索抽出・自動加工に二分でき、さらに(2)については、(i)挿絵部分の抽出および類似画像検索、(ii)背景部分の白色化、(iii)見開き画像のページ自動分割に分けることができる。トップ画面では、検索システムと位置づけられているだけあって、「キーワードで探す」あるいは「絵で探す」のいずれかを選択して検索するようになっている。前者は、(1)のデータに対する検索であり、後者は、(2-i)で抽出された画像がアトランダムに表示され、これはと思ったものを選ぶと類似画像が検索されるようになっている。
まず、「キーワードによる検索」は、OCR データを活用したものである。OCR については、国会図書館デジタルコレクション(当時は近代デジタルライブラリ)に蓄積された白黒マイクロフィルムや直接撮影された画像のアクセス向上として、2009年から取り組まれてきた[11]。その後、2016年および2017年に文字画像データセットなどを公開しつつ[8]、今回その成果が見られるようになったものである。[2]によれば、公開のために人手で修正はされていない。実際に検索してみると[12]、OCR データにヒットした書籍が現れる。順序の指定はできないようである。そこで見られる OCR の結果は、精度は全体的に高いとは言いがたい。OCR の精度についてどのように考えているか不明であり、またデジタルコレクションで几帳面に情報が取られているとはいえ、奥付や目次だけでも人手を入れていけば、使い勝手はかなり高まるように思われた。OCR テキストに確率が付与できて、検索文字列と対応する確率で検索ができればこんな気苦労も要らなくなるのかもしれないが、現代文明の続くうちにそこまで計算資源が進歩するのかどうか。簡体字や現行字体が現れがちなのは、文字セットに重みづけを適切にできれば、改善するのだろうか?(とはいえ、略字体がこの時代に用いられていないわけではない)また、つぎに触れる背景白色化とうまく組み合わせれば、OCR 単体の精度向上も見込まれるのだろうと思われる。
「絵で探す」機能は、上にも述べたように、対象の書籍から抽出された画像がスライドショー形式で流れてゆき、それを選ぶと類似の画像が探せるようになっている。これは、[13]で示された成果が公開されたものである。文章部分と図版部分とを自動で識別し、図版部分の特徴を抽出、検索できるようにしたものである。トップ画面の「絵で探す」検索のスライドショー形式で「ほしいもの」を探すのは、どこになにがあるか分からず困難であり、もっぱら発見的な使われ方が想定されている。もうすこし特定して調べるには、キーワード検索から書籍を絞って、書籍単位での画像抽出を眺めていくほうが早そうに思われる。[14]では、蔵書印の検索についても述べられており、そのようなばあいはスライドショー形式で漫然と眺めているのでも案外探しようがある。
ビューワーにも工夫があり、背景部分の白色化と単ページ表示機能とが提供されているという。背景白色化は、ダウンロードをする際に利用ができ、[14]で示された手法が用いられていると[2]では述べられているものの、執筆時点ではエラーを呈して利用できなかった。また、記述はなかったものの「読みやすくする」ボタンがあり、コントラストの強調ができるようになっている。「調整する」というボタンがあるが、現時点では利用ができなかった。また、単ページ表示機能があり、ページののどに現れる黒い筋と資料の輪郭を利用して学習した成果をもとに、うまくページ単位に分割してくれる。独自実装の IIIF ビューワーに、ページの領域情報を渡して実現しているようで、こんな使い方もあるのかと思った。見開き単位で見るばあいと、単ページ単位で見るばあいとで、ページ数の変化が把握しにくく、課題があるように思う。
さて、[2]では、データセットやソースコードの公開が展望として示されている。どのようなものが出てくるのか大変楽しみである。文化にかかわる機関でこのような R&D 部門が設けられることは珍しく、また、そこで確実に成果が生み出されていることも喜ばしい。今回次世代デジタルライブラリーとして試験公開されたものがすべて実用に移されるのではないのだろうが、ひとまずはこの便利な機能で遊んでみようと思う
DH2019がオランダのユトレヒトで開催された。1066人の参加者、52か国を擁する大学会であった。会議の主体となる研究発表は7月10日(水)〜12日(金)に行われた。7月8日(月)〜7月9日(火)は、火曜日にキーノート・スピーチとオープニング・レセプションがあった以外は、主に全日もしくは半日のワークショップであった。ワークショップの数は30、1つにつき5つの発表があるショートペーパーの研究発表のセッションの数は28、1つにつき3つの発表があるロング・ペーパーのセッションの数は41、1つにつき複数の発表があるパネルの数は29、と途方もない数の発表が行われた。この数の研究発表の数のため、7月10日(水)〜12日(金)の本会議では、およそ10のセッションが並行して行われた。
大会の標語は Complexities「複雑性(複数)」であった。大会のホームページには複雑性がどれだけ人々をインスパイアし、共同作業を促進させ、未来に向けて DH を発展させるかが書かれている[1]。
会議のオープニングのキーノート・スピーチは “ICTs as Juju: African Inspiration for Understanding the Compositeness of Being Human through Digital Technologies” と題され、南アフリカ共和国のケープタウン大学の Francis B. Nyamnjoh 氏が行った。Nyamnjoh 氏は西および中央アフリカにおける、時に魔法などにも用いられる、人間に超人的な力を与えるテクノロジーをさす juju という言葉をデジタル・テクノロジーに当てはめ、デジタル・テクノロジーが、人々がその力への恐れを克服し、真に普遍的なヒューマニズムの創造的な多様性をもつ包括的で自己進化を続ける分野を創出するようになるポテンシャルをもつことを語った。
デジタル・ヒューマニティーズで最も栄誉あるロベルト・ブサ賞は、コプト学者で、ローマ大学名誉教授 Tito Orlandi 氏が選ばれた。 Orlandi 氏は、1970年代と DH の初期からコプト語写本のデジタル・カタログである Corpus dei Manoscritti Copti Letterari プロジェクト[2]を始め、コプト学 DH の父と呼ばれている。Alan Turing のチューリング・マシーンから、シャノンの情報理論、サイバネティックスなど、氏が行ったコンピュータを用いたコプト語文献研究の初期の基盤となった1940年代〜1980年代の情報理論を語った。
大会の会場は TivoliVredenburg というユトレヒト中央駅近くの現代的な建物で、現代演劇の大小の劇場を多数、一つの建物に集めたような場所であった。多数の会場があり、常に10ほどの研究発表が並行して行われていた。会場は複数階にあり、会場間の移動が大変であった。
筆者は、主に自然言語処理コーパス言語学、デジタル・エディション、TEI、HTR、西洋古典学の教育へのデジタル技術の応用などのセッションやパネルに行った。その全てに関してここで詳述することは到底できないが、全般的に言えば、様々な新しい情報や見地を得る事ができた。
西洋古典学では、Perseus[3]などに代表されるようなタグ付きコーパス、ツリーバンク、辞書データなど研究ツールは一通り揃い、すでにかなり発展しているが、今はそれらをどう教育に応用するかに焦点が当てられ、すでに Scaif Viewer[4]など西洋古典の学習に最適なアプリが開発されていることは目を見張るものがある。今回はライプチヒ大学・タフツ大学の Gregory Crane 氏が率いるパネルでこれらについての発表・議論が行われた[5]。
また、ボン大学の Carlos Pallán Gayol 氏とカリフォルニア大学バークレー校の Deborah Anderson 氏が司会をした READ のパネルにも参加したが、READ のように、古典マヤ語のマヤ文字など、まだユニコード・スタンダードに登録されていない文字[6]も使うことが可能な、デジタル・テクスト・エディションのウェブ・プラットフォームの開発も印象的であった[7]。これは、パレオグラフィーの一覧などもタグ付けし表示することが可能な先進的なウェブアプリである。READ プロジェクトの発表では、Andrew Glass 氏の開発中のユニコードの制御文字を用いたエジプトのヒエログリフのマイクロソフト WORD へのタイピングの実演が行われた。エジプト・ヒエログリフ[8]では、文字を水平方向だけでなく、垂直方向に並べることも多く、また、時に、文字の中に文字を書いたり、文字同士を重ね合わせたりするが、それらのパターンに全て対応できる Glass 氏が開発中の技術は会場にいたエジプト学者数人を魅了し、発表の後にはエジプト学者が Glass 氏を囲んで小一時間ほど議論がされるほどであった。
HTR では、Transkribus を用いたものも多かったが、Transkribus の代替以上となるような独自の技術を用いているプロジェクトが目立った。コーパス言語学では、筆者もよく使っていた SIL の FieldWorks Language Explorer の応用に関する発表などが大変関心をひいた。
学会期間中、日本、台湾、中国など東アジアの国々の研究者も多数お見かけし、東アジアに関する発表も多数行われた。東アジア関連の発表のレビューについてはその専門家に譲りたい。
参加者の内訳は、DH2019 Newsletter, Issue 6によると、以下の通りであった。
今回はヨーロッパで開催とあって、ヨーロッパの参加者が過半数を超え、ヨーロッパの文化・歴史をターゲットとした発表が多かったのは致し方ないが、中東、東アジア、アフリカなどの文化・歴史の発表も多く、多様性が確保できている感があった。特にポスター発表での多様さが目立った。また、アフリカの DH も、特設ページ[9]や専門のセッションが設けられたように、フォーカスされていた。Nyamnjoh 氏がオープニング・キーノート・スピーチで述べたように、デジタル・ヒューマニティーズが多様性を維持し、様々な主観性をもつ人々の共同作業を通じて大いに発展していくものであることを確信させられる大会であった。
大会の最後は、Johanna Drucker 氏の DH のサスティナビリティと複雑性に関するクロージング・キーノート・スピーチで締めくくられた。大会を通して、昼食や、コーヒー、軽食も提供され、ケータリングも大変充実していた。バンケットでは、美しいカトリック教会でコンサートが催された他、教会に隣接する博物館の庭での食事、そして、博物館の中のレンブラントの絵を見るツアーなど、多数のイベントが用意されていた。私自身のことを言えば、このようなイベントで、今まで知らなかったプロジェクトや研究を知り、そして、多数の研究者と知り合い、意見を交換し新たな知見を得、共同研究・作業の約束などもし、大変充実した大会であった。
2020年のオタワ、そして2021年の東京での DH カンファレンスが、益々の多様性と共同作業を通じて、DH の発展に寄与するものになることを、祈念したい。
本稿はドイツ・ゲッティンゲンで6月に開催された IIIF2019カンファレス[1]の参加報告である。IIIF2019カンファレンスは、6月24日(月)から28日(金)までの5日間(最終日は半日)開催された。IIIF2018カンファレンスと同様、カンファレンス本体は26日(水)から始まる2日半であり、24日(月)はショーケース、25日(火)はワークショップが開かれた。以下では、筆者が参加したセッションのうち、印象に残ったものを中心に報告する。なお、すべての発表スライドは Google ドライブ[2]で共有されているので、ぜひご利用いただきたい。
24日のショーケースは、IIIF に馴染みのないユーザが概要を把握し、さらに最新の動向を発見するためのイベントである、とウェブサイトで紹介されている。冒頭では Göttingen State and University Library の Wolfram Horstmann 氏からの挨拶の後、IIIF コンソーシアムの Managing Director である Josh Hadro 氏が IIIF に関する全体的な説明を行った。その後、図書館や博物館、マニュスクリプトなどのコミュニティ毎のユースケースに関する報告、IIIFの導入に関する説明、およびIIIFの最新動向に関する報告、などが行われた。IIIF の最新動向に関するセッションでは、永崎研宣氏(人文情報学研究所)が、西岡千文氏(京都大学)との共同研究である “Visualizing Which Parts of IIIF Images are Looked at by Users”について発表した。 これらのショーケースにおいて印象に残った発表として、A/V(Audio/Visual)リソースに対する IIIF の応用に関する発表が挙げられる。このカンファレンスの開催に合わせて、IIIF Image API と Presentation API v3のベータ版が公開された。その特徴の一つとして、時間ベースのメディアを画像と同様に扱うことができるようになる点が強調されていた。具体的には、IIIF Presentation API v3を利用し、音声や動画とアノテーションを関連付けて表示する例が複数紹介された。IIIF が画像だけでなく、A/V リソースにも適用可能になることで、IIIF がより広く使用される技術になると考えられる。
25日のワークショップでは、ドイツ語による IIIF 導入ワークショップのほか、IIIF 対応ビューワである Mirador と Universal Viewer に関するワークショップ、およびデジタル化プロジェクト向けのオープンソースのワークフロー管理システムである Goobi に関するワークショップが行われた。Mirador のワークショップでは、現行の Mirador からアーキテクチャが刷新された Mirador 3に関するハンズオンセッション[3][4]が行われた。 本ワークショップの開催時点では多少の不具合が見られたが、UX や機能拡張性の向上などの様々な改良がなされており、Mirador 3の正式リリースが楽しみになった。また Goobi に関するワークショップでは、Goobi の開発者である intranda GmbH スタッフによるハンズオンセッション[5][6]が行われた。Goobi の基本的な説明から、ワークフローの使用方法、IIIF Manifest の出力に至るまで、一連の操作方法を学ぶことができた。IIIF とは直接関係はないが、資料の撮影や品質保証、メタデータ付与など、デジタル化プロジェクトに必要なステップを理解する上で、Goobi のようなソフトウェアが役立つのではないか、という感想を持った。
カンファレンス本体となる26日は、各発表者に7分の持ち時間が与えられるライトニングトークが終日行われた。日本からの参加者としては筆者[7][8]、岡田一祐氏(国文学研究資料館)[9]、および西岡千文氏(京都大学)[10]が発表を行った。ライトニングトークにおいて印象に残った点としては、IIIF のディスカバリーサービスに関する発表が一定数あったことが挙げられる。Biblissima からは、複数機関が公開する IIIF 準拠のマニュスクリプトや貴重書を横断して検索可能なシステムに関する発表[11]がなされた。その他、IIIF のディスカバリーサービスを実現するための要件整理などを行う報告[12]などもみられた。筆者の発表を含め、いずれも IIIF リソースの所在把握の難しさ、および(リッチな)メタデータ抽出の困難さを共通の課題としており、今後 IIIF Discovery API をはじめとする IIIF を共有するための議論および技術開発が進むものと思われる。
27日および28日にはパラレルセッションが開催された。27日には北本朝展氏(国立情報学研究所)[13]および永崎研宣氏(人文情報学研究所)[14]、28日には西岡千文氏(京都大学)[15]および高野明彦氏(国立情報学研究所)[16]、がそれぞれ発表を行った。これら2日間のセッションで印象に残った点としては、28日 “IIIF, AI and Machine Learning” というパネルセッションが開かれたことを含め、IIIF と機械学習を主題とした発表が数多くあった点が挙げられる。特に Tom Cramer 氏(スタンフォード大学)によるパネルセッションの趣旨説明の中で、IIIF と機械学習の親和性についての紹介がなされた。具体的には、IIIF の API が機械学習サービスに対する標準的な入力方法を提供し、画像認識や物体検出、OCR といった機械学習サービスの出力結果をアノテーション等の IIIF が定める共有データモデルで記述することにより、入力インタフェースが共通化され、画像等に対する機械学習サービスの効率的な利用が実現できる、と筆者は理解した。IIIF が、人間のための効率的な画像利用環境の実現に加え、機械による利用の観点において今後ますます重要な役割を果たしていくと考えられる。
最後に、カンファレンス全体を振り返って印象に残った点として、欧米の大学図書館や文化機関におけるエンジニアの層の厚さを実感したことが挙げられる。複数人のエンジニアが参加している機関が多く、特にスタンフォード大学からは10人前後の参加があり、研究および開発環境の豊かさを感じた。このような環境において、筆者が日本国内における関連分野の発展に寄与する方法として、自身が先進的な研究に取り組むことに加え、欧米の先進的な取り組みや技術を輸入することも一つの有益な方法であると考える。このような観点において、今回のカンファレンスで得られた知見を自身の研究活動に活かしつつ、コミュニティに貢献できるような技術の普及活動等にも取り組んでいきたい。
いよいよ、岡田一祐氏によるこのメールマガジンの連載を中心とした単行本が、日本語・日本文学の研究書を中心に、人文学書全般を行する出版社、文学通信から刊行される。本メールマガジンとしては初めての出来事であり、目指すところをさらに推し進める取り組みであることから、岡田氏にも文学通信社にも大変感謝している。連載記事からの加筆修正や画像の追加などもあるとのことで、手元に届くのを楽しみにしているところである。詳細は以下の URL を参照されたい。 https://bungaku-report.com/books/ISBN978-4-909658-14-2.html
宮川氏の連載記事にあるように、7月は、オランダ・ユトレヒトにて ADHO(国際 DH 学会連合)による年次国際学術大会が開催された。この大会は、欧州・北米・その他地域、というローテーションで毎年開催されているが、ユトレヒトは以前から開催地として立候補していながらなかなか選定されず、3度目の正直でようやくの開催となった。筆者も参加して、自分の発表を4件行うとともに、クロージングセレモニーにて2021年東京大会の紹介を行った。アジア地域では初の開催となるので、家族でのバカンスを兼ねて参加したいと言ってくる人も多く、盛会が期待されるところである。 次回2020年はオタワでの開催だが、発表申し込みの締切りは例年11月初頭近辺であり、そろそろ CFP が公表されるはずなので、発表を考えている方はぜひ注目されたい。
(永崎研宣)