ISSN 2189-1621

 

現在地

DHM 129 【後編】

人文情報学月報/Digital Humanities Monthly


人文情報学月報第129号【後編】

Digital Humanities Monthly No. 129-3

ISSN 2189-1621 / 2011年08月27日創刊

2022年04月30日発行 発行数811部

目次

【前編】

  • 《巻頭言》「古辞書はコーパスに馴染むか
    藤本灯京都府立大学文学部日本・中国文学科
  • 《連載》「Digital Japanese Studies 寸見」第85回
    Creative Commons が政策文書「文化遺産のよりよい共有に向けて:著作権改革への論題」を公開
    岡田一祐北海学園大学人文学部
  • 《連載》「欧州・中東デジタル・ヒューマニティーズ動向」第46回
    危機言語の音声・テキストのデジタル・アーカイブ:Endangered Language Archive と Pangloss Collection
    宮川創人間文化研究機構国立国語研究所研究系

【中編】

  • 《連載》「デジタル・ヒストリーの小部屋」第4回
    詳細なレシピもいいが、肝心の料理の質を上げてくれ:議論主導型のデジタル・ヒストリーと探索的データ分析
    小風尚樹千葉大学人文社会科学系教育研究機構
  • 《特別寄稿》「YAIST:部品と画数で漢字を検索するための Unicode 入力支援ツールについて
    劉聡岡山大学大学院社会文化科学研究科

【後編】

  • 人文情報学イベント関連カレンダー
  • イベントレポート「シンポジウム「第17回京都大学人文科学研究所 TOKYO 漢籍 SEMINAR『デジタル漢籍』」
    片倉峻平東京大学大学院人文社会系研究科
  • イベントレポート「日仏図書館情報学会主催「Gallica―その戦略のゆくえ」
    小風綾乃お茶の水女子大学大学院
  • 編集後記

人文情報学イベント関連カレンダー

【2022年5月】

Digital Humanities Events カレンダー共同編集人

小林雄一郎日本大学生産工学部
瀬戸寿一駒澤大学文学部地理学科
佐藤 翔同志社大学免許資格課程センター
永崎研宣一般財団法人人文情報学研究所
亀田尭宙国立歴史民俗博物館研究部情報資料研究系
堤 智昭筑波大学人文社会系
菊池信彦国文学研究資料館

イベントレポート「第17回京都大学人文科学研究所 TOKYO 漢籍 SEMINAR『デジタル漢籍』

片倉峻平東京大学大学院人文社会系研究科

2022年3月7日に、京都大学人文科学研究所附属東アジア人文情報学研究センターが主催する「東洋学へのコンピュータ利用第34回研究セミナー『デジタル漢籍』」が開かれた[1]。開会挨拶で語られていたが、このセミナーの目的は、京都大学人文科学研究所が長年蓄積してきた中国学研究の成果を関東圏において紹介しよう、というものであるそうだ。その目的の通り、当初は東京都千代田区にある一橋大学一橋講堂中会議場で行われる予定であったが、新型コロナウイルスの影響から全面オンラインでの開催に変更された。昨今の状況を鑑みれば懸命な判断ではあるものの、登壇される先生方や参加者の方々と対面して交流する機会は失われてしまい残念であった。とはいえ結果としてオンライン開催であれば関東圏のみならず全世界から参加が可能となるため、目的は果たされたと考えることも出来よう。

セミナーは大きく3つの発表で構成されており、それぞれに1時間が割り当てられ充実していた。何れも日本のデジタル・ヒューマニティーズ(以下、DH)研究を牽引する先生方によるものである。どうやらセミナーの対象者としては DH や漢籍に精通する前線の研究者ではなく、それらに興味を抱いている愛好家の水準を想定していたようであり[2]、そのため専門的な研究発表という雰囲気は薄く、どちらかと言えば研究の重要な基盤となる概説的な話が発表の中心となっていた。

デジタル漢籍の誕生:紙から画面へ

Christian Wittern(京都大学人文科学研究所)

発表内容は、情報資源組織化の歴史について追うものであった。前半は索引の歴史を取り上げ、西洋の語句集であるコンコルダンスから始まり東洋の『四書索引』[3]や『老解老』[4]などの紹介が行われた。後半は漢籍がデジタル環境でどのように扱われてきたかという歴史について、テキストデータを中心に解説がなされた。

索引や語句集はテキストの情報を目的に応じて扱いやすいように手動で整理したものである。現在ではコンピュータにテキストデータを取り込みさえすれば、あとは目的に応じて自動的に情報の整理を代替してくれる。このデジタル環境が利便性を大きく高めてくれたことは事実であるが、結局テキストからどういった情報を整理するのかという「目的」の部分を考えるのはコンピュータではなく未だに人間が担っている。話を聞いているうちに、テキスト利用の能率に変化はあれども、テキストに向かう姿勢として本質的な部分はまだそこまで大きくは変化していないのではないかと考えさせられた。

デジタル時代の漢籍の楽しみ方

永崎研宣(一般財団法人人文情報学研究所)

発表内容は、漢籍画像情報のデジタル利用についてその手法例を紹介するものであった。前半ではデジタル画像の相互運用性を高める IIIF (International Image Interoperability Framework) という共通規格の利便性が解説され、後半ではそれを活用した漢籍画像の対比・切り取りなどの利用方法が説明された。今回はセミナーのテーマ通り漢籍が題材例として挙げられていたのであるが、その実は洋の東西を問わず史資料のデジタル画像全般に通底するトピックであった。

欧米では、資料を保存する各機関が IIIF などを通してデジタルデータをオープン化するという潮流が、昨今大きく動き出している。一方で東アジア、とりわけ中国大陸に目を向けてみると、まだオープン化に向けた大きな流れというのは出来ていないように映る。しかしながら上海図書館や復旦大学図書館などは所蔵する資料の一部を IIIF で公開することを試みており[5]、彼らが中国大陸における IIIF 採用の先駆けとなってくれていることは今後の中国大陸所蔵資料のオープン化に大いに期待が持てる。

また発表内で言及されていたが、今後 IIIF などによる画像資料の活用が進むと、もしかすると研究などの際にアクセシビリティによる資料選択が生じてしまう可能性もあるとのことであった。IIIF で公開される資料というのはインターネットに繋がっていればどこからでも利用することが可能であり、この利便性から研究の際にも勢い積極的に取り上げられるようになることは想像に難くない。一方でその資料選択が研究テーマに基づいたものではなく単なるアクセシビリティによる選択であったとすると、研究手法としては問題を孕んでしまうかもしれない。IIIF に対応していない資料だとしても参照すべきものは多く、それらが蔑ろにされることのないようにこうした技術が普及してくれることを望んでいる。

漢字から漢語へ、漢語から漢文へ

安岡孝一(京都大学人文科学研究所)

発表内容は、漢文を対象とした文法解析についての概要であった。漢文、つまり古代中国語が持つ言語的な特徴を説明しつつ、コンピュータに漢字それぞれをどのように認識させ、そこから漢語としてのまとまりをどのように見出させ、最後は漢文全体としてどのように文法構造を解析するのか、という話が順序立てて解説されていた。これまでの二つの発表と比較すると情報技術に関する専門的な話が最も盛り込まれていた内容であった。

現時点では『論語』など著名な古典籍の所謂本文部分を対象に研究を進めている様子であった。これだけでも充分に成果を上げていることが伺えるが、筆者としては今後更に注釈部分も研究対象として視野に入れて貰いたいという所感を得た。音義や校勘などが多く含まれる注釈部分が上手く解析されるようになれば、これもまた古代中国研究においては非常に有益に働くはずである。

漢籍を扱う中国学の研究では、歴史学・哲学・文学・言語学など多くの分野においてデジタル利用が重要性を増しており、こうした状況下で本セミナーのように漢籍にまつわる DH 研究を噛み砕いて講義して貰える機会はとても貴重である。同様のテーマを扱ったイベントが今後益々増えてくれることを望む。

余談になるが、筆者は本セミナーのポスターに描かれてある挿絵を非常に気に入っている[6]。読者の皆様には是非この素敵な遊び心に目を留めて頂きたい。

[2] 「デジタル時代の漢籍の楽しみ方」発表冒頭、永崎研宣氏談。
[3] 森本角蔵編『四書索引』、経書索引刊行所、1921。
[4] 蔡廷幹編『老解老』、1922。
[5] 「IIIF 与 AI 作用下的文化遺産応用研究新模態」pp. 69–70(陳濤、劉煒、孫遜、朱慶華、趙宇翔、『中国図書館学報』47 (2)、pp. 67–78、書目文献出版社、2021、DOI:10.13530/j.cnki.jlis.2021013)。
Copyright(C) KATAKURA, Shumpei 2022– All Rights Reserved.

イベントレポート「日仏図書館情報学会主催「Gallica―その戦略のゆくえ」

小風綾乃お茶の水女子大学大学院、日本学術振興会特別研究員 DC2

1. はじめに

2022年3月19日、日仏図書館情報学会の主催で「Gallicaーその戦略のゆくえ」という講演会がオンライン(ウェビナー)で実施された。本講演会は1997年に19世紀フランス語資料を対象に始まった Gallica の25周年を記念したものである。講演者はフランス国会図書館で副館長補(デジタル担当)兼サービス・ネットワーク部長を務めるアルノー・ボーフォール(Arnaud BEAUFORT)氏である。司会は日仏図書館情報学会幹事兼国立国会図書館電子情報部の大沼太兵衛氏、コメンテーターは国立国会図書館電子情報部長の大場利康氏がご担当された。講演はフランス語およびフランス語のスライドで行われ、同時通訳機能によりフランス語を解しない聴講者には日本語で理解できるようになっていた。

2. 講演会の内容

2.1. ボーフォール氏による講演

ボーフォール氏の講演は、簡単にまとめると現在のフランス国会図書館(Gallica を含む)の概要・利用状況とコロナ禍の対応、Gallica がどのような戦略を取っているかという内容であった。

2.1.1. フランス国会図書館の概要

フランス国会図書館は2030年に向けて改編を進めており、現在の構成館と1日の平均利用者数は以下の通りである。Richelieu 館(64名、改修工事中)、François-Mitterrand 館(HDJ 864名+RDJ 519名)[1]、Opéra 館・Arsenal 館・Jean Vilar 館(合わせて23名)。これに保存と修復を行うセンターである Sablé 館と Bussy 館、電子図書館である Gallica(1日平均50,350名)が加えられる。2030年には Richelieu 館の改修工事が終わり、Sablé 館とBussy 館が Amiens 館に統合される計画である。

Gallica はフランス国会図書館とそのパートナー機関によって作られてきた。現在 Gallica の所蔵数は890万件で、うち20%がパートナー機関からの提供を受けている。なお、閲覧されているドキュメントはこのうち310万件ほどである。

利用者の増加とコレクションの普及を目指して、Gallica は広報戦略として SNS に力を入れているとのことである。例えば Gallica のブログ[2]は90万人が閲覧し、Instagram の登録者数は16.3万人[3]、Facebook のファン登録者数は17万人にのぼる[4][5]。もちろんこれらの数字はコロナ禍による外出制限を経ての数字であるが、SNS による広報が功を奏したことは間違いない。筆者もコロナ禍の外出自粛期間に、これらの投稿を目にする機会が増えたように感じていた。

Gallica の2020年の訪問者は前年から20%増の1900万人、2021年の訪問者数は1840万人であったそうだ。フランスでは厳しい外出規制が発出されると利用者が顕著に増える傾向が見られたという。ボーフォール氏の話から判断するとフランス人の利用者が大幅に増えたようであったが、欲を言えば遠方、とりわけ他国からのアクセスがどのくらい伸びたのかも知りたいと感じた。なぜなら、地理的な制約をより長く強く受けたのは、他国から入国し、隔離期間などを必要とした外国在住者だと思うからである。まだ十分でないとはいえ、世界的に渡航制限も緩和し、(地域によっては多少無理すれば)現地に行けるという状況になった現在、このような遠方の居住者が Gallica ユーザとして定着したかは分析の余地があろう。

2.1.2. Gallica の基本的戦略

Gallica は公共サービスとして、以下のような基本的戦略を取っているとのことである。

2.1.2.1. どんどん提供すること

Gallica はコレクション・技術やツールなど、より多くのものを提供し、活用の幅を広げる戦略を取っている。SNS による広報活動もこの一環であると考えれば、コロナ禍においてこの戦略は一定の成果を挙げていると言えるだろう。また、国立図書館として、著作権に配慮した形で Gallica intra muros というサービスを提供している。これは館内閲覧のシステムであり、職員、研究者、一般利用者でアクセス権限を分けてある。これにより著作権保護期間にあたる100万件の資料を Gallica に追加できたとのことである。また、2021年度末にデジタル納本制度が作られたため、一般に販売されているデジタル資料も納本できるようになった。

2.1.2.2. デジタルを使い分けること

GAFAM が提供するサービスとの差別化を、Gallica は強く意識しているようであった。例えば、コレクションを広報したり、著者・作品・テーマごとに検索できるエンジンである BnF Data などがこれにあたる。また、IIIF で解像度の高い画像を提供したり、OCR、ズーム、ナビゲーションなどの技術を導入している。OCR 化の促進が、視覚障がいのあるユーザに作品を楽しんでもらう効果を生むという視点は筆者にとって新鮮であった。確かに OCR により機械可読テキストに変換されれば、音声による読み上げ機能が使えるようになる。日本語のように文節がわかりにくく、漢字仮名混じりの言語体系を持つ資料では難しいだろうが、フランス語のようなアルファベットで発音も一意に決まっているような資料であれば効果は大きいと思われる。これまで筆者は OCR された文書をテキスト分析の対象や可読性の高い翻刻文としてしか見てこなかったが、公共図書館としての役割を考える場合、たしかに配慮されることが望ましい点であると感じた。ただしこれを実現するためには高い OCR の精度が必要とされるため、現在は活字に対してのみ OCR 機能が提供されているようである。

直近の技術向上としては、近傍検索機能[6]のリリースが伝えられた。2つのキーワードを色分けして検索結果を表示したり、その結果をエクスポートしたりできる機能である[7]。エクスポートには検索レポート、RSS などが選べる。検索レポートはブラウザ上で資料画像とともに閲覧できるほか、PDF(原本(OCR されたテキスト)またはそのメタデータからヒットしたものを抽出)、CSV(統計レポート:文書の種類、タイトル、著者、出版社、発行日、出現元、出現数;文献リスト:ドキュメントにアクセスする URL/URI、タイプ、タイトル、著者、寄稿者、出版社、日付、説明、主題、閲覧数、Code Sdewey, Sdewey, Set OAI, Provenance, Ark Catalogue, Ark Recueil, 権利)によるエクスポートが選べた。ユーザが形式を選択してメールアドレスを入力すると送られてくる仕組みである。

2.1.2.3. 謙虚な姿勢を示すこと

Gallica は最初から利用方法などを決めつけず、オープンに、自由な空間を残すように心がけているようであった。例えばモンペリエ3M のデジタル遺産ライブラリである Mémonum[8]のようなホワイトマーク機関は、Gallica の収蔵資料から関連資料をキュレーションし、モンペリエ視聴覚ライブラリの資料とともに公開している。

ユーザによる貢献を反映する機能も作られている。例えば Gallicarte は地図で地理情報を確認できるツールであるが、インターネット上でユーザが位置情報を追加・修正することもできるようだ[9]。

2.2. 大場氏によるコメント

大場利康氏によるコメントでは、昨年国立国会図書館で定められた7つの重点事業[10]を参照しつつ、ボーフォール氏の講演で紹介されたサービスとの比較が示された。インターネット資料の拡充、読書バリアフリーの推進、資料デジタル化の加速、デジタル資料の収集と長期保存など、様々な共通点が見られる。現在国立国会図書館では280万点の資料が公開されており、うち57万点がインターネット公開されている。館内閲覧システムで見られる著作権保護期間内の資料は72万点。これだけ見ると Gallica との資料数の差に驚き、改めて Gallica のデジタル資料の豊富さを実感した。

これに対し、日本独自のサービスとして、絶版など市場で入手できない資料を著作権保護期間内でも公共図書館・大学図書館内で見られるサービスが紹介された。対象となっているのは150万点ほどで、2022年の5月からは国立国会図書館で事前にユーザ登録していれば個人でも閲覧できるようになるという。

ボーフォール氏に対しては、画像検索や予算、SNS、Europeana との関係についてなど、多方面から質問をされていた。Gallica では2.5億点の画像を取り扱っており、画像マイニングの検索エンジンの実装は予算の都合上まだ難しいが、将来的には必要と考えているということである。予算については GAFAM との協力に触れ、過去に Apple から100万ドルの資金提供を受けたことで、IIIF を使って、一般的なフランス語の文学作品1.2万冊をテキスト化し、バリアフリー化を進められたことが述べられた。また、興味深い取り組みとして、BnF の友の会が紹介された。お金を出すことで誰でも本の里親になることができ、里親がメタデータとして記名されるため、「私がこの本のデジタル化を支援した」と言えるようになり、それに価値を感じるユーザがいるとのことである。

この本の里親制度は、研究者にとっても非常に役に立つ制度であると感じている。筆者はこの制度を以前より耳にしながらも実際に利用したことはないが、研究のためデジタル化してほしい資料がある場合に、Gallica に収録される「いつか」を待たなくて良い可能性があるからである。予算は必要になるが、この里親制度は今後使ってみたいと考えている。

2.3. 質疑応答

ウェビナーの Q&A 機能を使って、多数の質問が寄せられたようである。最初の質問は、BnF のデジタル化計画の範囲についてであった。これについては、5–10年後の課題として、デジタルの納本を引き受け、ツールを作って検索できるようにすることが挙げられた。そうすれば、著作権下にあっても研究者は幅広い時期の資料を閲覧することができるようになるだろうとのことであった。同様の質問として、Gallica の資料収集の射程についての質問もあり、ボーフォール氏の回答では書籍、雑誌、版画、写真、銅像、3D、ビデオゲーム、映画、テレビ番組など、特に制限を設けることなく幅広く収集しているとのことであった。言語範囲については、国の機関として、納品を受け付けるのはフランスで出版されたものに限るが、海外で出版されたフランス語資料、著作権が切れた資料なども一部収録されているとのことである。

続いて、研究者の翻刻結果を Gallica に提供できるのか、それが可能であればその貢献をメタデータに記載してもらえるのか、という筆者からの質問を取り上げていただいた。これについては、現段階ではその仕組みはないようだが、手稿のテキスト化については Wikisource のようなプロトコルを作り、複数ユーザが手稿テキストをチェックするような形で実装することが計画されているようである。また、貢献に関しては、BnF は労力による貢献は記名せず、金銭的な貢献のみが記名されるとのことであった。これは度重なる修正など、複数人が同じ仕事に携わる可能性があるからだそうである。

3つ目は、IIIF 画像につけられたアノテーションを収集する計画はあるかという質問であったが、これについてはフランス・日本ともに現在は取り組まれていないとのことであった。

最後の質問は若い世代に向けたアウトリーチ戦略についてであった。SNS については講演でも触れられていたが、より若い世代に人気の SNS を利用するように心がけているそうである。また親に向けた戦略として、子供におとぎ話を読んであげるための Gallicadabra[11]というアプリケーション(iOS/Android)が提供されている(対象年齢は6歳以上)。オーディオがついているため、古いフランス語を読むのが難しい親は、俳優の音声で聴かせることができるようになっている。フランス語版の青空文庫[12]ということだろう。Gallicadabra を筆者の iPad で表示したところ、作品を利用の都度ダウンロードしなければならない点と、音声読み上げ機能を使った際に画質が落ちて文字がぼやけている点はやや残念に感じたが、古い資料に子どもが触れる機会を幼い頃から作れることは大変有意義であろうと考えられる。

3. おわりに

本講演では、いわゆる Gallica の中の人であるボーフォール氏から、Gallica の技術・所蔵資料数の面での成長だけでなく戦略面についても聞けたのは筆者にとって新鮮で、充実した時間を過ごすことができた。Q&A も数多く寄せられたようで、聴講者の関心の高さもうかがえた。公共図書館としての責務を強く認識し、刻々と変わる技術・社会的要請に応えていく Gallica の姿は頼もしく映った。まだフランスに現地調査に行くことが躊躇される現状において、Gallica の存在は筆者自身の研究活動を力強く支えてくれている。これからもより多くの資料が公開され、オープンな形で研究や教育、趣味などに活用されることを願っている。

[1] HDJ は Haut-de-jardin の略で、一般利用者用の閲覧スペース、RDJ は Rez-de-jardin の略で、研究者用の閲覧スペースである。BnF は中央の中庭を取り囲むように書架・閲覧スペースが配置してあり、上の階が HDJ、下の階が RDJ になっている。両者の名前はこの閲覧スペースの配置にちなむ。
[5] そのほか、Twitter や Pinterest アカウントもある。Twitter: https://twitter.com/gallicabnf ; Pinterest: https://www.pinterest.fr/gallicabnf/.
[6] 近傍検索は検索窓ではなく詳細検索(Recherche avancée)をクリックした先の、«PAR PROXIMITÉ» から利用することができる。
[7] サンプルとして、Tokyo と Paris、距離=20で検索した結果を付しておく。これは実際に講演会のなかでボーフォール氏が紹介された例である。興味のある方はリンクから見ていただきたい。https://gallica.bnf.fr/services/engine/search/sru?operation=searchRetrieve&exactSearch=false&collapsing=true&version=1.2&query=((%20text%20all%20%22Tokyo%22%20prox/unit=word/distance=20%20%22Paris%22))&suggest=10&keywords=.
[11] 本サービスの名称は、「アブラカダブラ」を由来としているそうである。http://editions.bnf.fr/gallicadabra.
Copyright(C) KOKAZE, Ayano 2022– All Rights Reserved.

◆編集後記

今月は、DH2022の参加申込み受付が開始されました。国際デジタル・ヒューマニティーズ学会連合(ADHO)の年次国際学術大会、いわゆるトップカンファレンスとして、本年の7月25~29日、一週間にわたり東京大学により開催されるもので、オンラインではありますが、今回がアジアでは初めてとなります。例年同様、世界のデジタル・ヒューマニティーズの最先端の研究発表が集結しますので、興味深い発表が目白押しです。ここに参加すれば世界の潮流を一望することができるでしょう。一方、Responding to Asian Diversityというテーマの下、アジア研究におけるDHに焦点をあてた発表や企画が様々に用意されますので、アジア・日本研究に関心がある方も楽しめると思います。すでにツィッターではアジアDH研究者に焦点をあてたショートビデオシリーズの紹介が始まっており、世界のアジアDH研究を垣間見ることができます。一方、プレイベントとして月曜・火曜に開催されるワークショップは26件にのぼり、最先端のDHの手法や概念、ツールなどに触れる機会がそれぞれに提供されています。テキスト構築、テキスト分析、画像分析、3Dモデル構築等の研究手法はもちろんのこと、多様性と公平、パンデミックへの対応等、研究そのものではなく研究活動上の課題を扱うものも見られます。オンライン開催ですが日本時間をやや意識した設定になっております。めったにない貴重な機会ですので、ぜひご参加をご検討ください。

(永崎研宣)



Tweet: