ISSN 2189-1621

 

現在地

DHM 084 【前編】

人文情報学月報 / Digital Humanities Monthly


人文情報学月報第84号【前編】

Digital Humanities Monthly No. 084-1

ISSN 2189-1621 / 2011年8月27日創刊

2018年7月31日発行      発行数766部

目次

【前編】

  • 《巻頭言》「博物館の目録記述を再考する時期に来ている
    村田良二東京国立博物館
  • 《連載》「Digital Japanese Studies寸見」第40回
    国立歴史民俗博物館のkhirinと聆涛閣集古帖
    岡田一祐国文学研究資料館古典籍共同研究事業センター
  • 《連載》「欧州・中東デジタル・ヒューマニティーズ動向」第4回
    ゲッティンゲン大学でのデジタル・ヒューマニティーズとコーパス言語学の授業を担当して
    宮川創ゲッティンゲン大学

【後編】

  • 《連載》「東アジア研究とDHを学ぶ」第4回
    KU-ORCASワークショップ「ベンダーからのアーカイブの提案」
    菊池信彦関西大学アジア・オープン・リサーチセンター特命准教授
  • 《連載》「Tokyo Digital History」第3回
    Regesta Imperii Onlineの活用
    纓田宗紀東京大学大学院人文社会系研究科西洋史学専門分野博士課程
  • 人文情報学イベントカレンダー
  • 編集後記

《巻頭言》「博物館の目録記述を再考する時期に来ている

村田良二東京国立博物館

市民がコレクションの内容を知るためには目録が必要である。したがって、コレクションを所蔵する組織は当然のこととして目録を整備するはずだ。ところが、現実にはそうでもない。筆者の所属する東京国立博物館(以下「東博」)は人文系であり、自然史系とはかなり性格が異なるので、ここでは人文系の博物館・美術館について考えてみたい。

東博では、1976~79年にかけて『収蔵品目録』という冊子体の目録を4冊刊行しているが、それ以後40年近くの間、包括的な目録を刊行していない[1]。もちろん冊子体の目録を刊行するというのは負荷の大きな事業であり、そう頻繁にできることではない。しかし冊子体でないにしても、何らかの方法で一般の市民が東博の所蔵品について検索する手段が提供されていたかというと、かつての図書館のようなカード目録に該当するものがあるわけでもない。所蔵品の写真を掲載した『図版目録』は継続的に刊行しており、これはこれで重要なのだが、「古写経篇」「近代彫刻篇」などの分野ごとに作成されており、所蔵品の全体という性格のものではない。

こうした観点からすれば、2017年3月に公開したColBaseは画期的なものであった[2]。これは東博を含む国立文化財機構の4博物館の所蔵品の情報を公開するデータベースだ。京都、奈良、九州の3館はすでに各館のウェブサイトにおいて独自に所蔵品データベースを公開していたが、東博にはそのような公開データベースはなかった。所蔵品のデータの(ほぼ)全面的なネット上での公開は、これが初めてのことである。

博物館では目録の整備がなかなか進まないということは、かなり以前から言われ続けている。原因としてよく挙げられるのは、資料がすべてユニークであり、データの再利用ができないことや、モノを見ただけでは情報を抽出できず、調査研究が必須となるため1件あたりの手間が大きいことなどであろう。

資料情報の整備について、日本博物館協会による調査のデータを見てみよう[3]。人文系ということで、総合・郷土・美術・歴史の館種に限ってみる。まず少しさかのぼって1998年度の調査である。資料情報の基盤となる(通常は非公開の)資料台帳の整備について「ほとんどすべて」整備できているというのは、これらの館種全体で49.8%、およそ半数にすぎない。また資料目録については「全部を記載」したものを刊行しているのは21.9%、「一部を記載」したものでは45.0%、あわせて66.9%となっている。この15年後の2013年度の調査では、「ほとんどすべて」の台帳は上記の館種合計で50.7%とあまり変わっていない。目録については「紙または電子媒体」のものを作成・公開したと回答したのが61.0%で、むしろやや減っている。さまざまな背景があるにせよ、台帳や目録といった資料情報の整備に関しては、この15年間で大きな変革はなかった、と言わざるを得ないだろう。

これには、博物館の所蔵品の情報整備には物理的に手間がかかるということ以外にも原因があるように思われる。それは博物館という場所のもつ性質である。先の調査結果が示しているのは、「博物館は台帳や目録が整備できていなくてもやっていける」ということでもあるのだ。もし図書館に目録がなかったら、利用者は図書を利用できない。だが博物館は、目録がなくても展覧会を開催できるのである。かつて東博で情報を担当していた高見沢は2002年のシンポジウムで次のように発言している。

展示というのは、図書館の閲覧というのと大きく異なる。図書館の閲覧というのは利用者が自分の利用したい資料を検索して請求すると、図書館側がそれがあれば見せてくれるというシステムだと思う。博物館の展示というのはそうではなくて、博物館の職員があらかじめ、ものを選んでそれを空間に合わせて、ある秩序で並べてしまって、そのままの状態で、最近は手を触れられる所も若干出てきたとはいえ、基本的には手を触れずに見てくださいというシステムである。
 博物館の現場の感覚で言うと、基本的には、利用者に資料を検索させる機能というのは必要がない。ここの点は、図書館とか先程お話のあった資料館とは、だいぶ立場が違うと思っている。[4]

「利用者に資料を検索させる機能というのは必要がない」のだ!紙であれ電子であれ、所蔵品の目録がないために利用者も職員も何もできなくて途方にくれる、というような事態は博物館では起きないのである。実際、かつては全所蔵品のデータベース公開に言及すると、職員から「そんなの普通の人に見せてもしょうがない」と反応されることも決して珍しくはなかった。博物館は「すべてお膳立てしてから見せる」ことに慣れており、ナマのデータに一般の市民が直接アクセスすることを想定してこなかったのである。

市民が博物館で所蔵品に直接アクセスできるのは展示されたものだけであるため、仮にカード目録を設置してもそれを検索する意味は薄かったであろう。また目録を整備して刊行したとしても、多数の書店に流通して気軽に購入できるようなものではなく、一般の人にとって必ずしもアクセスしやすいものではなかった。

しかし、いよいよ時代は変わってきた。情報へのアクセスコストは限りなく下がり、人々は何であれ「調べればわかる」のが当然のこととして期待している。たとえ実物へのアクセスが限られていても、画像によって様子をうかがうことができるし、展覧会などで実物にアクセスできる機会について知ることも可能である…必要な情報が公開されてさえいれば。

今日では、博物館の職員自身もネットで情報を得るのが日常になっており、以前にくらべて情報公開の意義を肌で感じているように思う。かつてよく言われた「画像を公開したら来館者が減るのでは?」という危惧も、今日ではほとんど聞かれない。

さらに、Linked Open Dataのような技術的進展も情報整備を後押しする可能性がある。複数の情報源から取得したデータを有機的につないで利用・加工するような世界では、素材となるデータの提供も一層求められるはずである。そして人々が自分自身でデータの網の中を探索し、それぞれに価値を発見していくことをサポートするのも、博物館の役割として引き受けていくべきであろう。博物館は、近年の教育普及活動の充実を通して、来館者が単なる受動的な観客であるだけでなく、主体的に資料と向き合っていく存在でもあることを学んできているはずだと思う。

そしてこのような環境においてこそ、博物館自身による情報整備の価値を改めて評価していかなければならないと考える。博物館には目録規則もなく、標準的な分類法もなく、名称典拠もない。博物館の目録は、みなが好き勝手に作っているのが実態である。記述のスタイルもそれぞれで、目録ごとに凡例を確認しなければならない。このように記述の中身に最低限の基準や一貫性がない状態では、いくら技術的環境が整っても本当の意味でのデータの活用はおぼつかないのではないか。メタデータや高精細画像、3次元データなどをモダンな方法で提供するのと平行して、これまで議論が深まってこなかった「目録記述」を真剣に見つめ直す時期に来ていると感じている。なにも書き方を統一するというものでなくてもよい。本質的には「利用者に資料を検索させる機能」の実現と充実のために何が必要かを考えるということである。

[1] 東京国立博物館編『収蔵品目録』(「絵画・書跡・彫刻・建築」「東洋美術・東洋考古・法隆寺献納宝物」「金工・刀剣・陶磁器・染織・漆工」「先史・原史・有史」の計4冊)東京国立博物館、1976~79。
[3] 日本博物館協会編『「博物館の運営改善のための調査研究事業」報告書』1999,p. 187。
井上透編「博物館ICTの現状:ICT化とセキュリティー対策の遅滞」『日本の博物館総合調査研究:日本の博物館総合調査研究:平成26年度報告書』平成25~27年度 日本学術振興会(JSPS)科学研究費補助金基盤研究(B)補助金、2015、p. 206 のデータを元に、本稿の対象となる館種について再計算した。
[4] 高見沢明雄「美術館・博物館のコレクション情報提供動向と課題」国際文化会館図書室編『研究と資料と情報を結ぶ: 「日本研究学術資料情報の利用整備に関する国際会議」の記録』国際交流基金(発行)、2002、p. 162。

執筆者プロフィール

村田良二(むらた・りょうじ)独立行政法人国立文化財機構 東京国立博物館学芸企画部博物館情報課情報管理室長および文化財活用センターデジタル資源担当室長。筑波大学大学院芸術研究科修士課程修了(総合造形分野、デザイン学修士)。IT企業勤務、東京藝術大学美術学部先端芸術表現科非常勤助手、武蔵野美術大学芸術文化学科非常勤講師を経て現職。専門は博物館情報学。
Copyright(C) MURATA, Ryoji 2018- All Rights Reserved.

Digital Japanese Studies寸見」第40回

国立歴史民俗博物館のkhirinと聆涛閣集古帖

岡田一祐国文学研究資料館古典籍共同研究事業センター

2018年5月25日に、国立歴史民俗博物館「総合資料学の創成と日本歴史資料の共同利用基盤構築」事業では、同館の進める総合情報学の情報基盤として、khirin(Knowledgeable of Historical Resources in Institutes)をオープンさせた[1]。 最初のコンテンツには、館蔵資料目録データベース、聆涛閣集古帖の画像および仮目録、歴史民俗調査カード(歴史および考古)の目録および画像データが含められた。

これらのデータはウェブでの検索ができるほか、Linked Dataとしても提供され、歴史民俗調査(歴民)カードや聆涛閣集古帖の画像についてはIIIFで提供される。ウェブ版の検索画面では、連携検索機能などが用意されており、DBPediaに相当のアイテムがあれば、リンクや解説、シノニムを見ることができるようである。また、同じ地域や同じ時代、歴民カードのばあいは同じ調査者単位で検索ができる機能があり、件数も見えるようになっているのはとても使い勝手がよさそうである。

LDはいまのところアイテム単位の提供であり、語彙も独自のようである。現状、語彙やSPARQL Endpointの定義は提供されていないように思われる[2]。アイテムの名称などはともかく、コレクション名や文化財としての登録状況などもIRI化されておらず、テキスト直書きのままである。この情報基盤においては、「スキーマレス」を謳い[3]、たしかにそのとおりではあるのだが、LDが目指すセマンティックなウェブという点から、可用性を今後どのように高めていくのかは気になるところである。SPARQL Endpointがないのでそこまで重大な問題ではないが、目的語がほとんどIRI化されていないことに伴い、LDとしての機械処理容易性や目的語の一意性は得られず、したがって、LDのデータからウェブ版の操作感を再構成することは難しいように思われる。

ライセンスは、諸条件によっていくつかに分かれており、館蔵資料目録データベースと聆涛閣集古帖とは政府標準利用規約2.0に「準ずる」ライセンス(自由利用、出典・改変の有無の記載の明示を要請)、歴民カードについてはCC BY-NC-SA(すなわち商用利用不可)で提供されている[4]。この「準ずる」ライセンスは、京都大学附属図書館をはじめ、khirinにやや遅れて東京大学附属図書館が採用を発表するなど、広まりを見せつつあるように思われる。

さて、今回の目玉の一つは『聆涛閣集古帖』にあるようである。これは、「れいとうかくしゅうこちょう」と読んで、摂津国菟原郡住吉の豪商吉田家の幕末期当主たちに集古の趣味があり、藤貞幹や穂井田忠友と関わって集めた品々をあるいは貼り付け、あるいは写していたという。そのうち、写しをまとめた帖がこの『集古帖』で[5]、2004年に臨川書店から購入したらしい。貼り付けたほうは、反町茂雄が一度取り扱ったようで、述懐のなかに現れている[6]。流出した経緯や吉田家の今を知らないが、近代のうちに処分されていたのであろう。原資料の目録が作られており、khirinの各原資料の詳細ページから目的の画像にすぐアクセスすることができる。これは、2017年度からの歴博における共同研究の成果のひとつのようで[7]、来年度まで継続されるということであるので、今後のさらなる充実が期待される。

この『集古帖』は、IIIFで公開されており、事前に画像リストが組み込まれたMiradorも提供されている[8]。勝手な妄想ではあるが、現在設計が進められているIIIF Presentation API 3あるいはそれ以上のバージョンで、画像への注釈や「リンク化」がよりいっそう容易になった未来において、現在は目録からの一方通行であるところが、目録との連環が生まれ、そこにさらに利用者の「勝手注釈」が増えていくことによって、あたらしい解釈の生まれる場が開けてくるのではないか—そのような可能性を感じさせるシステムであった。

[2] 聆涛閣集古帖 嚢匣 | Knowledgebase of Historical Resources in Institutes https://khirin-ld.rekihaku.ac.jp/rdf/nmjh_kanzousiryou/258293
(多賀城碑ならびに釈)(写、天平宝字六年十二月一日) | Knowledgebase of Historical Resources in Institutes https://khirin-ld.rekihaku.ac.jp/rdf/nmjh_shuko/H-1660-12-10
[3] 注[1]参照。
[4] khirinについて – 国立歴史民俗博物館 総合資料学の創成 https://www.metaresource.jp/about-khirin/
[5] 聆涛閣集古帖について – 国立歴史民俗博物館 総合資料学の創成 https://www.metaresource.jp/about-shukocho/
歴史系総合誌「歴博」第130号|バックナンバー|歴史系総合誌「歴博」|刊行物|歴博とは|国立歴史民俗博物館
https://www.rekihaku.ac.jp/outline/publication/rekihaku/130/witness.html
[7] 平成29年度共同研究|共同研究|研究活動|研究|国立歴史民俗博物館 https://www.rekihaku.ac.jp/research/list/joint/2017/reitoukaku.html
Copyright(C) OKADA, Kazuhiro 2018- All Rights Reserved.

《連載》「欧州・中東デジタル・ヒューマニティーズ動向」第4回

ゲッティンゲン大学でのデジタル・ヒューマニティーズとコーパス言語学の授業を担当して

宮川創ゲッティンゲン大学

7月20日、私はゲッティンゲン大学の「エジプト学・コプト学におけるデジタル・ヒューマニティーズの研究方法への入門」(Einführung in digitale Forschungsmethoden der Digital Humanities (DH) in der Ägyptologie und Koptologie)という様々な講師が講義を受け持つ科目にてドイツ語による1講義を担当した。私の講義のタイトルは「コーパス言語学のツールを用いた、テクストおよび語の分析」(Text- und Wortanalysen mit korpuslinguistischen Tools)というタイトルである。

最初は、複数のテクスト間の引用や引喩を発見するテクスト・リユース探知プログラムのTRACER(https://www.etrap.eu/research/tracer/)や多層コーパスのプラットフォームのANNIS(http://corpus-tools.org/annis/)の使い方を教えるつもりでいたが、 リレー講義のオーガナイザーに、完全に初心者の学部生でも楽しめるものにするように言われたので、まずはWordArt.com(https://wordart.com/)などでワードクラウドを作った後、Voyant Tools(https://voyant-tools.org/)を試しみて、その後、ANNISを学ぶ、という順序を提案したら、快く受け入れてもらった。なお、私が授業で使ったウェブ・スライドやレクチャーノートはhttp://somiyagawa.github.io/Unterrichten/で公開している。ちなみに、Voyant ToolsとANNISはダウンロードすれば、ネットに繋がっていなくても、ローカル環境で使用可能である。

WordArt.comというのは、ワードクラウドを作るサイトで、フォントをコプト文字や、私たちがSINUHEプロジェクトで開発している、グループライティングが可能なヒエログリフ・ユニコード(http://somiyagawa.github.io/SINUHE-the-Hierotyper/)、また、楔形文字のユニコードフォントにも変更できるため、エジプト学コプト学のデジタル・ヒューマニティーズ入門、という授業タイトルにもってこいである。また、クラウドの中の語単位で微調整ができたり、クラウドの色や形を変えることができる優れものである。 授業でワードクラウドの形をハート型に変えたりして遊ぶ予定である。おそらく読者のかたはほとんどがワードクラウドについて存じ上げていると思うが、ワードクラウドは、テクスト・コーパス内から使われている語(タイプとトークンの区分では、タイプ)を抽出し、頻度が高い語を大きく、低い語を小さく、雲状に配置したものである。

イスラエルのハイファ大学のDHプログラムで働いているシナイ・ルシネック(Sinai Rusinek)や、ライプチヒ大学のThe Humboldt Chair of Digital Humanitiesで助教として働いているモニカ・ベルティ(Monica Berti)などから話を聞くと、大抵入門の授業ではVoyant-Toolsの用い方をレクチャーするようである。 私もVoyant-Toolsを授業で使った。Voyant Toolsに関しては、多くの方がご存じであろうが、マギル大学のステファン・シンクレア(Stéfan Sinclair)とアルバータ大学のジョフリー・ロックウェル(Geoffrey Rockwell)が開発したオンライン上で動くコーパス分析ツールである。私は以前は、PythonのNLTK、Pandas、NumPy、SciPyなどを組み合わせて様々なコーパス分析、およびグラフの作成などを行なっていたが、Voyant Toolsでは、テクストボックスにコーパスを貼り付けて、解析のボタンをクリックするだけで、10種類以上の多種多様な解析結果を得ることができる、大変ハンディーなツールである。このVoyant Toolsには、東京大学大学院人文社会系研究科の次世代人文学開発センター人文情報学拠点で提供する人文情報学概論の一環として大学院生たちによって作られた日本語インターフェイスもある。

最初に表示されるのは5つのパネルであり、それぞれのパネルには5つの解析結果が表示されており、パネルのタブを切り替えることで他の2-3の解析結果にそれぞれのパネルで切り替えることができる他、一番右下のパネルのウィンドウズのロゴにそっくりなボタンを押すと、他のマイナーな解析結果も全て表示することができる。

Voyant Toolsも左上のパネルでワードクラウドが作成されるが、こちらはWordArt.comなどとは異なり、ドイツ語などよく使われている言語の場合、代名詞、前置詞、冠詞、接続詞などの機能語は通常頻度が多いと考えられているため、ストップワードとして除去される。WordArt.comで生成した『ヴェニスに死す』のワードクラウドでは、定冠詞や前置詞、代名詞など機能語の多さが目についたが、ストップワードが除去されるVoyant Toolsでは、作品のキーワードが多く表示される。 この授業では、まずは、トーマス・マンの『ヴェニスに死す』をサンプル・データとして用いた。この作品の場合、最も頻度が高い語は、主人公の姓であるAschenbachであった。また、Stadt「街」、Meer「海」、Venedig「ヴェニス/ヴェネツィア」も頻度が高くワードクラウドに載っており、これらからどのような場所が舞台になっているか、想像がつく。また、Aschenbachが恋をするTadzioという主要人物の少年の名もこのワードクラウドの中に入っている。しかしながら、ging、sahなど一般的な動詞もある。確かに、この小説ではAschenbachがTadzioの後を付け回すので、このような単語が頻度が高いと言われれば、頷ける。また、Aschenbachとのコロケーション分析で、共起するものとして多かったのが、彼のファースト・ネームのGustav、また、彼が執心していたTadzio、そして、augen、gut、gingなどであった。

その他の機能、例えば、コロケーションの分析や、作品を均等に切ったセグメント毎の頻度なども大変便利である。最も目を引くのが、そのヴィジュアリゼーション(見える化)の多様さである。授業では、特にTermsBerry、Mandala、Knotsなどが好評であった。これらのヴィジュアリゼーションは次のヘルプのページで概観することができる(https://voyant-tools.org/docs/)。

WordArt.comとVoyant Toolsを学生に試してもらった後は、ANNISについて説明した。ANNISはフンボルト大学ベルリンに設置されていた、ドイツ研究振興協会(DFG: Deutsche Forschungsgemeinschaft)が出資する共同研究センター(Collaborative Research Centre)/特別研究領域(Sonderforschungsbereich)632 “Information Structure: The Linguistic Means for Structuring Utterances, Sentences and Texts”で開発された、ウェブ・コーパスのプラットフォームである。 私のCoptic SCRIPTORIUMコプト語コーパス開発プロジェクトのボスの1人である、ジョージタウン大学の助教のアミール・ゼルデス(Amir Zeldes)がこのANNISの主要な開発メンバーの1人である。ちなみに私の雇用主は直接的には共同研究センター(Collaborative Research Centre)/特別研究領域(Sonderforschungsbereich)1136であるが、これは英語の正式名称とドイツ語の正式名称が異なることが特徴である。ドイツ研究振興協会が出資する最長12年存続される研究所である。

Coptic SCRIPTORIUMでは、データは全てXML、もしくはSGMLベースで作られているが、バックグラウンドではPostgreSQLが動いている。XMLを用いた多層構造のアノテーションが可能である。例えば、私が働いているCoptic SCRIPTORIUMのコプト語のコーパスでは、ダイアクリティカルマークや句読点を除いた(normalizedされた)表示の層、これらの記号ありの写本の通りの表示の層、コプト語は機能語が内容語にくっつけて書かれるので、語ごとの表示の層、Coptic Dictionary Onlineにリンクされており、クリックするとこの辞書における意味が表示されるレンマの層、品詞の層、一部のコーパスでは、Universal Dependencyに基づいた統語樹の層(ツリーバンク)、 また、ページ、コラム、行などのそれぞれの文献学的情報の層、写本のIDの層など、多層構造になっている。現代語のコーパスであれば、動画や音声の層も含めることも可能である。また、コプト語にはギリシア語などからの外来語が多いが、language of originの層もある。新たな層を作るときは、XMLにて新たなタグを付けて、層の内容をタグ内のattributeと結び付けられているvalueに書けばよいだけである。Coptic SCRIPTORIUMは、EpiDocという(西洋)古典文献学用(元はその中でも碑文学用)のTEI XMLの標準形式を用いているが、TEI XMLに準拠していれば、SaltNPepperというコンバーターを使って、ANNIS専用の形式に変換して、ANNISにインポートできる。このようにANNISは大変柔軟なプラットフォームである。

ANNISは、検索面でも、ANNISクエリ言語を用いて、語、レンマ、句、品詞、構文、統語関係、借用語、列、行などかなり複雑な関係を指定して、検索することも可能である。例えば、pos=“N” .1,3 pos=“V” _=_ lang=“Greek”ならば、名詞の後ろに3語以内にギリシア語から借用された動詞が来るという構造であり、この式を検索ボックスに入力して検索することで、コプト語の諸コーパス(コーポラ)におけるこの特定の構造を検索することができる。

現在は、Universal Dependencyに基づいた統語樹を書くためのArborator(https://arborator.ilpga.fr/)、情報構造を書くためのWebAnno(https://webanno.github.io/webanno/)など、また現代語ならば、フィールド言語学の言語記述で、音声や動画を書き出し、グロスなどアノテーションを施すのによく用いられるELAN(https://tla.mpi.nl/tools/tla-tools/elan/)など、他のアプリと提携している。

授業には10人ほどの学生が来てくれた。これまでは、いくつか英語で授業を行ったことはあるものの、ドイツ語で授業を行うのは大学では初めてで多少緊張したが、ドイツ語話者にレクチャーノートを添削してもらったりなどして準備に多くの時間をかけた甲斐もあって、よく理解してもらったようであり、こちらからの指示や練習問題も全員がうまくこなせた。 また、いくつか的を射た質問を生徒からもらい、学部生が多かったが、大変優秀な生徒たちであると感心させられた。2時間という短い時間ながら3つのツールを使えるようにするという密な講義であったが、これらのツールが使えるようになって良かったと嬉しいフィードバックを生徒たちからもらった。

Copyright(C) MIYAGAWA, So 2018- All Rights Reserved.

Tweet: