ISSN 2189-1621

 

現在地

イベントレポート(1) デジタル学術研究に関するシンポジウム@ライデン大学図書館

◇イベントレポート(1)
デジタル学術研究に関するシンポジウム@ライデン大学図書館
 (ジョナサン・シルク:ライデン大学、永崎研宣抄訳)

 2014年9月22日、ライデン大学図書館にて、中国史学のHilda de Weert教授(訳者
注:同教授は、ライデン大学着任前は、キングスカレッジ・ロンドンにおいてDHの
研究を行っていた。)がチェアとなってデジタル・ヒューマニティーズ(DH)のセ
ミナーが催された。ここでは、同大学の仏教学研究者であるJonathan Silk教授のメ
モに依りつつ、このセミナーの模様を報告したい。なお、講演資料が
http://www.library.leiden.edu/teaching-researching-publishing/manage-you...
に掲載されているので、詳細についてはそちらも参照されたい。また、本内容につ
いて誤りがあった場合には、抄訳者の永崎の責任としてご了承いただきたい。

 セミナーは、3つの発表と短い全体討論で構成されていた。参加者はテクストを扱
うプログラムについての短い発表とGISに関するものとの二つのグループに分けられ
ていた。筆者はテクストを扱うプログラムの方に参加した。

 このメモは包括的なものではないが、登壇者達が言おうとしていた重要ないくつ
かのポイントに焦点をあて、それらが、いくつかの点で、我々がなすべきことから
いかに離れているかを明らかにしている。そして、一方で、ツールの制作者と利用
者との間の、潜在的な利用者との、そして、ツール制作者同士の、より重要なコミ
ュニケーションの明白な必要性についても焦点を当てている。中心的な情報センタ
ーのようなものがまったく欠けているために、多くの人々が、協力し合うことなく、
同じ、もしくは似たような問題に自ら取り組もうとしているように見える。何度か
明らかになるように、問題の一つは、助成金の仕組みにおいて長期的視点のような
ものが見られないということであり、たとえ将来に向けて最善でなくても必ずしも
柔軟でなくても、とにかく何かをすればよいという勢いになっている。同時に、図
書館は多かれ少なかれ、自らを旧態依然とした資料の管理機関と見なし続けている
実際のところ、彼らは、資料を保護し保存し自由に利用できるようにすべく熱心に
働いている。これは必然的なスタート地点だが、保存する側と活用する側とをより
統合していく必要がある。図書館が非常に関心を持っていることの一つは、IPRだが、
この会議では、彼らがそれをどう扱おうとしているのか、よく見えなかった。

 冒頭の話題はライデン大学図書館長のKurt De Belderが提供した。彼は、大学に
とってのDHの重要性を強調するところから始め、次のように問うた。「デジタル学
術研究(Digital Scholarship)とは何を意味しているのか?」彼の答えは、デジタ
ル資料の利用と作成を含むものであり、図書館のためだけでなく研究者のためのも
のでもある、ということだった。ここでは、「文化の分析」と交換できるデータ
(商用のもので利用はできなくても良い)にも注意を払う必要がある。莫大なデー
タセットがデータと分析についての我々のアプローチを変えることになる。図書館
は分析し視覚化するためのツールの利用可能性について考えなければならない。

 量的な研究(たとえば、小説等の書かれたテクストにおける「ik」(オランダ語
の第一人称)の登場回数を数えることは、文体分析の一種であると言える)

 1980年代には、Keith Bakerは『フランス革命の発明』において、いかにして「世
論」が形成されたかに注目した。DHが発明される以前に、彼はテクストのコーパス
を活用し、いかにして「意見」が「世論」になったかを観察した。こういったもの
は、オントロジーを用いない、未発達な検索の時代であった。たとえば、KWIC
(Keyword in Context)検索のような。

 将来的には、図書館の役割は、パートナーシップにあり、研究者達自身のパート
ナーシップを促進するところにもある。

 次の提題者は、大学図書館のIsabel Brouwerであり、テクストとデータマイニン
グについて語った。

 Brouwerは、テクストとデータマイニングに対して図書館が提供できる支援として、
データの選別が重要であるとした。また、同様に重要なものとして、権利処理とGIS
を挙げていた。その他、この講演のなかで指摘されていたいくつかの点を挙げると、
ライデンではテクストマイニングは概ね生物学の分野で行われていること、出版社
のライセンスによる制限があること、EUはデータベースの活用を推奨していること、
などがあった。そして、図書館が果たし得る役割として、テクスト自身を豊かにし、
ツールを作成し、コレクションやコーパスとその教育、知的財産権とライセンスに
ついて助言することを挙げた。そして、図書館は、DHにおける協働のために、物理
的にも仮想的にも基盤としての役割を果たすことができるとした。

 Adriaan van der Weelは「知の秩序」という表題の講演を行った。彼の指摘する
ところによれば、書物の世界に閉じられた知識が、検索可能になり、統計的に扱う
ことも可能になり、今や、精読と遠読(distant reading)の両方の手法ができるよ
うになっている一方で、オープンアクセスやプレプリントといった形で出版文化に
も変化が現れている。また、すでになくなってしまったものだが、Electronic
Text Center Leiden(ETCL)についての紹介も行われた。さらに、知の働き蟻とい
う新しい階層の存在、実証主義的でない、より伝統的な研究の位置づけが低くなっ
ていること、コンピュータおたくと古典的な人文学研究者の間に溝が生じてきてい
ること、「フリーな」知識が評価されないこと、といった問題を指摘した。

■Arno Knobbe 中世・近代初期文書の記録の関連づけ

 この発表は、2012-13年にかけて、欧米8カ国合同研究助成金「Digging into
Data Challenge http://diggingintodata.org/ 」による助成によって進められた
「ChartEx http://www.chartex.org/ 」というプロジェクトに関するものであり、
ライデン大学とブライトン大学、ヨーク大学、コロンビア大学、ワシントン大学、
トロント大学によって実施されたということである。その内容は、自然言語処理に
よるデータマイニングを活用した、中世の権利書(Charter)の分析であった。主な
対象となったのは、1950年頃にラテン語から翻訳された現代英語訳の短い文書だが、
これらは900年から1400年のものであり、ほとんどはイングランドのヨークからもた
らされた。元のラテン語の方がより豊富な情報を得られるのは確かだが、自然言語
処理では英語の方が簡単に扱えるので英訳を利用したことをKnobbeは認めていた。
課題としては、まったく構造化されていない自然言語であり、名字という概念がな
く人物同定が困難であること、番地の情報がないこと、スペルの仕方が様々である
こと、が挙げられていた。自然言語処理は、会話や言い回しの同定には使えるが、
自然言語からセマンティックWebへの移行が望まれているということであった。人と
記録の関連づけに関しても自然言語処理で試行したということだった。

■Peter Verhaar コンピュータによる批評:詩の解釈のための量的手法の活用

 英語詩とコンピュータによる批評に取り組んでいるVerhaarは、自身の博士課程で
の研究について語った。彼は、小さなテクストの研究から、マクロ分析である遠読
(distant reading)と機械読書への取り組みにまで触れた。精読と遠読はテクスト
の異なる側面に焦点をあてるものであり、後者は事実に関する問いを研究するもの
である。彼の研究は、Louis MacNeiceの詩に着目していた。

 テクストマイニングのツールは、批評によって生み出されるのと同じようなもの
を生み出すことができるのだろうか。こうった手法で、我々は、リズムや韻律、頭
韻等を研究することができる。統計的分析にあたっては、MorphAdorner
http://morphadorner.northwestern.edu/ 等のアプリケーションがある。発音情報
に関しては、MRC Psycholinguistic Database http://www.psych.rl.ac.uk/ が用い
られた。視覚化については、PerlやPython等で行われ、頭韻等に関する異なるパタ
ーンが見つかった。ただし、人の目での批評はまだ必要とされているということで
あった。

■Steven Claeyssens王立図書館における研究者のためのデータセット

 1980年代には、カードをデジタル化するプロジェクトがあり、それがメタデータ
となった。現在ではスペシャルコレクションのデジタル化に取り組んでいる。テク
ストの大規模デジタル化、ある程度構造化されたテクスト(OCR)、さらなるメタデ
ータからオンライン目録、という流れである。すでにスペシャルコレクションやそ
の他の資料(議会議事録)のための専門のWebサイトが存在している。新たな包括的
なWebサイトとして「Delpher」がある。ここでのデータセットは、手稿、新聞、初
期のオランダの本、議会議事録、定期刊行物等である。目標となっているのは、API
を提供し、大量の資料を入手し、それを「可能な限りオープンに」することである。
後者については、何らかの(たとえば存命の著作者の)データをオープンにするこ
との困難さに対する法的な挑戦にも言及していた。詳しくは、 http://polimedia.nl/
を参照されたい。ここでは、ニュースやニュース放送、定期刊行物、メディアにお
ける議論などがある。今後の計画や課題としては、kb.nl/labでは、まだベータ版だ
が、利用者がデータで「楽しむ」ためのツールがある。また、データを豊富にしつ
つリンクしていくこと、データを増やすこと、著作権、OCRの訂正、などがある。17
世紀の新聞のOCRデータの修正は、アムステルダムのMeertens研究所とともに行って
いる。

■Martijn Storms 場所についてのすべて:現在と未来の地図のデジタル目録作成

 ライデン大学図書館には約10万枚の地図がある。目標の一つは、ジオリファレン
ス(地図的な画像をGISの地図画面上に取り込んで同じ座標位置に重ね合わせること)
によって地図をリンクすることであり、これは、地図の目録作成をするための新し
い手段である。ライデン大学には、王立熱帯研究所(KIT)の地図(
http://www.library.leiden.edu/special-collections/colonial-collection-ki...
)と王立東南アジア・カリブ研究所(KITLV)の地図(
http://www.library.leiden.edu/library-locations/university-library/unive...
)がある。図書館の地図は6万から10万に増えた。三つのコレクションのデジタル版
はまだ統合されておらず、インターフェイスも異なっている、検索の仕方も違って
いる。KITの資料は、かなり以前に構築されたものだが、より先進的であり、ほとん
どはジオリファレンスができている。そして、素晴らしい閲覧ソフトを提供してい
る( http://maps.library.leiden.edu/apps/s7 )。

 課題としては、1つの入り口を作成すること、複数の地名を関連づけること、出版
物や図面、写真にジオリファレンスを付与すること、そして、ボーンデジタルな地
理データセットへのアクセスを提供すること、である。

 他に、関連するプロジェクトとしては、大英図書館によって開発されたジオリフ
ァレンスツール、David RumseyのOld Maps Online、データレイヤーを選んでダウン
ロードできるようになっているVU Geoplaza、他、様々なものがある。また、王立図
書館では、今のところ十分にオープンになっていないAPIを、よりオープンにするこ
とに取り組んでいる。

■Peter Verhaar テクスト解析と視覚化:ツール概観

 再び、Verhaar氏の登壇である。ここでは、テクスト解析と視覚化に際して、技術
的なスキルがない研究者でも利用できる多くのツールが紹介された。以下、いくつ
か見ていこう。

・DiRTは、ツールのリストである。
・アルバータ大学のTaporも、同様にツールのリストである。
・DH Commonsには、ツール作成者が集まっている。
・Voyant-tools.org は、リッチで洗練されたツールセットである。

 大学図書館では、テクスト解析ツールに焦点をあて、サポートが続けられている
オープンソースのツールをリストし、機能やフォーマットを分析したりしている。

 また、語彙についての研究としては、テクストを任意の単位に分割する必要があ
る。「type」は使用した語彙数であり、「token」は延べ語彙数である。単語の頻度
情報は、著者の特徴を表す。不変化辞等のストップワードを除外するという点は興
味深い。typeとtokenの比率は、グラフに表示することができる。テクスト解析は、
一つのテクストの新しい側面を明らかにすることができるが、こういったツールは、
時としてプロジェクトに特有の仮定に基づいたものであることがある。しばしば、
自分自身でカスタマイズしたり新たに構築したりしなければならないことになる。

■Morana Lukac,コーパス言語学の解析・比較ツールWmatrix

 Lukac,は、Wmatrixについて発表し、デモを行った。これは、コーパス言語学に関
するもので、オンラインでもアクセスできるようになっている。 (
http://ucrel.lancs.ac.uk/wmatrix/

 頻度リスト、用語索引、キーワード、アロケーション、といったコーパス言語学
に必要な機能を備えており、品詞タグや意味論的なタグの追加もできるようになっ
ている。さらに、文法的範疇や意味論的な領域にキーワードを追加することもでき
る。仮説に基づく操作は「問い⇒構築⇒引用⇒検索⇒解釈」という流れであると言
えるが、これはデータに基づく操作であり、構築が最初に行われる。一つのキーワ
ードが、すべての関連するコーパスと比較されることになる。(たとえばBritish
National Corpusのように)。ここでは、タガーのCLAWSと意味論的解析システム
USASが紹介された。このデモは、発表者の最近の研究に限定されたものであった。
発表者は英語でしか利用できないとしていたが、あまりこのツールに詳しくないよ
うで、見たところ、オランダ語、中国語、イタリア語、ポルトガル語、スペイン語
でも利用できるようだった。

■討論:図書館の役割

図書館長Belder氏は、デジタル化を進めていきたいと述べた。全体として、午後の
議論は、図書館司書の関心事に限定されたものであった。しかし、同時に、重要な
疑問の一つとして、図書館はどのようにしてDHを支援し得るのか、という疑問が扱
われていた。筆者が考えるに、これは、図書館の側からのオープン化への良いサイ
ン、一つの始まりである、と考えるのが最良だろう。

特殊文字
セディラつきc: c,

Copyright(C)Jonathan Silk 2015- All Rights Reserved.
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

Tweet: