ISSN 2189-1621

 

現在地

DHM 057 【前編】

2011-08-27創刊                       ISSN 2189-1621

人文情報学月報
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄Digital Humanities Monthly

             2016-04-29発行 No.057 第57号【前編】 628部発行

_____________________________________
 ◇ 目次 ◇
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

【前編】
◇《巻頭言》「言語学とコンピュータ」(山元啓史:東京工業大学)

◇《連載》「Digital Japanese Studies寸見」第13回
 「リンクトデータでデジタル日本学はどこにつながってゆくのか」
 (岡田一祐:東京外国語大学アジア・アフリカ言語文化研究所)

◇《特別寄稿》
 「OMNIA:膨大な芸術作品を探索するためのオープンなメタデータの活用」
 (Niall O'Leary:独立系開発者)
 (日本語訳:永崎研宣・人文情報学研究所)

【後編】
◇人文情報学イベントカレンダー

◇イベントレポート(1)
リヨン高等師範学校講義「中世手稿のデジタル編集」参加記
 (長野壮一:フランス社会科学高等研究院博士課程)

◇イベントレポート(2)
「Research Data Alliance第7回総会」参加報告
 (池内有為:筑波大学大学院図書館情報メディア専攻博士後期課程)

◇イベントレポート(3)
「デジタル時代の人文学再生」参加報告
 (菊池信彦:国立国会図書館関西館)

◇イベントレポート(4)
国際シンポジウム「Memory, the (Re-)Creation of Past and Digital Humanities
-記憶、過去の(再)創造とデジタル人文学-」
 (安形麻理:慶應義塾大学文学部)

◇イベントレポート(5)
東アジア図書館協会(CEAL)・北米日本研究資料調整協議会(NCC)2016年次集会
参加報告
 (江上敏哲:国際日本文化研究センター図書館)

◇編集後記

◇奥付

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
【人文情報学/Digital Humanitiesに関する様々な話題をお届けします。】
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
◇《巻頭言》「言語学とコンピュータ」
 (山元啓史:東京工業大学)

 特別なことがない限り、論文以外の文章は書かないことにしています。もちろん、
巻頭言を書くのははじめてです。論文ではないことをいいことに、今までボツにな
った本の内容について書くことにしましょう。

 今まで本を出版しようとして、ボツになった企画が2つあります。1つはコーパス
言語学の入門書シリーズの1冊で、これは依頼された原稿でしたが、ボツになりまし
た。もう1つは東工大の学生のために書いた言語学の教科書でした。

 コーパス言語学の本は概論的なものを依頼されました。それを私はコーパス言語
学概論と勝手に勘違いして、書き進めていきました。編集の方からは読者はWindows
を使っていることを前提に、との注文はありましたが、私自身Windowsを使わないこ
ともあって、Linuxのコマンドやパイプ、簡単なスクリプトを中心に説明したテキス
ト処理の原稿を書きました。Windowsであっても、cygwinを使えば大差ないと思った
からです。しかし、Windows前提でないと本は売れないとのことでNGでした。「ディ
レクトリとは」「ファイルとは」「OSとは」などのコンピュータの基本用語を説明
するように、と書き直しを告げられました。それらを説明した本はたくさんあるの
で、私自らがボツにしました。GUIのメニュー表示や用語が変わることはあっても、
UNIX由来のコマンドはずっと変わらないし、何をしているのかが、わかりやすいの
で、その方が息の長い記事になると思ったのですが、編集者さんはそうは思わなか
ったようです。

 とにかく、テキスト処理は、手を動かさないことには、何も始まらないので、そ
の本には次のような例題と練習を載せました。

  1.例題:文の長さのデータの平均値を求めよ。
  2.例題:任意の用語の文脈がわかるようにリストを作れ。
  3.例題:前後の文脈がわかるように文字順に並べ替えよ。
  4.例題:形態素解析器をインストールして、使ってみよ。
  5.例題:形態素解析器を使って名詞だけを選び出せ。
  6.例題:単語の頻度を計算せよ。

 コマンドの基本的な原理を説明した上で、どのコマンドを使い、どのプログラム
を組み合わせれば、自分の意図する出力が得られるか、考えてもらう演習です。こ
れの行き着く先は、いわゆるシェル芸というものです。シェル、キーボード・ショ
ートカット、コマンドの組み合わせで、縦横無尽にテキストを料理するってやつで
す。誰もが同じことを考えるもので、この本を書いた後に、「言語処理100本ノック」
http://www.cl.ecei.tohoku.ac.jp/nlp100/ )というものがあるのを知りました。
私の方向性は間違ってはいないことはわかりましたが、同時にいまさら私が書く必
要もないなぁとも思いました。

 さて、もう1つのボツになった本は、「みんなで考える言語学」と題する教科書で
す。どうせ出版されないのだから「言語学の素」という調味料に似た題名をつけた
こともありました。この本は東工大の大学院生に向けた授業が元になっています。
ある出版社の担当者さんが「下書きでも良いので内容を見せてほしい」というので、
お見せしたところ「オーソドックスな言語学でない」との返答でやんわり断られま
した。日本語教育能力試験などの検定試験対策になりそうなものを期待したのかも
しれません。

  ・1章「ウィトゲンシュタインと言語ゲーム」
  ・2章「チューリングとチューリングマシン」
  ・3章「ジップとジップの法則」
  ・4章「ダニエル・ジョーンズの18の基本母音」
  ・5章「ソシュールと記号論」
  ・6章「フィルモアと格文法」
  ・7章「チョムスキーと生成文法」

 確かに「オーソドックス」ではありません。ウィトゲンシュタインからはじまる
言語学の教科書なんてありません。ウィトゲンシュタインは哲学者。チューリング
は数学者。ジップでやっとトークンを取り扱うので言語学かな?とも。ダニエル・
ジョーンズ(マイフェアレディのヒギンズ博士のモデル)が出てきたあたりから、
言語学のようには見えます。音韻論を教えるのにダニエル・ジョーンズを出す教科
書はほとんどないでしょう。たとえば、かの有名なGeorge YuleのThe Study of
Languageの索引でも、“Jones, Danel”の索引項目は見られません。おおむねアメ
リカの大学の教科書は版を重ねて、演習問題をどんどん新しくしていきます。演習
問題はさまざまな観点から入れ替えられます。もっと勉強したい人のための
Further Readingsのリスト差し替えも頻繁です。どんどん版を重ねるので、古い版
は面白いくらい安く入手できます。この本の第3版は380円(新品)でアマゾンから
購入できます。

 なぜオーソドックスでない構成になったのか?これにはいろいろな理由がありま
すが、一番の理由は、対象が東工大の大学院生だったということです。数理、計算、
物理、化学などの専門家ではあっても、言語学は決して彼らの専門ではありません
し、彼らも言語学を自分の専門として勉強しようとは思っていません。こういう学
生に「そもそも言語学とは」などと紋切り型で授業をはじめても眠くなるばかりで
す。言語学の知識はなくても、授業初日から、ディスカッションがしたくなるよう
な授業を考えました。自分が話すことばと比べながら、「言語学の歩み」を教師が
語るのではなく、ディスカッションによって学生さん自身に考えてもらう授業にし
ました。

 どの章にも簡単な紹介・導入を記載しましたが、それ以外は「演習問題」です。
これを3、4名のグループで「ああだ」「こうだ」とディスカッションしては、それ
をグループごとに発表していきます。

 たとえば、1章の演習問題(言語ゲーム)は、

   「私が通りかかったとき、すでにゲームは進行中だった」の「私が通りかか
   ったとき」を「私が生まれたとき」に、「ゲーム」を「言語」に言い換えた
   ら、言語とはどんなものと言えるだろうか?
   チェスや将棋、ポーカーのルールを知らなくても、見ているうちにそのルー
   ルがわかり、なんとなくゲームに参加できるのは、なぜだろう?

などです。人間が生まれたとき、すでに言語は存在し、いつのまにか、人間はその
ルールを身につけ、それに参加し、それを発展させ、死んでいく。そして、つぎの
世代の人間がその言語を使い、少しずつじわじわ形を変えていく。確かに言語は人
間の口から出たものですが、人間が作ろうと思って作ったものではありません。何
らかの力学によって、自然な仕組みで言語ができてきます。それは常に一定なもの
ではなく、むしろ動的なものです。混沌としているようですが、その形には法則性
があります。どういう例がわかりやすいでしょうか、あまりいい例ではありません
が、たとえば、人間の肘の関節は、内側には曲がるが、外側には曲がりませんよ!
っていうような「なぁんだ」というような法則性です。その「なぁんだ」というも
のが本当は何であるのかがよくわからないので、それを見つける研究をしているの
ですね。

 2章の「チューリングマシン」では、

   日常に見られるテープとヘッドに似たものを見つけて、それのどの部分がテ
   ープ、ヘッドに当たるかを述べよ。

というものです。ここでは、得体のしれない言語というものを、記述するには具体
的に何をすればいいのか、そもそも記述するとはどんなことかなどを話し合います。
言語もリニアなものであり、その抽象的な姿を整理するには計算機モデルが役立ち
そうだというお話しです。

3章ではジップの第二法則を紹介し、

   人名の出現頻度、新聞記事に見られる単語の頻度がそれに従うのはなぜでし
   ょう。また言語だけでなく、他の自然界にも見られるのはなぜでしょう。

と問いかけます。たとえば、人口の多い都市の数は少なく、人口の少ない町や村は
めちゃくちゃ多い。ガラスの割れた大きい破片の数は少ないが、だんだん小さくな
っていって、粉々になった破片の数はもう数えられないほどたくさんである。ジッ
プ則を通して、単語の分布と自然の摂理にはどういう関係があるのかを議論しても
らいます。実際に今も、なぜそれらがジップ則にしたがうのかはよくわかっていな
いものですから、この議論はそう簡単には終わりません。おそらく、とことんその
理由を説明しなければ気がすまない理系の学生にはうってつけのトピックであった
のでしょう。

 東工大は伝統的に自然言語処理の研究者を多く輩出していることで有名です。そ
の意味では東工大には、言語を扱う素地はあったと言えましょう。2016年4月、東京
工業大学は日本で初めての学部と大学院を一緒にした学院を設置しました。そして、
この4月より東工大では、正式に学士課程の科目名として「言語学」を設け、理系の
学生のための言語学の授業がはじまります。理学・工学を学ぶ新入生の目には、東
工大の言語学はどううつるのでしょうか。まだ始まったばかりです。非常に楽しみ
です。

執筆者プロフィール
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
山元啓史(やまもと・ひろふみ)専門は言語学、言語変化、外国語としての日本語
教育。オーストラリア国立学大学院博士課程修了。Ph. D in Linguistics。1993年
筑波大学文芸・言語学系留学生センター助手、1995年同講師、1997年カリフォルニ
ア大学サンディエゴ校客員研究員、2006年オーストラリア国立大学客員研究員、
2009年東京工業大学留学生センター准教授、2016年東京工業大学リベラルアーツ研
究教育院准教授。著書は、“Japanese A Comprehensive Grammar” Routledge,
「コーパスと日本語史研究」ひつじ書房、などがある。

Copyright (C) YAMAMOTO, Hirofumi 2016- All Rights Reserved.
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
◇《連載》「Digital Japanese Studies寸見」第13回
 「リンクトデータでデジタル日本学はどこにつながってゆくのか」
 (岡田一祐:東京外国語大学アジア・アフリカ言語文化研究所)

 昨年の2015年夏に、パナマのある法律事務所から流出した厖大な機密文書が、そ
ういうもののつねとして、世界各国をにぎわしているが、そこで興味深いのが、機
密が漏洩せぬよう工夫を凝らして作成された文書から、どのように記者たちが情報
を抽出していったかである。国際調査報道ジャーナリスト連合の分析に協力してい
る企業の解説するところによれば[1]、文書から抜き出した情報をグラフ化し、つ
なぎあわせて図式化することで、その背後に隠れたものを暴くことができたという。
ここでいうグラフとは、統計グラフではなく、情報のネットワークのことをいう[2]
。たとえば、ある登記文書に「社名:A、社長:X」とあったときに、「A社の社長:
X」というような関係が描けるが、厖大なパナマ文書を同様に関係化していったとき
に、このXがじつはB社の社長でもあり、かつ名前と住所からI国の首相Yの家族だと
分かったとしたら、また、A社が資産を大量に抱え込んでいたとしたら、どういうこ
とが分かるだろうか。このような関係の整理はひとびとが日ごろ行っていることで
あり、ひとにぎりのものであれば人間の手でも同様の作業はできようが、厖大な資
料のなかから短期間で情報を整理するには、コンピュータにグラフから図式化させ
るのがよいというわけである[3]。

 ここで用いられたグラフは、基本的には、この連載でも何回か触れているリンク
ト(オープン)データと同じものである。リンクトデータのばあいは、複数のひと
や組織が作った、複数の形式のデータを相互につなぎ合わせるというところにちが
いがある。パナマ文書のようにそれじたい厖大なものと違って(それでもそれ単体
では「意味」のあるものにはなりがたいのだが)、日本学でよくある個人や小規模
グループでの研究用のデータであれば、それ単体でグラフ化するのはやり過ぎであ
って、検索をするにしても専用にあつらえたシステムでも作ったほうがよいケース
も多いものと思う。つまり、外のデータとつながること、あるいは将来的につなが
ってゆくことによって、リンクトデータは最大の強みを発揮してゆくのである[4]。
では、2014年現在のリンクトデータのひろがりを図式化したものを見ることができ
るが、これらはすべて一方的あるいは相互にリンクしあったリンクトデータである
(ちなみに、[4]じたいがグラフの図式化の例である)。

 このなかでもっともつながりがあるのは、DBPediaおよびGeoNamesであるのは不思
議ではなかろう。なぜなら、これらのデータはデータ間の連携を促進するためのデ
ータとして機能するからである。DBPediaは、ウィキペディアから抽出した情報を機
械で扱いやすいようにデータベース化したもので、構築したデータにおける固有名
詞がなんであるのか説明するのに便利である[5]。また、GeoNamesも、地理情報を
集成したものであり、同様に利用価値が高い[6]。これらのデータを使用すれば、
たとえば、「東京外国語大学アジア・アフリカ言語文化研究所(情報1)の所在(関
係)は、東京都府中市朝日町一丁目(情報2)」であるというように記述できる[7]
。現今のコンピュータは、人間のことばによって意味を扱えるようにはできていな
い。また、意味をコンピュータ上で扱えるように加工することは単純な作業ではな
い[8]。そこで、既存の複数のデータを利用する価値があり、それによって、情報
量をゆたかにすることができるのである。

 現在のデジタル日本学では、まだリンクトデータを活用する動きは活発ではない。
データベース化そのものは日本学でも行われているが、それを連携してゆくことに
関しては模索状況にあるようである。もし作られたとしても、孤児データセットが
多くできてしまうのが現状のようである[9]。データを相互リンクすることは、デ
ータ構造の設計や、関係を表すための語彙の選択など、一筋縄ではゆかないので、
それじたい一様に非難すべきことではないが、つながってゆく・あるいはつながれ
るようにすることが不可欠であろう。そのためには、たんに欧米の後追いをすると
いうことではなく、すでにそこで分かっている課題について着実に踏まえてゆくべ
きであろう。つながるためには、もしDBPediaやGeoNamesで不備があるならば根幹と
なる参照データセットを、DublinCoreで不満ならば語彙を構築するというそれじた
い難しい課題がある。その参照地点がすでに世界にあるデータセットや語彙と無縁
であるべきではなく、世界とどうつながってゆくか、「日本学統合データセット」
あるいは「日本学統合語彙」は問われるものと思う。また、それと同時にデータが
散逸しないよう公開を維持することも大切である。ひとり日本学だけの課題ではな
いが、データは容易に失われるものであるし、維持が止まるといっときに解読が困
難になるものである。しかし、孤児リンクトデータよりは、外部データや外部語彙
を適切に使ったリンクトデータのほうが、解読は容易であろう。

 野本氏が報告するように、リンクトデータ以前に、そもそもデータ公開形式につ
いて日本の現状には課題が多いように思われるが[10]、データの公開は他者との
交流の手始めであり、その意味で、デジタル日本学におけるリンクトデータ(ある
いはそれに類いする未来の技術)とのかかわりは、デジタル日本学がどこにつなが
ってゆくのかを如実に示すものとなるだろう。

[1]「パナマ文書」解析の技術的側面-Medium
 https://medium.com/@c_z/%E3%83%91%E3%83%8A%E3%83%9E%E6%96%87%E6%9B%B8-%E8%A7%A3%E6%9E%90%E3%81%AE%E6%8A%80%E8%A1%93%E7%9A%84%E5%81%B4%E9%9D%A2-d10201bbe195
[2]正確には、より抽象的に、「ノード(節点・頂点)の集合とエッジ(枝・辺)
 の集合で構成される」ものをいう。グラフは抽象的なものであって、それを絵に
 描く方法はいろいろとある。 Wikipedia contributors、 "グラフ理論"
 Wikipedia、 https://ja.wikipedia.org/w/index.php?title=%E3%82%B0%E3%83%A9%E3%83%95%E...
 (accessed April 18, 2016).
[3]なお、パナマ文書のデータセットは、下記サイトにてアゼルバイジャン首相に
 関するデータが部分的に公開されており、今後さらに公開が進むとのことである。
 The PanamaPapers - Example Dataset President of Azerbaijan - Neo4j
 GraphGists http://neo4j.com/graphgist/b0502991-9a6e-4404-896a-a80a14098e98#listing_...
[4]The Linking Open Data cloud diagram http://lod-cloud.net/
[5]DBpedia http://wiki.dbpedia.org/
 日本語版は DBpedia Japanese http://ja.dbpedia.org/
[6]GeoNames http://www.geonames.org/
 日本語版は GeoNames.jp http://geonames.jp/
[7]下記のようになろうか。
 http://ja.dbpedia.org/resource/%E6%9D%B1%E4%BA%AC%E5%A4%96%E5%9B%BD%E8%A...
 geo:location http://geonames.jp/resource/%E6%9D%B1%E4%BA%AC%E9%83%BD%E5%BA%9C%E4%B8%A...
[8]たとえば、このスライドでは、既存のデータをどのようにリンクトデータにす
 るか説明がある。 LODI/Linked Open Data連続講義 第1回「オープンデータから
 Linked Open Dataへ」 http://www.slideshare.net/takeda/lodilinked-open-data-1linked-open-data
[9]たとえば、日本学関係というわけではないが、リンクトデータのリポジトリ
 のひとつであるLinkDataのデータクラウドを参照: データ作品一覧|オープンデ
 ータ共有&ダウンロード|LinkData http://linkdata.org/work
[10]野本昌子「Linked Dataと国内のデータ共有の動向」第38回セマンティックウ
 ェブとオントロジー研究会、http://id.nii.ac.jp/1004/00000799/

Copyright(C)OKADA, Kazuhiro 2015- All Rights Reserved.
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
◇《特別寄稿》
「OMNIA:膨大な芸術作品を探索するためのオープンなメタデータの活用」
 (Niall O'Leary:独立系開発者)
 (日本語訳:永崎研宣・人文情報学研究所)

(編集室注:本稿は、ヨーロピアナが日本のデジタルアーカイブの見本の一つとし
て話題になっているにも関わらず実際の活用例については日本ではそれほど広く知
られていないという現状に鑑みて、実際にヨーロピアナを活用して新たなサービス
を生み出し提供している実例を情報共有すべく、アイルランドのDigital
Humanities Observatoryで活躍し、現在もデジタル・ヒューマニティーズや文化遺
産デジタル化といった分野で活動している開発者Niall O'Leary氏に寄稿していただ
いたものです。)

 本稿執筆時点では、ヨーロピアナは、ギャラリー、ミュージアム、そして他の文
化関連機関からの5200万以上の文化資料に関する情報を保持している。写真、絵画、
本、映像、音楽、3Dモデルなど、それはまさにすべてのものに渡っている。個々の
参加機関は、彼らのWebサイトを通じて検索と利用のために公開しているメタデータ
を、ある標準化された形式でヨーロピアナ( http://www.europeana.eu/portal/
に提供している。

 ヨーロピアナのWebサイトは標準的な検索を提供しており、検索結果を絞り込むた
めにユーザが利用できるいくつかのファセット(=絞り込み検索機能)でこれを拡
張している。これらのファセットにはメディア形式、国、言語など(の絞り込み機
能)がある。さらに、いくつかのテーマ性を持ったコレクションに焦点を当てた選
り抜きの展示もある。しかし、ユーザが何か個別のオブジェクトを探し求めようと
したとき、それは、あまりに多くの資料の中に埋もれてしまっているかもしれない。
一連のファセットはこれを支援してくれるが、しかし時々それらはユーザのニーズ
にはよくないものである場合がある。たとえば、「国」と「言語」が、返してくれ
るものはいくぶんか忠実だが、「権利」(あるいは「自分はそれを使うことができ
るか?」)というのはコンテンツの開発者に主に関連するものであるように見える。
一般的なユーザは、ヨーロピアナではちょっと迷う可能性がある。

 幸運なことに、この膨大な資源へのアクセスは、一定のAPI群、Linked Open Data、
OpenSearchやその他の技術を通じて開発者にとっても利用可能である。ヨーロピア
ナを用いた私の仕事は、ヨーロピアナに関するコンテンツのハーヴェスティングを
行うアイルランドの国立のアグリゲータの一人と仕事をした時に始まった。私は、
ヨーロピアナのデータモデルに詳しくなり、利用可能なデータの価値に気がついた。

 私は、アイルランドの文化財を同様にしてとりまとめることを試みたDiscovery
http://discovery.dho.ie/ )と呼ばれる、似たような小規模のプロジェク
トにも従事していた。この最初の経験により、私は私自身のWebサイト、OMNIA(
http://www.omnia.ie/ )を開発することにした。これは私自身の試行錯誤とスキル
セットの向上のためにOpenSearch APIを用いたものである。私は現在、独立した開
発者( http://nialloleary.eu/ )として様々な教育・文化機関と仕事をしている。
そしてOMNIAは、私にとっては、自分が何をできるのかを潜在的な顧客に提示するた
めの理想的な機会となっている。しかし、より大局的に言えば、私は、ヨーロピア
ナ自身のWebサイトで公開されているデータを探したり提示したりするための別の選
択肢があると確信している。

 ヨーロピアナのデータセットとAPIは開発者にとっては強力な資源だ。APIは様々
な多くの機関に由来する膨大なデータを表面的には一貫した形式で利用できるよう
にしてくれる。特にOpenSearch APIは、標準的な形式(JSONのような)で検索結果
を返してくれるものであり、リモートサーバで作業をする手法として開発者には親
しみやすいものである。APIが意味するところは、数百万のオブジェクトを扱うツー
ルが開発可能だということであり、もし個別の機関のために開発されたなら、それ
は不可能だろう。多様な資料を結合することによって、一つの組織で個別に取り組
んでいては不可能な、関連するオブジェクトの偶然の発見が可能となる。

 メタデータに関する比較的オープンな権利は、コンテンツを活用し得る事柄に対
してほとんど制限がないということを意味しており、ヨーロピアナの限定的なデー
タモデルは開発者に対してメタデータを最小限にさせようとしている。簡単に言え
ば、OMNIAはヨーロピアナのこの大量のデータを簡単にナビゲートできるようにする
ことを試みている。そのアプローチのいくつかでは、フィルターを用いてヨーロピ
アナのサイト上でも再現可能だが、しかし、私の思うところでは、ユーザは時々、
あまりにオプションが多いことに恐れを成すことがあるだろう。OMNIAは様々なシン
プルなツールを提示することによってそういった混乱を切り抜けようとしている。
もし一つがだめでも、別のものがおそらく有効だろう。

 オプションの範囲としては、OMNIAは、1.年による検索、2.画像一覧、3.地図
による検索、4.機関の地図、5.国と提供者による検索、を用意している。個々の
ケースにおいて、インターフェイスはユーザの検索内容を把握するのに用いられる。
たとえば、組織名やオブジェクトのサムネイル画像をクリックすることによって、
その名前やオブジェクトの識別番号を用いた問い合わせ式がOMNIAにより作られ、ヨ
ーロピアナに送信される。そして、ヨーロピアナはその問い合わせ式に対する結果
のデータ一式をOMNIAが理解できる形式で返してくれる。そして、OMNIAはユーザに
対してデータを表示するのに必要な部分へとデータをパースする。

 時として、パースされたデータは、同様にして追加コンテンツとしてユーザに返
されパースされ表示されるさらなる情報を得るために、別のシステムでの別な呼び
出しを創り出すのに用いられることもある。いずれの場合にも、ソフトウェアは、
ユーザやユーザが利用しているデバイスにあわせて動的にHTMLとJavascriptを生成
する。

 実際の所、多くのユーザは、それぞれに特定の時代に興味を持っているかもしれ
ない。個々の文化的資料には作成日時があり、それはオブジェクトの検索に利用可
能である。ヨーロピアナが理解できる検索問い合わせ式の一部に変換された日付の
範囲を作り出すために、簡単なスライダーが用いられている。もちろん、オブジェ
クトは、このフィールドが実際に追加されているなら、このやり方で検索されるだ
けではない。ユーザはしばしば視覚的にデータを分析することがより簡単であると
気づく。この点を考慮して、イメージウォールはサムネイル画像の「壁」として結
果を返してくれる。これは、ヨーロピアナの中でもヴィジュアルな要素を持つ多く
のオブジェクトに関しては特に有効である。

 メタデータは一つのサムネイル画像に対して一つのフィールドを持っており、こ
の場合には、イメージウォールはそのフィールドを持っている一群のオブジェクト
のサムネイル画像を表示する。この視覚的なアプローチは地図の利用でも採用され
ている。地名に関するフィールドはデータモデルに存在しており、オブジェクトが
地名を持っていて、それが地理空間座標で表現できるなら、それらの座標はそのオ
ブジェクトを地図上にマッピングするのに用いられる。それらはそのオブジェクト
を見つけ出すのにも利用可能である。ユーザが地図サーチをクリックした時、クリ
ックされた場所の座標に基づいて検索問い合わせ式が構築される。この問い合わせ
式はヨーロピアナAPIに送信され、その範囲にあるオブジェクトが返されてきて、検
索結果が地図上にプロットされる。

 文化的なオブジェクトと同様に、多くの参加組織についての情報や場所もヨーロ
ピアナから検索することができる。そしてその場所も地図上にプロット可能である。
これは、ナビゲーションのためのもう一つのアプローチを表しており、ある機関の
所蔵品を閲覧して一つのオブジェクトを発見する最も簡単な方法の一つである。す
べての提供者のコレクションはその国や組織名によって探索することが可能である。

 オープンソース技術が至る所で活用されている。たとえば、このサイトはサーバ
側ではPHP、クライアント側ではJavascriptを用いて構築されている。Javascriptラ
イブラリのjQueryはスライダーや自動的なページ読み込みなど、クライアント側の
様々な面で用いられている。

 MITが開発したライブラリExhibitは、検索問い合わせ式による検索結果を、タイ
ムラインやタブ表示、地図等を用いてきれいに磨き上げられた小さなサイトに作り
替えてしまうという、さらに便利な機能を提供している。しかし、ナビゲーション
の体験を向上させるのと同様に、このサイトは返ってくる結果をも豊かにしている。
個々のオブジェクトは、タイトル、地名、作者、主題、作成年など、関連するたく
さんのフィールドを持っている。これらの各々は他のシステムやツールに問い合わ
せる際にも用いられる。

 たとえば、タイトル、作者、作成年は、WikipediaのLinked Open Data版である
DBPediaへのSPARQLによる問い合わせの基として用いられている。返されるデータは、
実際に、さらなる情報をユーザに提供するために、そのオブジェクトのページに付
け加えられる。主題は米国デジタル公共図書館(以下、DPLA)への問い合わせに用
いられ、関連するオブジェクト(の情報)が返ってくる。地理空間座標が利用可能
なところでは、オブジェクトはそれを用いて自動的に地図上にプロットされる。オ
ープンソースのツール、Leafletは、マッピングのために用いられている。このライ
ブラリの多くの長所のなかには、ヒット数の数に応じた制限がない、ということも
ある(一定数以上のアクセスに対して後から課金するGoogle Mapsとは異なっている)。

 OMNIAの開発において、ヨーロピアナのデータセットとアプローチにおける多くの
問題が明らかになった。まず、三つの根本的な問題があった。すなわち、フィール
ドがない、名前の付け方が標準に沿っていない、結果が限定的である、という点で
ある。フィールドがないということは避けられない。いくつかのオブジェクトは、
単に、よく知られた地名や作者を持っていない。これを調整するために、OMNIAは単
純に、値がフィールドにあるかどうか、もしあれば、それを使っているかどうかを
チェックする。しかし、それは、地図や作者の経歴のようないくつかの機能がすべ
てのオブジェクトのページに出てくるとは限らないということを意味している。

 さらにやっかいなことに、データが存在するとしても、名前の付け方や用いられ
ているオントロジーに一貫性がない。ヨーロピアナは、たとえば作者名に関して、
特殊なフォーマットのメタデータを送信してくる貢献者達に依存している。作者名
のフィールドは、それ自身では、「姓、名」というフォーマットやその他のルール
に従っていることを要求してはいない。一部のギャラリーでは、「作者」のフィー
ルドに芸術家の生年と没年を、あるいは、その個々の役割までも含んでいることが
ある。たとえば、「彫刻家:オーギュスト・ロダン(1840-1917)」のように。この
ことは、レコード同士の比較を非常に困難にする。それは、DBPedia向けの効果的な
問い合わせ式を作ることも困難にする。

 常に実現できているわけではないが、OMNIAは、作者のようなフィールドを、問い
合わせ式を作る前に正規化することを試みている。しかし、主題の場合には、一貫
したオントロジーがないことは、「PHOTO」と「PHOTOGRAPH」というキーワードを持
つオブジェクトがDPLAから異なる関連オブジェクトを返されるかもしれないという
ことを意味している。

 三つ目の問題は、コレクションの大きさに関わる実用上の問題である。APIでのす
べての問い合わせは、数千の結果を生成することができる。これは、元になってい
るサーバに大きな負荷となってしまう。これを調整するために、ヨーロピアナは、
一つの問い合わせが生成できるオブジェクトを100アイテムまでに制限している。こ
の数を増やすためのプログラミング手法は存在するが、しかし、基本的には、それ
では不格好な開発になってしまう。実際、外部サーバに対するREST-fulな問い合わ
せ式に頼ることは、開発者に対して常に、インターネット接続の慈悲とサードパー
ティの強靱さという限界を与えることになるだろう。

 DBPediaの場合には、たとえば、その非常によく利用されているサービスが落ちて
しまったなら、オブジェクトのページに関連するデータが見つからなくなるかもし
れない。こういった諸々の問題にもかかわらず、このサイトには、利用するに十分
な一貫性と強靱さがある。私が開発者としてベストを尽くすことができる間は、こ
のサイトの検索機能のためにヨーロピアナAPIを用いる場合、その強力な検索エンジ
ンの機能を活用する。

 2016年3月の中旬までは、このOMNIAサイトは「Let's Go Europeana」として知ら
れていたものだった。この改名は、サイトの性格に関する曖昧さをなくすため(こ
のサイトはヨーロピアナによって開発されたことも支援されたこともなかった)だ
けでなく、その情報資源の拡張をするためでもあった。DPLAはヨーロピアナととも
に、オンラインリポジトリを発展させ、APIの利用を通じてデータを利用可能にする
ために活動してきた。結果として、そのデータセットに問い合わせをすることは、
OMNIAがヨーロピアナに問い合わせをする方法と極めて似たものになっているはずで
ある。私の希望としては、そのデータをより完全にOMNIAサイトに統合し、そして、
徐々に、デジタルNZ( http://www.digitalnz.org/ )等の他の情報資源も組み込ん
でいきたいと考えている。OMNIAとは、「すべてのもの」を意味しており、その名に
ふさわしい形で存続していくことだろう。

Copyright(C)Niall O'Leary 2016- All Rights Reserved.
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

 続きは【後編】をご覧ください。

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

 配信の解除・送信先の変更は、
    http://www.mag2.com/m/0001316391.html
                        からどうぞ。

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

◆人文情報学月報編集室では、国内外を問わず各分野からの情報提供をお待ちして
います。
情報提供は人文情報学編集グループまで...
       DigitalHumanitiesMonthly[&]googlegroups.com
                  [&]を@に置き換えてください。

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
人文情報学月報 [DHM057]【前編】 2016年04月29日(月刊)
【発行者】"人文情報学月報"編集室
【編集者】人文情報学研究所&ACADEMIC RESOURCE GUIDE(ARG)
【 ISSN 】2189-1621
【E-mail】DigitalHumanitiesMonthly[&]googlegroups.com
                 [&]を@に置き換えてください。
【サイト】 http://www.dhii.jp/

Copyright (C) "人文情報学月報" 編集室 2011- All Rights Reserved.
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

Tweet: