ISSN 2189-1621

 

現在地

DHM 087【後編】

人文情報学月報 / Digital Humanities Monthly


人文情報学月報第87号【後編】

Digital Humanities Monthly No. 087-2

ISSN 2189-1621 / 2011年8月27日創刊

2018年10月31日発行 発行数780部

目次

【前編】

  • 《巻頭言》「中国語古典音韻資料のデジタル化
    鈴木慎吾大阪大学大学院言語文化研究科
  • 《連載》「Digital Japanese Studies寸見」第43回
    国立教育政策研究所教育図書館が貴重資料デジタルコレクションおよび明治期教科書デジタルアーカイブを公開
    岡田一祐:国文学研究資料館古典籍共同研究事業センター
  • 《連載》「欧州・中東デジタル・ヒューマニティーズ動向」第7回
    デジタル・ヒューマニティーズにおけるテクスト・リユースと間テクスト性の研究
    宮川創ゲッティンゲン大学

【後編】

  • 《連載》「東アジア研究と DH を学ぶ」第7回
    デジタルアーカイブコンテンツのライセンスの問題
    菊池信彦関西大学アジア・オープン・リサーチセンター
  • 《連載》「Tokyo DigitalHistory」第6回
    デジタル時代における資料の管理と利用
    金甫榮公益財団法人渋沢栄一記念財団
  • 人文情報学イベントカレンダー
  • イベントレポート「JADH2018:“Leveraging Open Data”
    山中美潮南山大学外国語学部英米学科
  • 編集後記

《連載》「 東アジア研究とDHを学ぶ」第7回

デジタルアーカイブコンテンツのライセンスの問題

菊池信彦関西大学アジア・オープン・リサーチセンター特命准教授

悩ましい。KU-ORCAS で公開するデジタルアーカイブコンテンツのライセンスの問題である。

KU-ORCASは“オープン”という単語を組織名称に掲げている以上、なるべくオープンなライセンスを付与することが望ましいし、世の流れからしてもそのつもりではある。だが、ライセンスとして何を採用し、どのような条件を付与すればよいだろうか。

この問題については、『デジタルアーカイブの構築・共有・活用ガイドライン』をはじめ、国内図書館等によるデジタルアーカイブ公開のお知らせやそれに関する事例論文[1]などでは、ライセンスを採用した結論のみが書かれており、その検討の—つまりは、悩んだ—過程が描かれることは少ない。しかし、デジタルアーカイブのデータオープン化が叫ばれる昨今、それへの対応のために、デジタルアーカイブ提供機関の担当者はどのように判断したのか、その思考の軌跡自体を“オープン”にしておくことは、後々振り返ればこの時代の一つの記録にはなるだろう。そこで本号ではどのような考えから、KU-ORCASのデジタルアーカイブのライセンスを決定しようとしているのかを述べたい。なお、この記事の執筆時点ではまだ KU-ORCASのライセンスの方針は決定しておらず、以下で述べる筆者の方針がそのまま KU-ORCAS の方針として採用されるかどうかは定かではない。

まず大前提として、KU-ORCAS がデジタル化できるのはどのような資料かをおさえておきたい。KU-ORCASは研究機関であり、著作権法上、図書館資料の複製が認められる「図書館等」ではないので、所蔵資料のデジタル化にあたっては著作権法第31条(図書館等における複製等)が適用されない。もちろん「私的使用のための複製」(著作権法第30条)でもなく、その他の権利制限規定が適用できるわけでもない。このことから、デジタル化による複製ができる対象は、著作権者の許諾が得られるものを除けば、著作権保護期間が満了した資料だけになる。デジタルアーカイブを提供している多くの図書館等の文化機関と異なるのは、まずはこのポイントであろう。

次に、原則的にはパブリックドメインの資料だけがコンテンツになるとすれば、それらに対してどのようなライセンスを付与すればよいか。候補は次の3つが考えられるだろう。1つ目は、クリエイティブコモンズライセンス(CC ライセンス)、2つ目がRightsStatements、3つ目が独自ライセンスである。

1つ目の CCライセンスは、京都府立京都学・歴彩館の東寺百合文書Webをはじめとして、国文学研究資料館の新日本古典籍総合データベースや大阪市立図書館デジタルアーカイブ等で採用されている。「うちの子(データ)」であることを利用時に示してほしいデジタルアーカイブ提供機関側としては、出所明記を条件とする CC-BY の採用が、CC0やパブリックドメインマーク(PDM)に比して多いようである。 一方で、色々なところで指摘されているように、CCライセンスは著作権者が自身の著作物の利用のために掲げるライセンスである以上、著作権保護期間が満了した資料に対してこれを適用するのは、筆者としては筋が悪いようにも思う。そもそも CCライセンスのウェブサイトでも、「ご注意:あなたは、資料の中でパブリック・ドメインに属している部分に関して、あるいはあなたの利用が著作権法上の権利制限規定にもとづく場合には、ライセンスの規定に従う必要はありません[2]」と書かれているので、たとえデジタルアーカイブ提供機関側がパブリックドメインの資料に対してCC-BYライセンスを付与したとしても、それがパブリックドメイン資料であれば、ユーザがその条件を守る必要もなくなってしまう。

では、図書館等のデジタルアーカイブ提供機関側が意思表示をする枠組みはないのだろうか。そこで候補に挙がるのが、2つ目の RightsStatements である。これは、Europeana と DPLA が、CC の支援のもと作成した権利表示のための枠組みであり、文化機関向けに作成されたものである。そのため、デジタルアーカイブ提供機関側が一般市民に対してデジタルコンテンツの著作権の状態や再利用の条件を示すことができるようになっており、さらにはセマンティック・ウェブに対応して機械可読の特徴も有している。管見の限り、日本では千葉大学のc-arc のみが採用しているようだ。 CCライセンスは無理でもこれならばと飛びつきそうになったのだが、だがライセンスの記述を読んでみると、「うちの子(データ)」であることを利用時に示してほしいという、デジタルアーカイブ提供機関側の意図を伝えきれるだろうかと不安になってしまった。それというのも例えば、CC-BY に近いであろう “NO COPYRIGHT - CONTRACTUAL RESTRICTIONS”の説明文には、「著作権で保護されてはいないが、データ提供側の契約上、利用が制限されているもの」と記されている[3]。したがって、同権利表示を策定したRightsStatements.org もはっきりと述べているように、「これらの権利表示は、PDM や CC0の表示が使用できない場合においてのみ利用されるべきもの」なのであって、本来 PDM や CC0であるべきデジタル化資料がデジタル化にあたって権利関係が生じてしまったために、やむにやまれず制限を付けざるを得なくなった――そのような場合に採用する枠組みだと理解すべきだろう。

では、最後の選択肢である「独自ライセンス」はどうだろうか。これは、例えば、京都大学貴重資料デジタルアーカイブ[4]がそれに該当する。京都大学貴重資料デジタルアーカイブのサイトを見れば、自由に利用はできるが所蔵は表示をしてほしいというデジタルアーカイブ提供機関側の意図が明確に書かれているので、過不足なく表現できていると言える。だが、CCライセンスや RightsStatementsのように機械可読性に乏しいので、その点からいえば海外への発信や技術的な利用を考えると、やや不安を覚えるところでもある。

このような思考を行きつ戻りつしながらここ数日考えあぐねていたわけである。だが、よくよく考えを整理してみると、問題の所在は「資料の著作権の状態を表示する」ということと、「利用に際しては出所を明示してほしい」という2つの考えを、1つのライセンスの表示のみで解決しようとしていることにあるのではと思うに至った。であれば、「状態の表示」と「お願いしたいこと」を分ければよいはずである。そもそも KU-ORCASのデジタルアーカイブでは、パブリックドメインの資料しか原則公開できないのであるから、著作権の状態を示すには PDMを採用せざるを得ず、それ以外の選択肢がない。したがって、コンテンツデータに対しては原則 PDM を付与することにした。

しかし、である。利用にあたって資料の出所を明示してほしいというデジタルアーカイブ提供機関側の意図は、そもそも利用条件とせねばならないほど重要なことなのだろうか。もちろん、資料の出所を明示してほしいという意図が生まれる理由はわかる。例えば、デジタルアーカイブの公開が研究機関や文化機関にとってアウトリーチ活動の一環でもある以上、「うちの子(データ)」が利用された先で、機関名を掲げて広報を行ってくれればありがたいものである。また、とりわけ古典籍のような資料では出所が重要な意味をもつから CC-BYでというのも確かに一理ある。ただ一方で、それは提供側があらかじめ配慮すべきことなのだろうかという思いも禁じえない。学術目的の利用であれば、資料の出所を示すことの意義は常識であろう。あるいはまた、このところデジタルアーカイブの公開が続いている東京大学では一部 CC-BYを採用しており、そこには「所蔵機関名の明示及び改変を行った際の明示は、その画像データ等を参照した人、再利用したい方にとって参考となる情報と考えています。画像データ等を二次利用する場合は、この2点の対応をお願いします[5]」と記載されている。資料画像を見てそれを利用したい人がいれば、元の画像までたどれるようにしておけば迷うこともないだろう。ただやはりそれでも、いずれの場合においても利用条件とせねばならないほど重いものとは考えにくく、あくまで「利用に際してのお願い」というレベルでしかないと筆者は判断した。そこで、KU-ORCASとしては、出所明示の依頼等を掲げた「ユーザへのお願い」のページを別に作成するということで、筆者は方針を定めようとしている次第である。なお、この記事が刊行される2018年10月末ごろには、すでにKU-ORCAS としての方針が決定しているであろう。

[1] 例えば『図書館雑誌』111巻6号(2017)では、「図書館のデジタルアーカイブ活用促進」として特集が組まれ、いくつか事例が紹介されている。
[2] 表示4.0国際(CC BY 4.0). https://creativecommons.org/licenses/by/4.0/deed.ja (アクセス日:2018-10-19)
[3] “NO COPYRIGHT - CONTRACTUAL RESTRICTIONS”. RightStatemants.org. http://rightsstatements.org/page/NoC-CR/1.0/ (アクセス日:2018-10-19).
[4] 画像二次利用自由(所蔵表示)、京都大学貴重資料デジタルアーカイブ https://rmda.kulib.kyoto-u.ac.jp/license_icon/free-license (アクセス日:2018-10-19)
[5] 一例として、画像データ等の利用条件(法制史資料室所蔵資料)https://www.lib.j.u-tokyo.ac.jp/digitalarchive/terms/legalhistorysection... (アクセス日:2018-10-20)
Copyright(C) KIKUCHI, Nobuhiko 2018– All RightsReserved.

《連載》「Tokyo Digital History」第6回

デジタル時代における資料の管理と利用

金甫榮公益財団法人渋沢栄一記念財団デジタルキュレーター

1. はじめに

この連載は、2018年4月15日に Tokyo Digital History(以下、ToDH)によって開催されたシンポジウムの登壇者によるものであるが、第6回はアーカイブズ学を専門とする金甫榮が担当する[1]。 当シンポジウムは、歴史研究が生み出されるまでのプロセスを、情報の入手・分析・表現・公開に分類し、それぞれに関連するデジタル技術や知識を示すものであった。筆者は、情報の入手セクションで最初の発表を務めた。 本稿の前半ではその内容を報告する。また、筆者は2018年9月に開催された TEI2018 において、筆者の職場である渋沢栄一記念財団における TEI プロジェクトについてパネル発表を行った[2]。 デジタル資料の信頼性と利便性を向上させるという観点から、本プロジェクトが持つ意味は大きい。そこで本稿の後半では、本プロジェクトについても簡単に紹介し、デジタル資料の活用が拡大されつつある中、その保存・管理・利用において求められていることは何かについて考察したい。

2. 報告要旨

近年研究環境は大きく変化しており、博物館や、図書館、アーカイブズ機関などを直接訪問しなくても、インターネットを通じて多くの資料の検索・閲覧が可能になりつつある。 しかし、このようなデジタル時代における、従来と異なる資料調査のプロセスに、我々はどのように向き合えば良いのだろうか。これが、情報の入手セクションで筆者が挑んだ難題である。そこで筆者なりに考えたキーワードは、アーカイブズ学の観点から考えるコンテクスト情報とメタデータである。

近年登場したデジタルアーカイブと言われるものについては、実は様々な議論がある[3]。アーカイブズ学の用語集である Encyclopedia ofArchival Science では、このデジタルアーカイブを四つに分けて定義している[4]。 1)デジタルで作成されたボーンデジタル記録の集積[5]、2)デジタル化された資料のコレクションに対してアクセスを提供するウェブサイト[6]、3)ある事柄についての、様々な種類のデジタル情報を扱うウェブサイト[7]、4)ウェブ上の「参加型」コレクション(利用者からの提供資料を含む)[8]である。 海外では、デジタルアーカイブは1)を指す場合が多いが、日本では2)、3)、4)を指す場合が多い。この差については本稿では説明を割愛するが[9]、アーカイブズに関連する理論の整理や研究の蓄積が国内ではまだ十分とは言えず、アーカイブズ学に基づいたデジタル資料の保存・管理例も少ないことが一つの原因であると筆者は考える。そして、これは資料のコンテクスト情報とメタデータについて適切な検討が行われないまま、デジタルアーカイブが構築される原因でもあると言えよう。

アーカイブズ資料とは、「個人または組織がその活動の中で作成または収受し蓄積した記録のうち組織運営上、研究上、その他さまざまな利用価値のゆえに永続的に保存されるもの」である[10]。 その保存・管理にはいくつか原理・原則が存在する。アーカイブズ資料は、真正性(Authenticity)、完全性(Integrity)、信頼性(Reliability)、利用可能性(Usability)を確保する必要があり、出所が異なる記録を混ぜてはならないという出所(Provenance)原則、そして、その記録が維持されている状態の秩序を保存しなければならないという原秩序(Original order)尊重の原則に沿って整理する。 資料を記述する代表的な方法としては、アーカイブズ記述に関する一般的な国際標準である ISAD (G) がある。 この標準では、資料をかたまりとして捉え、そのかたまり(群)をフォンド単位で把握し、そのフォンドを最上位として、以下シリーズ、ファイル、アイテムというマルチレベル記述規則を採用している。 ここで最も重要なキーワードとなるのが、資料のコンテクスト情報である。コンテクストは簡単に言えば、記録がどのように作成され、保管され、使用されてきたか、そしてほかの記録とどのような関連性を持っているかなどの情報である。

デジタル資料の場合、このようなコンテクスト情報はメタデータとして表現される。メタデータは、データに関するデータと言えるが、情報の発見、管理及び利用を可能にするために必要な情報セットである。機関、又は資料の性質や内容によって様々なメタデータが存在するが、その内容を大まかに二つに分けることができる[11]。 一つ目は、記述的メタデータである。これは、情報の発見や、理解と解釈、データの出所、コンテクストと構造に関する情報、そして、アクセスと権利に関する情報を提供する。まさに、資料のコンテクストを理解するために必要な情報であるが、事例としては ISAD (G) や、Dublin Core、ISAAR (CPF)、EAD などがある[12]。二つ目は、技術的メタデータであるが、データの保存管理やパッケージ化と送信に関する情報などが含まれる。

以上のように、インターネットを通じて入手できる情報であっても、その情報の質や内容は、原理・原則に従い整理・保存されているか、又は、適切なメタデータを提供しているかなど、アーカイブズ資料の整理・保存・管理体制に大きく影響されることは明らかである。 しかし、近年増えつつあるデジタルアーカイブにおいては、デジタル資料に適切なコンテクスト情報が付与されていない場合や、原資料の同定が不可能な場合も多々ある。 デジタル資料を収集・公開することは良いことではあるが、適切なメタデータを提供できる保存・管理体制を整えることができなければ、研究において信頼できる情報源となる資料を提供することも難しいと言えよう。 利用者においては、研究の再現性や信頼性を確保するためにも、キーワードなどを用いた検索結果だけに頼るのではなく、さらに詳しいコンテクスト情報を入手することを意識する必要があると言える。

3. デジタル資料管理における課題

次は、TEI2018 のパネルセッションで行った、デジタル資料を管理するうえで渋沢栄一記念財団(以下、財団)が抱えている課題と、現在進行中の TEI プロジェクトについて紹介したい。

財団では、渋沢栄一に関連する歴史資料を多く所蔵している。渋沢栄一は、彼の人生の中で500を超える会社と組織、600を超える社会公共事業や、教育、民間外交などに関連する組織の設立に関わったと言われており、彼のアーカイブズの中には日本の近現代史に関する記録が多く存在する。 しかし、重要な資料と言えるのは『渋沢栄一伝記資料』(以下、伝記資料)である。『伝記資料』は、1955年から1971年にかけて刊行された資料集で(本編58巻、別巻10巻)、日記や、書簡、新聞・雑誌記事、写真など様々な記録が収載されており、その数は約38,000件を超えている。 財団では、これらの資料のデジタル化を2004年から進めており、2016年には本編57巻分のフルテキストデータとページ画像をオンライン上で無料公開した[13]。現在は、テキストデータの著作権の処理や、残る別巻の公開に取り組んでいるが、デジタル資料を管理する上でいくつかの課題も抱えている。

まず、一つ目は長期保存に関する問題である。2016年公開したテキストデータは、マイクロソフトワードで作成されたものがベースとなった。しかし、特定のソフトウェアに依存性が高いデータ形式は長期保存には適切とは言えず、長期保存のために対策が求められている。 二つ目は、誰が何のために、いつ作成したデータであるかなどのコンテクスト情報が十分整ってない点である。三つ目は、利用可能性の確保に関する問題である。 最初のデータ形式は、ウェブ環境で公開・使用するには適していなかったため、すべてのファイルをXML形式へ変換する必要があった。公開を機に、データ形式が改善されたことは良かったが、このファイルは独自のルールで作成されたため、今後更なる改善が必要と思われる。そこで、財団では、これらの課題を解決する一つの方法として、人文学史資料テキスト構造化のための国際的な枠組みであるTEIを適用することとなった。

4. TEI プロジェクト

本プロジェクトは2018年の春頃から構想が始まり、ToDH とのコラボレーションで進められている。まず実験的に2種類のテキストのマークアップを試みた。

一つ目は、「実験論語処世談」の記事である。これは、1915年から1924年にかけて『実業之世界』という雑誌に掲載された、渋沢栄一が『論語』をテーマに語った彼の実体験を記事にまとめた談話筆記であるが、のちに、『伝記資料』別巻の中で、講義と談話をまとめている第6–7に収載された。 渋沢栄一は『論語』を人生の指針としていたため、「実験論語処世談」の中で『論語』のどの部分が引用されているか抽出して分析することは、彼の実業に関する価値観や、近代日本におけるビジネスと道徳の関係を理解する際に有用であると考えられる。二つ目は、財団で所蔵している「実業史錦絵」コレクションのテキストデータである[14]。 これは、明治期のものづくり、産物、職業など、産業シーンを描いた錦絵に説明文が加えられたものであるが、当時の新しい産業や近代化の様子を示す貴重な資料である。TEI でマークアップしたテキストと、IIIF に対応させた該当部分の画像を結び付けることによって、テキストの検索機能だけでなく、絵とテキストを同時参照できるインターフェースの提供など、より効率的な活用が可能になると考えられる。

本稿では、資料の詳しいマークアップ方法については、紙面の都合上説明を控えるが、その過程で考察したことを共有したい。TEI に基づくマークアップは、資料に対する理解向上、そして、データの一貫性の維持に大変有用だと考える。特に、TEI のヘッダーにおいて、資料のタイトルや、来歴、所蔵先、形態、権利情報などを記述することは、データの信頼性向上に寄与する。データの信頼性は、データを提供する側にも重要だが、研究の信頼性を支えるものとして利用者側にも大変重要な要素であると言える。また、TEI マークアップは、資料の内容へのアクセス向上に大変役に立つと感じている。アーカイブズ資料の場合、目録やインデックスなどの資料の発見を助ける Finding aids があるが、資料の内容へのアクセスまでを助けることには限界があるためである[15]。

一方、課題もある。すでに指摘されている点ではあるが、TEI を用いて、ルビや、踊り字、読み下し、文字コードのない漢字など、日本語ならではの独特なテキストをマークアップする方法はまだ用意されていない。また、TEI のマークアップは、資料のとらえ方によりその構造が変化するため、TEI 化する意図と目的を明確にする必要があると考える。つまり、研究者とは異なり資料を提供する側では、過度な解釈や間違った分析を行わないよう、注意する必要があると感じている。

5. おわりに

本稿で紹介した『伝記資料』や錦絵のデジタル資料の保存については、検討が始まったばかりで、まだ成果と言えるものはないが、TEIが一つの解決策となることを期待している。 そして、最後にもう一つ期待していることがあるとすれば、DH 分野におけるより多様な分野との活発な連携を挙げたい。筆者は DH 分野ではアーカイブズ学をバックグラウンドとする数少ない人なのかもしれない。 しかし、本稿で紹介した ToDH との連携、そして、博物館、又は、図書館の資料に関連するプロジェクトに参加しながら、アーカイブズ学を学んだ身として、他分野の人と異なる視点やアイデアを持っていることが、プロジェクトに貢献する要因になったと感じている。 デジタル資料とどう向き合うかという難題に挑んだことは、無謀と言えるかもしれない。しかし、この問題はもはや一つの分野に限る話ではないだろう。そして、筆者の経験からも、歴史分野だけではなく、アーカイブズ学や、情報学、図書館学など、幅広い分野に対する理解向上と連携拡大こそが、問題解決の鍵になるのではないかと確信している。ぜひ、今後もより多くの学際的な連携の場が生まれることを期待したい。

[1] Tokyo Digital History 編「デジタル・ヒストリー入門:2018 Spring Tokyo DigitalHistory Symposium 開催報告」東京大学学術機関リポジトリ、2018年5月(http://hdl.handle.net/2261/00074493
[2] Naoki Kokaze, Soki Oda, Boyoung Kim, and Natsuko Saji, “Facilitating the Dissemination of TEI-based Digital Resourcesin Japan: As Early-Career Researchers from Tokyo Digital History,”The 2018 Annual TEI Conference and MembersMeeting, September 13, 2018.
[3] 古賀崇「「デジタル・アーカイブ」の多様性をめぐる動向-日本と海外の概念を比較して-」『アート・ドキュメンテーション研究』24 (2017): pp. 70–84.森本祥子「伝統的アーカイブズとデジタルアーカイブ:発展的議論を進めるために」『アーカイブズ学研究』15 (2011): pp. 55–60.後藤真「文化遺産学における「デジタル」序説-保存と共有・活用と表現-」『情報処理学会研究報告』2008 (79): pp. 57-64.
[4] Luciana Duranti and Patricia C. Franks, Encyclopedia of ArchivalScience (Lanham: Rowman & Littlefield, 2015), s.v. “digital archives”
[5] 例えば、Richard Rorty born digital files, http://ucispace.lib.uci.edu/handle/10575/7
[6] 例えば、The Walter Scott Digital Archive, http://www.walterscott.lib.ed.ac.uk/home.html
[7] 例えば、Washington State Archives, https://www.digitalarchives.wa.gov/
[8] 例えば、日本災害 DIGITAL アーカイブ, http://jdarchive.org/ja
[9] 前掲載注3
[10] 小川千代子・高橋実・大西愛編著『アーカイブ事典』(大阪大学出版会、2003)、p. 14
[11] Adrian Brown, Practical Digital Preservation: A How-to Guide for Organizations of Any Size (London: Facet Publishing, 2013), pp. 155–157.
[12] ISAD (G) (General International Standard Archival Description):7領域において合計26要素のメタデータを提供。https://www.ica.org/en/isadg-general-international-standard-archival-description-second-edition
ISAAR (CPF) (International Standard Archival Authority Record forCorporate Bodies, Persons and Families):アーカイブズ資料作成者の典拠レコード情報。https://www.ica.org/en/isaar-cpf-international-standard-archival-authority-record-corporate-bodies-persons-and-families-2nd
EAD (Encoded Archival Description):アーカイブズ資料をXML形式でエンコーディングするための標準として146要素を提供。https://www.loc.gov/ead/
Dublin Core (Dublin CoreMetadata Element Set):最も広く用いられるメタデータで、タイトルや作成者、識別子、寄贈者権利などの15要素のメタデータを提供。http://www.dublincore.org/
[13] デジタル版『渋沢栄一伝記資料』 https://eiichi.shibusawa.or.jp/denkishiryo/digital/main/
[14] 実業史錦絵プロジェクトhttps://www.shibusawa.or.jp/center/nishikie/index.html
[15] Linking EAD to Electronically Retrievable Sources http://www.ucl.ac.uk/leaders-project/about.htm. このプロジェクトでは、TEI と EAD を統合することにより、アーカイブズ資料の発見の可能性を向上させることが検討された。
※すべてのウェブサイトアクセス日:2018年10月17日

執筆者プロフィール

金甫榮(きむ・ぼよん/公益財団法人渋沢栄一記念財団デジタルキュレーター)
企業博物館で広報・アーカイブズ担当として7年間在職したのち、2015年から現職。学習院大学大学院人文科学研究科アーカイブズ学専攻修士。修士課程では、ビジネスアーカイブズを研究テーマとしたが、現在は研究の幅を広げ、博物館、図書館、及びアーカイブズ機関におけるデジタル資料の保存・管理に興味を持っている。
Copyright(C) KIM, Boyoung 2018– All Rights Reserved.


人文情報学イベント関連カレンダー

【2018年11月】

【2018年12月】

Digital Humanities Events カレンダー共同編集人

小林雄一郎日本大学生産工学部
瀬戸寿一東京大学空間情報科学研究センター
佐藤 翔同志社大学免許資格課程センター
永崎研宣一般財団法人人文情報学研究所
亀田尭宙京都大学東南アジア地域研究研究所
堤 智昭東京電機大学情報環境学部

イベントレポート「JADH2018:“Leveraging Open Data”

山中美潮南山大学外国語学部英米学科非常勤講師

2018年9月11日・12日、東京・一橋講堂にて Japanese Association for Digital Humanities(以下JADH)の第8回年次大会が開催された。TEI2018(2018年9月9日〜13日)と同時開催された今大会には、国内外から様々なデジタル・ヒューマニストが集合した。“LeveragingOpenData” をテーマとした本大会では8セッションに27発表、また2つのパネルセッション、36のポスター・プレゼンテーションが行われ盛況を博した。

筆者はアメリカ史研究を専門としており、ノースカロライナ大学チャペルヒル校の博士後期課程在籍時にデジタル・ヒューマニティーズを学び始め2018年に帰国した。そういう経緯もあり、恥ずかしながら日本で開催されるデジタル・ヒューマニティーズの国際大会には初参加であった。会期にはテーマである「オープンデータ」を中心に、テクスト解析から大学院生の共同研究まで、様々なプロジェクト・方法論・教育的試みを学び、新参者ながらも充実した時間を過ごすことができた。規模の大きさから全ての発表を網羅することは不可能であったことが悔やまれるが、筆者が出席できたものの中からいくつか紹介したいと思う。

“Data Analysis”

まず、筆者はデータ分析に関わるセッションを中心に出席した。同テーマのセッションは1日目・2日目両日とも開催されており、当分野への研究者の関心の高さがうかがえる。特に両日のセッションではデータ分析そのものだけでなく、分析に関わるデータベース構築や方法論の議論がなされたことが興味深い。

例えば Leo Born 氏によって発表された “Leveraging the Japanese Biographical Database asa Digital Resource for Education and Research” では「日本の人名データベース」(“Japanese Biographical Database”、以下 JBDB)の試みが論じられた[1]。 JBDBは日本史における個人の伝記情報のウェブデータベースであり、また個人、社会、政治的ネットワークを分析・可視化するプロジェクトである。2012年に頼春水に関する情報を集めたPostgreSQLデータベース構築から始まった当プロジェクトは、今や、江戸時代の情報を中心に約5,500の歴史人物データを収録しているという。 当プロジェクトは“China Biographical Database”がモデルとなっており、デジタル・ヒューマニティーズプロジェクトの相互の連関や影響性がうかがえる[2]。更に、データベースを実際に教育現場で利用する、ネットワーク分析や GISに使用できるよう試みるなど、研究者にとっての汎用性の高さを目指そうとしている点に特徴がある。実際にこれまで上智大学で学部生によるデータ作成が行われたり、YouTubeでのビデオ・チュートリアルが作成されたりしてきたという。しかし、こうした試みの中データベース構築に伴う資料作成がきちんとなされていない場合があり、データの透明性を担保するための問題に対処するのが今後の課題と論じられた。

また、杉山真央氏による “What Did Journalists Mention in the Russian Press?Comparison of Articles about Yeltsin’s Presidential Addresses to theFederal Assembly” では、ロシアの高級紙 Nezavisimaya Gazeta とタブロイド紙 KomsomolskayaPravda を対象に、エリツィン大統領がロシア連邦議会にておこなった大統領演説報道の特徴を、CasualConc を使い比較検討している。調査の結果、二紙には前者が経済問題、後者が識者によるエリツィン批判に偏重するなど明確な報道傾向の違いがあるものの、1990年代には現状から想定される以上にロシア人記者たちが批判的に政治報道を行なっていたことが判明した。ロシアという資料に様々な制約の多い国の研究で、デジタル分析がいかに新しい見地をもたらしうるか、参考になることの多い発表であった。

“Exploring History”

次に、JADH2018では、歴史研究に関わるデジタル・ヒューマニティーズ発表が盛んに行われた。例えば、北本朝展氏を始めとする人文学オープンデータ共同利用センターの研究者による “HistoricalBig Data: Reconstructing the Past through the Integrated Analysis ofHistorical Data” と題された発表では、「ビッグデータ」を使ったサイバー空間における人間の営みや社会の再現を “HistoricalBig Data”(HBD)というコンセプトのもと歴史研究に応用する試みが論じられた。

とはいえ HBD は従来のビッグデータとは異なる様々な特徴がある。特にビッグデータ評価軸となる「4つのV」すなわちデータ量・多様性・速度・正確さ(Volume, Variety, Velocity,Veracity)が、歴史資料を扱う HBD にとって必ずしも重要な基準になるとは考え難い。そこで本発表ではHBDの基礎となるアナログ資料を分類し概念化するため、Historical Situation Record(HSR)、Historical Activity Record(HAR)、Historical Transcription Record(HTR)いう三つのタイプが提唱された。特にここではHSRのスキームとして、場所・時間・シチュエーション・値・確実性がキーワードとして議論された。例えば、Twitter の台風ライブツイートのように、歴史資料を使った安政江戸台風の進路推計をデジタル空間で行うことは可能だろうか。このような江戸時代の再現は「武鑑全集プロジェクト」に見られるようにすでに始まっている[3]。また近似のデジタル空間での歴史再現プロジェクトは海外でも行われており、基調講演で Julia Noordegraaf氏が論じた “Amsterdam Time Machine”、“European TimeMachine” プロジェクトなどがその最たるものであろう[4]。北米でも管見の限りではヨーロッパなどの規模には及ばないものの、HBD に近似したプロジェクトが徐々に出現している。[5]日本の HBD と世界の HBD の類似性・特殊性など今後更に注視していきたい。

「大学院生による試み」

最後に私は、Tokyo Digital History(以下ToDH)のメンバーによる “Broadening Perspectives of HistoricalResearchers: From a Case of Interdisciplinary Workshop Organized by GraduateStudents in Japan” と題されたパネルセッションに出席した。

既に当月報にも連載されているので私が改めて紹介するまでもないが、ToDHは大学院生および若手研究者、エンジニア、アーキビストらによって構成された、デジタル・ヒストリー研究・教育のためのコミュニティである。メンバーは様々な研究機関に所属しており、また専門も古代西洋史から日本現代史まで多岐にわたっている。調査発表だけでなく、Python、TEI、Zoteroなどの利用法を学ぶためのワークショップなども過去に行われており、院生・若手研究者にとっては貴重な学びと実践の場になっている。

パネルセッションでは、グループとしての試みだけでなく、各メンバーのプロジェクトが紹介された。一人一人のデジタル・ヒストリープロジェクトも多様である。例えば小川潤氏はOmeka、Neatlineなどを使用した古代ローマのエピグラフ分析を、一方山崎翔平氏は歴史研究者のための OCR対応アプリケーション研究を論じた[6]。こうした様々なデジタル・アプローチへの実践を共有することは、蛸壺的研究に陥ってしまいがちな歴史研究を打破するカンフル剤ともなろう。

ノースカロライナ大学での博士課程在籍時には、若手研究者がデジタル・ヒストリーに取り組む上での問題として、ネットワーク不足、研究資金不足、大学院でのデジタル研究の位置付けなどがよく挙げられていた。以上のような問題には、アメリカ歴史学協会(AmericanHistoricalAssociation)などの学会も積極的に取り組んでいるが、同時に大学院生・若手研究者が大学の垣根を超え共同体を構築する試みはほとんど見られなかった[7]。それには日本とアメリカの博士課程カリキュラムの差異や地理的な制約など、様々な要因が考えられる。ToDHの試みは、大学・人的資源が集中する東京ならではのユニークな学術研究のあり方として、大きく世界に認知されるべき取り組みであると感じた。

おわりに

会期中には以上の発表以外にも、自然災害と復興に関わるアーカイブ構築・非西欧圏を対象にした研究など、日本という開催地の特性を活かしたデジタル・ヒューマニティーズの発表も多く見られた。二日間、デジタル・ヒューマニティーズ研究の裾野の広さに改めて驚かされると共に、研究への思いを強くした。末筆ながら、帰国後間もない私を JADH2018に参加できるよう取り計らってくださった人文情報学研究所の永崎研宣先生に改めてお礼を申し上げたい。

[1] 「日本の人名データベース」(上智大学)https://network-studies.org/#!/(2018年10月14日アクセス)
[2] “China Biographical Database Project,” Harvard University, https://projects.iq.harvard.edu/cbdb/home(2018年10月14日アクセス)
[3] 「武鑑全集」、人文学オープンデータ共同利用センター http://codh.rois.ac.jp/bukan/(2018年10月14日アクセス)
[4] Romy Beck, “Amsterdam Time Machine,” accessed October 14, 2018, http://www.create.humanities.uva.nl/uncategorized/amsterdam-time-machine/;“European Time Machine,” Time Machine FET Flagship, https://timemachine.eu/(2018年10月14日アクセス)
[5] 例えば、メリーランド大学ボルティモア・カウンティ校イメージング・リサーチ・センターの、“Visualizing EarlyBaltimore” が挙げられる。これは第二次米英戦争100州周年を記念して作られた3D モデリングプロジェクトである。実際にメリーランド歴史協会にて展示活用されるなど、公共性を意識したプロジェクトであることを付記しておく。“VisualizingEarly Baltimore,” University of Maryland Baltimore County, http://earlybaltimore.org/(2018年10月14日アクセス)
[6] 各発表者の詳細については、『人文情報学月報』第86号【後編】《連載》「Tokyo DigitalHistory」連載第5回、小風尚樹・小風(山王)綾乃両氏による「Tokyo Digital History 2.0へ:JADH・TEIパネル報告によせて」を参照されたい。
[7]アメリカ歴史学協会では2009年に優れたデジタル・ヒストリープロジェクトに贈るロイ・ローゼンツヴァイク賞を設置、2014年からは年次大会でワークショップを開始、2015年にはデジタル・ヒストリーのための各大学への評価ガイドラインを公開した。しかし、こうした学会の動向に各大学がどう対応しているかはまだ検討の余地がある。こうしたアメリカのデジタル・ヒストリー動向に関しては、拙稿「アメリカ史研究とデジタル・ヒストリー」、『立教アメリカン・スタディーズ』40(2018年3月)、7–31頁、を参照されたい。
Copyright(C) YAMANAKA, Mishio 2018– All RightsReserved.

◆編集後記

この時期は、サンフランシスコでデジタル文化遺産の国際会議(http://www.digitalheritage2018.org/)、キプロスでもデジタル文化遺産の国際会議(https://www.euromed2018.eu/)が開催されるなど、文化資料のデジタル化に関する動向はまだまだ盛んなようである。DigitalHumanities と Digital CulturalHeritage の違いについては先日のメキシコシティでの DH2018でもパネルセッションが行われており、将来に向けたより良い協働が期待されていた。日本では両者の区別はあまり意識されていないように思われるが、人文情報学は、どちらかと言えば、デジタル文化遺産、つまり、文化資料のデジタル化・公開・活用という実践の成果をどう活用して人文学的な成果につなげるか、あるいは、どのようにしてそのような実践自体をより人文学的に深いものにつなげていけるようにするか、ということを具体的な手がかりとしつつ、人文学における情報という課題を検討していくことが中心的なテーマになるように思われる。前号に引き続き、今回は金氏と山中氏が報告してくださっている JADH/TEI カンファレンスの盛り上がりが、日本の人文情報学の深化につながっていくことを期待したい。

(永崎研宣)



Tweet: