ISSN 2189-1621

 

現在地

DHM 083 【後編】

人文情報学月報第83号【後編】

Digital Humanities Monthly No. 083-2

ISSN 2189-1621 / 2011年8月27日創刊

2018年6月30日発行      発行数760部

 

目次

【前編】

  • 《巻頭言》「いつか絡繰り人形が本を読む
    大久保ゆう青空文庫
  • 《連載》「Digital Japanese Studies寸見」第39回
    国立公文書館が「地方公文書館等の主な明治期公文書等紹介ページ」を公開
    岡田一祐国文学研究資料館古典籍共同研究事業センター
  • 《連載》「欧州・中東デジタル・ヒューマニティーズ動向」第3回
    スウェーデンおよびアメリカ合衆国における古代末期関連のデジタル・ヒューマニティーズの一断面
    宮川創ゲッティンゲン大学

【後編】

  • 《連載》「東アジア研究とDHを学ぶ」第3回
    IIIF2018カンファレンス参加記
    菊池信彦関西大学アジア・オープン・リサーチセンター特命准教授
  • 《連載》「Tokyo Digital History」第2回
    『公文録』のWebスクレイピングとメタデータの含意
    福田真人東京大学大学院人文社会系研究科日本史学専門分野博士課程3年日本学術振興会特別研究員DC1
  • 人文情報学イベントカレンダー
  • 編集後記

《連載》「東アジア研究とDHを学ぶ」第3回

IIIF2018カンファレンス参加記

菊池信彦関西大学アジア・オープン・リサーチセンター特命准教授

関西大学アジア・オープン・リサーチセンター(KU-ORCAS)が今年度内の公開を予定して検討を進めているデジタルアーカイブは、資料画像の相互運用のための国際規格であるIIIF(International Image Interoperability Framework)を採用予定としている。また、KU-ORCASは今年3月にIIIFコンソーシアムに加盟していることから[1]、筆者はワシントンDCで5月に開催されたIIIF2018カンファレンス[2]へと出席した。本稿はその会議参加報告である。

IIIF2018カンファレンスは、5月21日から25日までの5日間(最終日は半日)開催された。だが、カンファレンス本体は23日から始まる2日半であって、21日はプレカンファレンスワークショップ、そして22日はショーケースが開かれた。以下では、紙幅の関係もあるので、筆者の参加したセッションのうち、いくつか印象に残ったものを中心にまとめていきたい。

21日は、まず“Train the trainer and IIIF Awesome”に参加した。タイトルから、IIIF対応デジタルアーカイブの利用者教育担当者向けのプログラムなのかと想像していたが、内容はむしろこれからIIIFに携わる技術者向けのワークショップであり、各大学の事例やノウハウの共有の場となっていた。報告はアメリカやカナダからの参加者によるものであったと記憶しているが、それらの国々の大学におけるデジタルアーカイブ構築と運営担当者の層の厚さを実感するとともに、デジタルアーカイブの技術的な面を業者に委託する日本とは前提が異なるとも感じた。 一方で、IIIF対応のデジタルアーカイブを公開した際、運営担当者として学外だけでなく学内に向けてもどのような利用者教育を行い、また、中長期的な運用体制の整備が必要なのかを考えるきっかけとなった。この日はほかにIIIF対応のオープンソースのビューワであるMiradorとUniversal Viewerそれぞれの開発者ミーティングが行われた。

22日のショーケースは、カンファレンス申込者以外も参加可能なもので、IIIFの広報イベントとも言える。冒頭では米国議会図書館のデジタル部門およびLC Labsのセンター長であるKate Zwaardからの挨拶の後、Tom Cramer(スタンフォード大学図書館)がIIIFに関する全体的な説明を行い、その後、マニュスクリプトや新聞、博物館資料といった資料種別に分かれているIIIFコミュニティそれぞれから活動報告があった。そして、IIIFに関わるAPIやビューワ等の紹介が行われ、さらに組織としてのIIIFコンソーシアムの活動報告、最後にIIIF2018のスポンサー企業から自社システムの紹介があった。この一日を聴講すれば、IIIFとはどのようなものであり、どのような活動がIIIF加盟機関やコミュニティで行われていて、どのような企業(海外だが)がシステムを提供しているのかが大まかに分かるものとなっていた。だがその分、翌日の報告と重なる内容もあり、結果的にやや重複感は否めなかった。

この22日の報告の中では、新聞コミュニティ[3]を取り上げておきたい。IIIFの新聞コミュニティは、デジタル化新聞資料をIIIFへ対応させ、その利用方法について検討するコミュニティである。中でも特にIIIFビューワのアノテーション機能を使って、OCRテキストデータの質向上を図ることが議論となっていた。日本のデジタルアーカイブでは、特に地方紙のデジタル化とその利用は図書や雑誌ほど進んでおらず、それゆえに検索性も乏しいが、著作権保護期間満了が明白な新聞資料のテキスト化をIIIFへ対応させることでユーザー側に委ねてしまうことも考えうるだろう。その観点から、日本語の縦書き新聞を扱う機関や担当者がコミュニティに加わる意義は十分にあると感じた。

23日から25日のカンファレンスに話を移したい。 23日冒頭に前回会議以降に加盟したIIIFコンソーシアムの新メンバーの紹介が行われ、日本からは本学(関西大学)のほかNIIの参加があったことが報告された。また、APIの動向では、2018年にプレゼンテーションAPIとイメージAPIがver. 3.0にアップデート予定であるとのことだった。

その後に続いた研究報告では、23日に西岡千文(京都大学)が2回の報告を行い、1回目に京都大学貴重資料デジタルアーカイブについて、2回目に永崎研宣(一般社団法人人文情報学研究所)とともにIIIF対応画像のなかでユーザーがどの部分を見ているのかをヒートマップでビジュアル化する研究について、それぞれ報告を行った。特に2回目では質疑で聴衆からAwesomeとの声もあり、活発な議論が行われた。24日は、永崎によるIIIF Manifests for Buddhist StudiesとSAT 2018(SAT大蔵経テキストデータベース2018)の報告に参加したところ、多数の来場者があり関心の高さがうかがわれるものだった。また、この日の夕方に音声や動画ファイルのIIIF対応の報告があったことも印象に残っている。例えばスウェーデン国立公文書館が、Universal Viewerを用いたデジタルアーカイブシステムを公開していること、また、スウェーデン王立図書館とともに進めている音声・動画のデジタル化とそのIIIF対応について報告が行われた。最終日25日は、北本朝展(CODH)が、IIIF Curation ViewerやIIIF Curation Platform、そしてその活用事例としての「顔貌コレクション」と「武鑑全集」の報告を行った。IIIF Curationについて「セレンディピティに資するもの」という北本の報告には膝を打つものがあった。

カンファレンス全体を振り返って思うことは、まず筆者自身の勉強不足もさることながら、IIIFコンソーシアムメンバーの一員としてKU-ORCASは何をなすべきか、IIIFという技術あるいはコミュニティに対しどのような貢献を果たせるかということであった。IIIFコンソーシアムの報告にもあったが、IIIFのウェブサイトへのアクセスは日本からのものが多いと聞く。 そうであれば、まずはIIIFに関する情報提供や活用事例の共有[4]等を国内に向けて行うことが考えられるだろう。また、東アジア文化研究の推進を掲げるKU-ORCASとして、そのテーマに関する資料群を専門的に扱うコミュニティの運営も視野に入れるべきかもしれない。

[1] 「関西大学KU-ORCASはIIIFコンソーシアムに参加しました」 KU-ORCAS. http://www.ku-orcas.kansai-u.ac.jp/news/20180420_85/(アクセス日:2018-06-20.)
[2] 2018 IIIF Conference - Washington, DC. http://iiif.io/event/2018/washington/(アクセス日:2018-06-20.)
[3] IIIF Newspapers Community Group. http://iiif.io/community/groups/newspapers/(アクセス日:2018-06-19.)
[4] 「日本の図書館等におけるIIIF対応デジタルアーカイブ一覧」https://matome.naver.jp/odai/2152584366126558001(アクセス日:2018-06-20.)
Copyright(C) KIKUCHI, Nobuhiko 2018- All Rights Reserved.

《連載》「Tokyo Digital History」第2回

 「『公文録』のWebスクレイピングとメタデータの含意」

福田真人東京大学大学院人文社会系研究科日本史学専門分野博士課程3年日本学術振興会特別研究員DC1

はじめに

本稿は第2回目を迎えたTokyo Digital Historyの連載である。初回は4月15日のシンポジウム全体を通じた重要な論点について考察がなされたが、これ以降はシンポジウムにおける各報告の要旨を整理すると同時に、各報告についてディスカッションなどで議論になった論点についてさらに議論を深めていきたい。今回は前半部で、筆者が行った、「公文録」メタデータのWebスクレイピングについての報告を紹介すると同時に、後半部で追加的な論点として今回扱ったメタデータの意味に対して考察を加えてみたい。

(1)報告要旨

オンライン上の史料情報は年々増加してきており、今後デジタル化の進展に伴いさらに増加していくことが予想される。こうした状況に際し、本報告ではWebスクレイピングで大量の情報を入手することを主な課題として設定した。Webスクレイピングとはウェブサイトからデータを機械的・自動的に集める技術であり、これを用いて従来人の手では不可能であった大量の情報を入手し、それをもとに新しい分析を試みたい。  

今回対象とする史料「公文録」について簡単に整理する。明治元年から明治18年まで、すなわち明治前半期の日本の行政の中心は太政官にあった。太政官は当時の最高行政機関であり、諸官庁や府県などの上申を受け付け、それらを最終的に決裁していた。「公文録」はこのように太政官に上申・審議・決裁された文書群を整理したものである。「公文録」は多少編纂されてはいるものの、印や付箋などもそのまま収録されており、元来の公文書そのままの姿をかなり残していると考えられており、重要文化財に登録されている。 「公文録」は国立公文書館のデジタルアーカイブに現在掲載されており、原史料に基づき階層的な構造(トップページ・年代別分類ページ・簿冊別分類ページ・件名別分類ページという4階層)で整理されている。国立公文書館の件名メタデータは「公文録」原本の目次に対応している。同時代的にも「政府記録ノ基礎」であると認識されて、編纂されたものであり、約4000冊、11万件もの内容を含む巨大な史料群である。なおここで強調しておきたいことは、「公文録」が11万件の内容を含むことは管見の限り既存の先行研究ではわかっておらず、今回のプロジェクトによって明らかにされたということである。  

以上検討してきた「公文録」は、分量が膨大で研究者個人が全体を分析することは従来の手法では困難であった。そこで多くの研究者は自分の関心のある時期・部局やテーマに沿って史料を収集し、研究することが一般的であった。また近代史料学・古文書学という分野は「公文録」という史料群それ自体に関心を向けてきたが[1]、先行研究は伝統的な事例分析を中心に展開され、太政官の公文書処理などについて解明する一方、全体数についての研究は1970年代の冊数の構成を分析したものに現在まで留まっている[2]。すなわち、一般的な研究はもちろん、史料学的研究においてすらその全体像を把握するには至っていない。  

そこで本プロジェクトでは「公文録」の各件名及びそれに付随する決裁日や簿冊(≒部局)などのメタデータを入手して件名レベルまで悉皆調査し、分析する必要があると考えた。こうすることによって「公文録」全体に記述統計的あるいは計量文献学的分析が可能となる。同時に各研究者の研究テーマ・史料が「公文録」上あるいは当時の行政上どのような位置を占めているのか把握するなどの課題に対し有効に機能することが期待される。  

今回のWebスクレイピングは小林拓実氏(東京大学西洋史学研究室、ToDHメンバー)から技術的支援を受けながら行い、取得したいURLを最初から一括指定するのではなく、原史料の階層に即して「公文録」トップページから4階層にわたって段階的にURLを入手するという手法を採用した。各階層のHTMLを開発者モードなどで分析し、下の階層のURLを一括入手するという作業を繰り返した。最後の件名レベルの階層からはその階層のHTMLを同様に解析し、必要な箇所を入手するスクリプトを作成することによって、メタデータを入手した。 こうした作業はアーカイブのサーバー負荷を抑制するために、一回ごとに時間間隔を入れるプログラムを付与しながら実施した。そのため2人がかりで2週間ほど、空き時間にスクレイピングスクリプトを動かし、作業を分担しながら入手した。  

その結果10万8840件のメタデータを入手することに奏功し、今後の分析の基礎データをそろえることができた。ここからは紙幅の都合もあるため省略するが、こうしたデータを利用して階層型バブルチャートを作成し、「公文録」の全体像を可視化し[3]、またデータに計量文献学的分析を試み、メタデータの活用について展望を示した。

(2)メタデータの性格と正確性

本稿で取り上げたい追加的論点は、シンポジウムでも議論となった分析対象となったメタデータの性格と分析対象の合理性についてである。  

今回そもそも史料のメタデータ自体を分析した理由は、消極的に言えば、日本近代史研究においてはテキストデータの入手が困難であることによる。テキスト分析は人文情報学における花形であるが、残念ながら日本近代史ではそういった分析が十分に展開可能なデータが整備されておらず、今後の課題であると言わざるを得ない。  

しかし、今回の分析対象となったメタデータは消極的な理由のみならず、積極的に採用するに至った理由をも備えている。第1には日本近代史研究において重要かつ巨大な史料群であることである。この史料群自体を主題とした論文も少なくなく、広く日本近代史研究者全体に意義を主張しやすい。  

第2に今回扱ったメタデータは全体にわたって史料群内部の詳細な目録(件名)を備えている。こうした詳細な目録は十分に備わっていない史料群も珍しくない。さらに付言すれば、「公文録」は原則当時の政治・行政の全体像を集積したものであり、史料学的に言っても体系的に整備されており、内容に偏りが大きいとは考えにくい。  

さらに第3に、これらの件名については史料原本の目次によって採用されており、後年の作為が少ない。つまり、後年の研究者やアーキビストによる誤読や主観的解釈が介在しているメタデータである可能性が小さく、これも多くの史料群には備わっていない機能であり、貴重な事例である。整理すれば、そもそも重要な分析対象であると同時に、母集団に偏りがなく、史料原本自体が詳細な目録を整備している事例であると言える。少なくとも日本近代史において、ここまで論じてきた3つの条件が備わっている史料群は稀有な事例である。  

こうしてみると、今回の分析対象の選定は一定の合理性があったと考えている。しかしながら、このデータ自体はメタデータである。当然の批判として、本メタデータの信頼性に対する疑問がありうる。これは第1に「公文録」の目次自体が正確か、第2に本メタデータは目次を正確に反映しているのかという疑問である。特に第2の問題については筆者自身史料を読解していく過程で見つけることは少なくなく、追加的に検討する必要があると思われる。  

そこで今回は試みに第2の問題に対し作成したデータベースから無作為抽出した100件の件名について史料群の目次とメタデータの対比を行った。原本の画像が公開されていない例外的な1例を除き、99件を確認した。この際旧字体と新字体、「同上」などの補完、カタカナ表記の揺れ(濁点など)といった表記揺れ[4]を除くと誤っていた事例は7例(約7%)であった[5]。  

概算ではあるが、これをもとに区間推定を行うと0.07±1.96×√((0.07×0.93)/99)≒0.07±0.05であるから、95%の信頼係数で誤植率は2%~12%ということになる。誤植率と誤植の内容を見る限り、計量文献学的分析に耐えられないデータだとまでは現在でも考えていない。しかしながら、誤植率は単純に無視できる水準であるとまで言うこともできない。  

さらに第1の問題については、「公文録」目次は、明治政府の公文書群を整理し、簿冊にまとめる過程で付加されたものであるから、比較的同時代的な編纂であるとはいえ、これ自体が不正確である可能性もある。 特に明治6年以前の公文書は簿冊に整理されるまでに火災で焼失するなど史料学的には複雑な編纂過程を経ているため、そういった限界が大きい。現時点ではこの疑問に十分に答えられる準備はないが[6]、管見の限り内容と件名(目次)が乖離しているような事例は、データベースの誤植率などに比べ少なく、おおむね信用してよいという展望は持っている。  

しかしデジタル由来の情報に気をつけなければならないといった人口に膾炙した議論は、こうした事実を見る限りにおいて、単純に旧弊だと排することはできない。メタデータの利用に際してはこのような確認が不可欠であり、それは多くの正確性を重視する歴史学者に本報告のような人文情報学的研究が受け入れられるために必要な素地でもある。本メタデータに関してはそもそも原史料に依拠しているものである上、原本が公開されていることもあり、利用者が適宜修正を加えられるという点で優れている。他方、誤植の修正はメタデータの連続性を失わせるため、引用時などに一貫性が保てなくなる可能性もある。 このようにメタデータの性質と正確性に留意しながら分析を進める必要があり、利用者と情報提供者相互の議論と理解を今後より深めていく必要があろう。

[1] 例えば中野目徹『近代史料学の射程』、弘文堂、2000年。
[2] 石渡隆之「『公文録』の一覧」『北の丸』9号、1977年、30-80頁。
[3] この点については小風尚樹・中村覚・金甫榮・清原和之・福田真人・田中聡「〈シリーズ 歴史家とアーキビストの対話 第4回〉対話の場としてのデジタル・アーカイブ:歴史研究者のためのデータ・リテラシーとウェブデザイン」『歴史学研究』974号、2018年9月刊行予定を参照されたい。
[4] 表記揺れの問題はシンポジウムでも議論になり、人文情報学上も重要な問題ではあるが、本稿では扱わない。ただ表記揺れの事例は管見の限り非常に多く、逆に旧字体・新字体の分析といった表記揺れで吸収されてしまう問題については、本メタデータによる分析は適さない。
[5]「佐伯郡草津村沖外一ヶ所開墾并見合届」の「届」→「留」、「華族奥平昌邁忌服届遠慮届」の「忌服届」不要、「参事院議官西園寺公望病気ニ付西京ヘ換地療養願並出発ノ件其三」の「其」→「共」、「東京開成学校教師仏人レビシユ増給雇継并同所ヘ仏語学教師一名雇入ノ儀伺」の「ユ」→「エ」、「戸籍表差出ニ付申立」の「立」→「出」、「各国人ヘ対シ凶状無之様御布告藩邸内外ヘ告諭届」の「凶」→「乏」、「太政大臣三条実美帰京ノ件其二」の「其」→「共」。
[6] 結局のところ、目次の正確性については、史料内容の解釈に問題の次元が拡張するため、誤植率のように機械的に正誤を判定することが難しい。

執筆者プロフィール

福田真人(ふくだ・まさと/東京大学大学院人文社会系研究科日本史学専門分野博士課程3年、日本学術振興会特別研究員DC1)は、幕末維新期の貨幣制度や金融政策を専門としている。Tokyo Digital Historyのメンバーとしても活動しており、日本史研究の立場から人文情報学の活用の可能性についても昨今検討している。
Copyright(C) FUKUDA, Masato 2018- All Rights Reserved.


人文情報学イベント関連カレンダー

【2018年7月】

  • 発表申込み締切り:2018-07-05(Thu):
    第118回 人文科学とコンピュータ研究会発表会
    於・秋田県/秋田大学

    http://jinmoncom.jp/index.php?CH118

  • 2018-07-05(Thu):
    国際ワークショップ「デジタル文献学:東西の対話 ペルセウス・デジタル図書館(西洋古典)とSAT大蔵経DB(仏典)」
    於・東京都/東京大学本郷キャンパス 法文1号館312教室

    http://21dzk.l.u-tokyo.ac.jp/kibans/workshops.html

  • 2018-07-06(Fri):
    国際シンポジウム「デジタル時代の人文学のための学術基盤を考える」
    於・東京都/一橋大学一橋講堂

    http://21dzk.l.u-tokyo.ac.jp/kibans/sympo2018/

  • 2018-07-08(Sun):
    中国社会文化学会シンポジウム「新たなデジタル化時代の中国研究」
    於・東京都/東京大学本郷キャンパス 法文2号館 文学部1番大教室

    http://www.l.u-tokyo.ac.jp/ASCSC/nenjitaikai.html

  • 発表申込み締切り:2018-07-15(Sun):
    9th International Conference of Digital Archives and Digital Humanities
    於・台湾/Dharma Drum Institute of Liberal Arts

    http://dadh2018.dila.edu.tw/?lang=en

  • 2018-07-21(Sat):
    シンポジウム 「文字情報データベースの保存と継承」
    於・京都府/京都大学人文科学研究所本館(総合研究4号館)・共通1講義室

    http://hng-data.org/events/2018-07-21.ja.html

  • 2018-07-21(Sat):
    シンポジウム「教育・研究資源としてのデジタルアーカイブ:その管理・活用・保存」
    於・東京都/東京大学本郷キャンパス 東京大学大学院経済学研究科学術交流棟(小島ホール)2階

    URLが長いためリンクのみ表示します

  • 2018-07-27(Fri)〜2018-07-28(Sat):
    第4回日本語の歴史的典籍国際研究集会
    於・東京都/国文学研究資料館 2F大会議室

    https://www.nijl.ac.jp/pages/cijproject/sympo20180727.html

  • 2018-07-29(Sun):
    ガッツリ学ぶTEI一日講座 ~TEIの入門から応用まで~
    於・大阪府/関西大学千里山キャンパス 以文館2階(24講義室)

    http://www.ku-orcas.kansai-u.ac.jp/news/20180620_119/

【2018年8月】

【2018年9月】

  • 発表申込み締切り:2018-09-03(Mon):
    じんもんこん2018 人文科学とコンピュータシンポジウム
    於・東京都/東京大学地震研究所(東京都文京区)

    http://jinmoncom.jp/sympo2018/

  • 2018-09-09(Sun)〜2018-09-13(Thu):
    TEI Conference 2018
    於・東京都/一橋大学一橋講堂

    https://tei2018.dhii.asia

  • 2018-09-09(Sun)〜2018-09-11(Tue):
    日本デジタル・ヒューマニティーズ学会 JADH 2018 "LEVERAGING OPEN DATA"
    於・東京都/一橋大学一橋講堂

    https://conf2018.jadh.org

Digital Humanities Events カレンダー共同編集人

小林雄一郎日本大学生産工学部
瀬戸寿一東京大学空間情報科学研究センター
佐藤 翔同志社大学免許資格課程センター 助教
永崎研宣一般財団法人人文情報学研究所
亀田尭宙京都大学東南アジア地域研究研究所
堤 智昭東京電機大学情報環境学部

◆編集後記

編集体制の変更にともない、今月号からは、一般財団法人人文情報学研究所が単独で刊行することとなりました。 ここまで編集を引き受けてくださったACADEMIC RESOURCE GUIDE(ARG)のみなさまには深く感謝いたします。 当研究所としては、メールマガジンの割り付け校正は初めてのことですので、十分に行き届かないこともあるかもしれませんが、引き続きご高覧いただけますと幸いです。

イベントカレンダーでは、関連するイベントの研究発表締切りについても掲載を試みております。 これにつきましても、情報をお持ちの方はぜひお寄せいただけますと幸いです。

なお、現行のメールマガジン配信システムでは、テキストメールだと1行字数に制限があり、段落を適切に表現できないことから、今回は試験的にHTMLメール形式としてみました。 HTMLにしたことで、ウムラウト付きのアルファベット等も表示できるようになりました。 しかしながら、HTMLメールを読めない環境の方もおありかもしれませんので、今回はその旨お知らせいただいた方にはテキストメール(段落が適切でないですが)をお送りするという措置をとらせていただきします。 本メールにもコメントアウトとしてその旨記載しておりますので、テキストメールでお受け取りの方はそれを見てお送りいただければと存じます。 (永崎)



Tweet: