ISSN 2189-1621

 

現在地

DHM 132 【後編】

人文情報学月報/Digital Humanities Monthly


人文情報学月報第132号【後編】

Digital Humanities Monthly No. 132-2

ISSN 2189-1621 / 2011年08月27日創刊

2022年07月31日発行 発行数933部

目次

【前編】

  • 《巻頭言》「TEI ガイドラインの入門書に託す期待
    永崎研宣一般財団法人人文情報学研究所
  • 《連載》「Digital Japanese Studies 寸見」第88回
    京都大学・プリンストン大学が共同で駿河伊達文書(中世史料)を公開
    岡田一祐北海学園大学人文学部
  • 《連載》「欧州・中東デジタル・ヒューマニティーズ動向」第49回
    第12回国際コプト学会(於:ブリュッセル自由大学)における DH 関連チュートリアル・研究発表に参加して
    宮川創人間文化研究機構国立国語研究所研究系

【後編】

  • 《連載》「デジタル・ヒストリーの小部屋」第7回
    全文検索、うまく使いこなせていますか:デジタル・ヒストリーと新聞史料(2)
    小風尚樹千葉大学人文社会科学系教育研究機構
  • 人文情報学イベント関連カレンダー
  • イベントレポート「「3D Imaging and Modelling for Classics and Cultural Heritage」参加記
    小川潤ROIS-DS 人文学オープンデータ共同利用センター(CODH)
  • 編集後記

《連載》「デジタル・ヒストリーの小部屋」第7回

全文検索、うまく使いこなせていますか:デジタル・ヒストリーと新聞史料(2)

小風尚樹千葉大学人文社会科学系教育研究機構助教

はじめに

今回は、連載第5回に引き続き、デジタル・ヒストリーにおける新聞史料について考察していきたい。題材は、Hieke Huistra と Bram Mellink による論文で、デジタル化の進展が著しい新聞史料を対象とした情報の選択について考察したものである[1]。同論文の目的は、多くの歴史家にとって最も身近で最も利用されているデジタル化の恩恵である「全文検索」という行為が、実は驚くほど理論化・体系化されていないままであることを問題視し、この全文検索の欠点を指摘し、その欠点を克服するための手法を提案しようとすることである。本誌の読者の方々にとっては当然と思われる手法が含まれるかもしれないが、そういった知見を歴史研究コミュニティに還元することこそ本連載の趣旨であるため、今回は全文検索に焦点を絞ることとした。以下、同論文の構成にしたがって論旨を紹介しつつ、適宜コメントを付していきたい。

特定の検索語に依存する全文検索の弱点

著者らは、ほとんどのデジタルリポジトリが、ブラウジングよりも検索に優位を置いているとする。ほとんどのユーザインタフェースは、検索ボックスを最上位に配置しており、新聞史料へのアクセスはまず検索行為から始まるように設計されている。このような設計のデジタルリポジトリから情報を得ようとするならば、歴史家は自ずと特定の語を通じてその情報にアクセスすることを強いられている。もちろん、そのような全文検索にも利点はあり、同論文では Bob Nicholson の議論を引いてこれを説明しようとしている。

Bob Nicholson は、2013年の論文で[2]、デジタル化された新聞史料を対象とした検索行為の特質について、次のように説明している。すなわち、デジタル化以前の新聞史料の検索は、まずはどの新聞にあたるかを決定し、その後、どの号・どの日付、どの見出し・どのトピック、そして最終的にどの記事を読むかにたどりつくという、トップダウン型の検索行為であった。一方、デジタル化された新聞史料の検索は、まずはキーワードを検索ボックスに入力し、そこからヒットした記事に直接アクセスすることになり、見出しや号、新聞の種類といった情報は、記事の選択には決定的な役割を果たさないという、ボトムアップ型の検索行為である、と。トップダウン型の検索は、特定の日付に紐づけられた歴史的事象を調査する場合には効力を発揮する一方、ボトムアップ型の検索は、特定の日付とは関係が薄い、特定の事件への認識の変化などをたどろうとする時に有効である。

しかし、ここで問題として浮かび上がってくるのは、ボトムアップ型の検索にあたって、さまざまな用語で説明できるようなトピックをどれほどまでに絞り込むことができるか、あるいは検索クエリから抜け落ちる点をどう説明し、検索結果の代表性をどう説明できるか、といった点である。

適切な検索語を選ぶことの難しさ

全文検索の弱点は、言い回しと意味の違い、すなわち単語とトピックの違いに尽きる。同論文で紹介されている Charles Upchurch の研究は、1820~1870年のイギリスの新聞史料における男性同士の性行為の報道を調査するものであり、デジタル新聞史料データベースである British Library Newspapers 1800–1900 が利用可能になるまでは、Palmer’s Index to the Times というタイムズ紙の19世紀の調査ガイドの CD-ROM を利用していたという。Upchurch は、この Palmer’s Index の方が、研究関心に直接結びつく記事を見つけることができたというのだが、それはこの Palmer’s Index が、人手による編集を経て作成されたトピック索引だったからである。たとえば、“Abominable crime(忌まわしい犯罪)”というトピックが Palmer’s Index で用意されているからといって、それをそのままキーワード検索の語として British Library Newspapers 1800–1900 に入力しても、男性同士の性行為というよりは、むしろ殺人や性犯罪とは関係のない犯罪を扱った記事が出てくることがほとんどであったという。つまり、人手による編集を経て作成されたトピック索引では、そのトピックとは無関係だと索引作成者が判断したものは事前に排除されているため、同じ単語を使っていても別の事象に言及している偽陽性(false positives)の結果を初めから検討する必要がない。しかも、このトピック索引では、違う単語を使っていてもその事象に言及している偽陰性(false negatives)の結果を拾うことができ、これはキーワードに依存する全文検索にはできない芸当である。索引作成者の判断が介入する点には、当然のことながら注意する必要がある。

また、単一のテキストを超えて抽象的な概念を検討する場合、キーワード検索はより脆弱になる。時代・地域の違いはもとより、書き手が変われば言葉遣いが変わるのであるから、同じ単語を使って同じ現象の推移や変遷をたどろうとするのは甚だ困難である。ここまで述べてきた言い回しと意味の違いこそが、全文検索にあたって適切なキーワードを選定する際の困難さの原因である。

洗練された検索方法の提案

ここまで述べてきた困難を解決するために、同論文では二つの検索方法を提案している。それが、関連づけ検索(related searching)と重みづけ検索(weighted searching)である。

関連づけ検索は、技術的にはワイルドカードと OR/AND 検索を活用する。肝心なのは、トピック A の検索結果を保持しながら、その結果と関連する範囲でトピック B の検索結果を絞り込むという、いわばベン図の積集合(A∩B)を求める点にある。

同論文では、War in Parliament という研究プロジェクトが紹介されており、このプロジェクトは、1960年代のオランダ右翼政党であった農民党(Boerenpartij)の議員がナチズムに賛意を表明していたことに対して非難が集まっていたという歴史家の評価を、デジタル手法を使って検証しようとするものである。ここではまず、「ナチズムへの賛意」というトピック A と、「農民党の議員」というトピック B に含まれる新聞記事をそれぞれ可能な限り洗い出すことから始める。その際、以下のような検索クエリを入力することにより、ナチズムに関連する可能性のある語の検索結果の和集合を求めることになる。

fascis* OR NSB OR “politiek delinquent” OR...

ここで見られるのは、語頭を指定して任意の語尾で終わる単語を検索するワイルドカード、完全一致の検索で使用する二重引用符、そして和集合を求める OR 検索である。できるだけ多くの同義語を使用することにより、検索結果の代表性を高める効果がある。検索結果は、8000件であったという。同様に、トピック B に関しては、農民党の党名や所属議員の固有名詞を OR 検索でつなげてクエリを投げ、12000件のヒット数を得た。これら A と B の積集合を求めるために、

(トピック A の検索クエリ全文) AND (トピック B の検索クエリ全文)

と AND 演算子によって二つのクエリを組み合わせると、179件の検索結果を得たという。これにより、目視で充分に確認できる程度の検索数にまで絞り込むことができた。もちろん、検索語の指定の工夫により、ヒット数が変化することはあり得るし、これですべての関連記事がヒットしたことを証明できるわけでもない。しかし、デジタル技術の活用の有無にかかわらず完全な検索はありえない。重要なのは、この関連づけ検索で用いたクエリ自体を脚注などに記しておくことによって、読者に対して分析の透明性と信憑性を担保しようとする姿勢である、と同論文の考察部分では述べられている。

この関連づけ検索は、単語セット同士の関係性に依存することが長所でもあり、短所でもあるという。つまり、それらのセット同士に明確な関係性がある場合にのみ強力に働くということである。一方、もうひとつの検索手法として提案されている重みづけ検索は、単純な全文検索に近く、検索語の重要度を研究者が事前に指定しておく方法である。ドイツの政治学者たちの研究プロジェクト ePol[3]では、戦後ドイツの新自由主義言説を調査する目的で、この重みづけ検索を用いたという。このプロジェクトでは、(“free market” OR liberal OR right)のような一般的に用いられる検索語の和集合では検索結果が多すぎるし、(“free market” AND liberal)のような検索語の積集合では検索結果が少ないことを問題視していた。

重みづけ検索にあたっては、検索語を選定する前の準備が必要である。ePol では、新自由主義の言説形成に影響を与えたと一般的に考えられている36点のテキストを材料に、新自由主義を言い表す500以上の語、たとえば free market, privatization, personal responsibility といった検索語のリストを、相対的な数値とともにランキング形式で作成したという。Privatization は freedom よりも点数が高い、といったように、研究トピックに具体的に直結する語の価値を高めようとするものである。実際の検索方法については残念ながら同論文では解説されていないが、この重みづけ検索によって、クエリに含まれる単語が検索結果として出現するかどうかについて考える必要がなくなったと結論づけている。

もちろん、重みづけ検索に用いる価値の高い単語リストを作成するための36点のテキストの選択に恣意性が含まれていないか、といった批判はあり得るが、このような批判に対しても同論文は、デジタル以前の分析手法にも共通する問題であると反論する。デジタル技術の登場によって、とかく分析の信憑性が問われるようになることがある。しかし、翻ってそれがデジタル以前の研究手法を問い直すことになるというのもまたよくあることである。研究過程のさまざまな局面におけるデジタル技術の影響を逐一検証していくことは、本連載でも取り上げてきたデジタル解釈学の観点から重要である。

おわりに

今回は、あまりにも身近な全文検索の中でも、より精緻な検索を可能にする関連づけ検索と重みづけ検索について、Huistra と Mellink の論文を紹介しながら検討してきた。その際、検索語の設定や重みづけの基準など、分析結果に影響を与えうる研究者自身の選択や判断の履歴を追跡できるようにしておくことが重要であるという論点も扱った。大量のデータから何を選ぶか、その選択の妥当性をどう説明できるか、といった論点は、このデジタル時代に広く見られる問題であり、デジタル・ヒストリーやデジタル・ヒューマニティーズとも切り離せない重要なものである。次回以降、また新聞史料について検討する機会を設けたい。

[1] Hieke Huistra & Bram Mellink, “Phrasing History: Selecting Sources in Digital Repositories,” Historical Methods: A Journal of Quantitative and Interdisciplinary History, Vol. 49, No. 4, 2016, pp. 220–229, https://doi.org/10.1080/01615440.2016.1205964.
[2] Bob Nicholson, “The Digital Turn: Exploring the Methodological Possibilities of Digital Newspaper Archives,” Media History, Vol. 19, Issue 1, 2013, pp. 59–73, https://doi.org/10.1080/13688804.2012.752963.
Copyright(C) KOKAZE, Naoki 2022– All Rights Reserved.

人文情報学イベント関連カレンダー

【2022年8月】

【2022年9月】

Digital Humanities Events カレンダー共同編集人

小林雄一郎日本大学生産工学部
瀬戸寿一駒澤大学文学部地理学科
佐藤 翔同志社大学免許資格課程センター
永崎研宣一般財団法人人文情報学研究所
亀田尭宙国立歴史民俗博物館研究部情報資料研究系
堤 智昭筑波大学人文社会系
菊池信彦国文学研究資料館

イベントレポート「「3D Imaging and Modelling for Classics and Cultural Heritage」参加記

小川潤ROIS-DS 人文学オープンデータ共同利用センター(CODH)特任研究員

2022年7月11日から15日、ロンドン大学・ICS(Institute of Classical Studies)において、「3D Imaging and Modelling for Classics and Cultural Heritage」と題するサマースクールが開催され、筆者もこれに参加した。

3D を扱うトピックに関しては近年、デジタル・ヒューマニティーズ分野全体でみても関心が高まっており、その具体的な利用についてはもちろん、理論面でも重要な研究が出始めている。例えば、TEI(Text Encoding Initiative)を中心とした Digital Scholarly Edition(デジタル学術編集版)についての研究を第一線でリードしてきたオランダ・マーストリヒト大学の Susan Schreibman 氏は、従来の Digital Scholarly Edition の概念を3D に拡張した3D Scholarly Edition という概念を提出している[1]。そこでは、事物の3D モデルや仮想空間そのものが「テクスト」とみなされ、関連情報や解釈が注釈という形で付与されることになるだろうが、その方法はやはり従来の2D なテクストとは多少なりとも異なるものになるはずである。その手法がどうあるべきか、それを研究材料として用いる場合、どのような点に注意すべきかといった問題がまさに問われ始めているのであり、3D Scholarly Edition という概念は、そうした議論を惹起するものとして大きな意義を持つ。こうした、デジタル・ヒューマニティーズひいては人文学研究そのものの方法論をめぐる議論を踏まえつつ、具体的な事例研究も各所で行われている。そうした研究を枚挙することはここではできないが、Schreibman 氏自身が共同研究者の Costas Papadopoulos 氏とともに PURE3D というプロジェクトを主導し[2]、1916年のイースター蜂起におけるマウント・ストリート橋の戦いについての3D Scholarly Edition を構築する試みを進めている他[3]、最新の事例としては、17世紀のオランダにおける貴族邸宅の内装を3D で再構築し、再構築に用いた資料や関連情報を Linked Open Data として検索可能な形で提供するなど、3D を用いた新たな研究プラットフォームの構築を目指すアムステルダム大学の研究がある[4]。

このように、各所で3D に関する研究が進む中で、ロンドン大学・ICS も3D を用いた人文学研究へのコミットを強めている。そもそもロンドン大学は、デジタル・ヒューマニティーズ研究の一大拠点であり、最先端の研究が行われる機関である。その中で ICS も、Digital Classics(デジタル古典学)を専門とする Gabriel Bodard 氏を中心に、デジタル技術を用いた西洋古典・古代史研究を世界的にリードしてきた経緯がある。例えば、同機関が主催する Digital Classicist London Seminars は、当該分野におけるまさに最先端の研究に触れることのできる場を提供している[5]。3D に関しても、同大学図書館が所蔵する Ehrenberg CollectionのSketchfab での公開[6]、定期的な3D ワークショップの開催など[7]、活発な活動を行なっており、とくに2017年以降、3D 文化遺産研究で学位を取得した Valeria Vitale 氏が加わったことで[8]、いまやこの分野でも世界をリードする機関となりつつある。3D サマースクールは ICS のこのような活動の一環として2021年から開催されているものであり、デジタル・ヒューマニティーズにおける3D 関連研究の重要性の高まりという文脈の中で捉えられるべきであろう。

さて、ここからは今回のサマースクールの具体的な内容について述べたい。開催場所は、大英博物館の真裏、ロンドン大学の中心的な図書館も入る Senate House であった。

Senate House の外観(正面)

まず、主催者側からはチューターとして ICS の Bodard 氏、そして外部インストラクターとして、3D 技術を用いた考古学研究の専門家である Alicia Walsh 氏が参加した[9]。受講者は計8名で、地元であるイギリスはもちろん、ベルギー、アメリカからの参加者もみられた。研究分野としては、やはり考古学(あるいは極めて考古学に近い歴史学、人類学)が多かったように思う。全体のプログラム構成としては大きく、3D imaging を扱う前半と3D modelling を扱う後半に分かれており、前者はフォトグラメトリによる現存するオブジェクトの3D モデル化、後者は現存しないオブジェクトや建造物、空間の3D による再構築を学んだ。ちなみに、3D 関連の用語としては両者を一括して3D modelling と称することもあるが、少なくとも ICS では常に両者を区別しており、筆者としても、この区別に賛同する[10]。

初日は、サマースクール全体のイントロダクション、自己紹介の後、施設の簡単な紹介があった。ICS には、Digital Humanities Lab と称される研究室が存在し、そこには3D imaging(フォトグラメトリやレーザースキャンによる物体の3D モデル作成)のための設備や3D プリンターが設置されており、まさに「実験室」であった。元来は古典や古代史研究のための施設である ICS にこのような部屋が存在するというのは大変興味深く、人文学研究とデジタル技術を用いた実験的な試行錯誤が空間的にも融合しているような印象を受けた。

Digital Humanities Lab と参加者

その後、参加者は図書館に入館(入館カードを作成してもらい、今後も入館可能)し、そこにコレクションされているオブジェクトの中からフォトグラメトリする対象を選ぶと、先の「実験室」で、インストラクターの指導のもと実際に撮影を行い、3D モデリングソフトの MetaShape を用いて3D モデルを実際に作成した。筆者は、サマースクール参加以前にすでにフォトグラメトリを行った経験があったが、「実験室」に装備された回転台(オブジェクトを載せて回転させる)や照明器具を用いた撮影は経験がなく、整備された環境の中で撮影をすることの意義と有効性を確認することができた。オブジェクトの撮影、モデル作成、そして完成したモデルの Sketchfab へのアップロード作業は2日目の午前まで行われ、フォトグラメトリの一通りの過程を習得することが目指された。個人的には、モデルの Sketchfab へのアップロード過程において、これまであまり触れてこなかったモデルに関する詳細な設定方法についての説明を受けられたことが非常に有意義であった。ちなみに、Sketchfab にアップロードした個々の参加者のモデルは、Ehrenberg Collection の一部として公開されている[11]。

(2日目午後は、フィールドトリップとしてロンドン・聖パンクラス教会の…)【長くなるので、以下は別途、後編等として書きたいと思います】

[1] Susan Schreibman & Costas Papadopoulos (2019), ‘Textuality in 3D: Three-dimensional (Re)constructions as Digital Scholarly Editions’, International Journal of Digital Humanities, vol.1, pp. 221–233.
[3] Costas Papadopoulos & Susan Schreibman (2019), ‘Towards 3D Scholarly Editions: The Battle of Mount Street Bridge’, Digital Humanities Quarterly, vol. 13, no. 1.
[4] Hugo Huurdeman & Chiara Piccoli (2021), ‘3D Reconstructions as Research Hubs: Geospatial Interfaces for Real-Time Data Exploration of Seventeenth-Century Amsterdam Domestic Interiors’, Open Archaeology, vol. 7, no. 1, pp. 314–336.
[5] 過去のセミナーは YouTube で視聴可能:https://www.youtube.com/channel/UCIamtu1Z62wL5XRk2mE8HKw。このセミナーについては、本誌でも高橋亮介氏が取り上げている(高橋亮介「Digital Classicists / ICS Work-in-progress seminar」『人文情報学月報』12、2012年7月)。
[7] こちらについても YouTube で視聴可能:https://www.youtube.com/watch?v=b9M89RnZ6hs
[9] Walsh 氏については以下のページを参照:https://nl.linkedin.com/in/alicia-walsh-237241105.
[10] 後述のように、この区別は3D に関わる研究データをどのように構造化し、管理するのかという問題を考える際にも重要になる可能性がある。
Copyright(C) OGAWA, Jun 2022– All Rights Reserved.

◆編集後記

先月号で特集した DH2022は、ADHO の国際学術大会としては初めて、公式のフルオンライン会議として開催されましたが、700名の参加者があり、盛況のうちに終了しました。今後も色々な形で本メールマガジンでも採りあげていきたいと思っています。

大変残念なことに、2018年から本メールマガジンの校正をしてくださっていた近藤隼人氏が先月急逝されました。筑波大学の助教として将来を嘱望された若手研究者であり、同時に校正のスペシャリストでもあり、本メールマガジンの質を高めることに大きく貢献してきてくださった方でした。近藤氏のこれまでのご貢献への感謝とともに、ご冥福をお祈りいたします。

(永崎研宣)



Tweet: