今回は、連載第5回に引き続き、デジタル・ヒストリーにおける新聞史料について考察していきたい。題材は、HiekeHuistraとBramMellinkによる論文で、デジタル化の進展が著しい新聞史料を対象とした情報の選択について考察したものである[1]。同論文の目的は、多くの歴史家にとって最も身近で最も利用されているデジタル化の恩恵である「全文検索」という行為が、実は驚くほど理論化・体系化されていないままであることを問題視し、この全文検索の欠点を指摘し、その欠点を克服するための手法を提案しようとすることである。本誌の読者の方々にとっては当然と思われる手法が含まれるかもしれないが、そういった知見を歴史研究コミュニティに還元することこそ本連載の趣旨であるため、今回は全文検索に焦点を絞ることとした。以下、同論文の構成にしたがって論旨を紹介しつつ、適宜コメントを付していきたい。 著者らは、ほとんどのデジタルリポジトリが、ブラウジングよりも検索に優位を置いているとする。ほとんどのユーザインタフェースは、検索ボックスを最上位に配置しており、新聞史料へのアクセスはまず検索行為から始まるように設計されている。このような設計のデジタルリポジトリから情報を得ようとするならば、歴史家は自ずと特定の語を通じてその情報にアクセスすることを強いられている。もちろん、そのような全文検索にも利点はあり、同論文ではBobNicholsonの議論を引いてこれを説明しようとしている。 BobNicholsonは、2013年の論文で[2]、デジタル化された新聞史料を対象とした検索行為の特質について、次のように説明している。すなわち、デジタル化以前の新聞史料の検索は、まずはどの新聞にあたるかを決定し、その後、どの号・どの日付、どの見出し・どのトピック、そして最終的にどの記事を読むかにたどりつくという、トップダウン型の検索行為であった。一方、デジタル化された新聞史料の検索は、まずはキーワードを検索ボックスに入力し、そこからヒットした記事に直接アクセスすることになり、見出しや号、新聞の種類といった情報は、記事の選択には決定的な役割を果たさないという、ボトムアップ型の検索行為である、と。トップダウン型の検索は、特定の日付に紐づけられた歴史的事象を調査する場合には効力を発揮する一方、ボトムアップ型の検索は、特定の日付とは関係が薄い、特定の事件への認識の変化などをたどろうとする時に有効である。 しかし、ここで問題として浮かび上がってくるのは、ボトムアップ型の検索にあたって、さまざまな用語で説明できるようなトピックをどれほどまでに絞り込むことができるか、あるいは検索クエリから抜け落ちる点をどう説明し、検索結果の代表性をどう説明できるか、といった点である。 全文検索の弱点は、言い回しと意味の違い、すなわち単語とトピックの違いに尽きる。同論文で紹介されているCharlesUpchurchの研究は、1820~1870年のイギリスの新聞史料における男性同士の性行為の報道を調査するものであり、デジタル新聞史料データベースであるBritishLibraryNewspapers1800–1900が利用可能になるまでは、Palmer’sIndextotheTimesというタイムズ紙の19世紀の調査ガイドのCD-ROMを利用していたという。Upchurchは、このPalmer’sIndexの方が、研究関心に直接結びつく記事を見つけることができたというのだが、それはこのPalmer’sIndexが、人手による編集を経て作成されたトピック索引だったからである。たとえば、“Abominablecrime(忌まわしい犯罪)”というトピックがPalmer’sIndexで用意されているからといって、それをそのままキーワード検索の語としてBritishLibraryNewspapers1800–1900に入力しても、男性同士の性行為というよりは、むしろ殺人や性犯罪とは関係のない犯罪を扱った記事が出てくることがほとんどであったという。つまり、人手による編集を経て作成されたトピック索引では、そのトピックとは無関係だと索引作成者が判断したものは事前に排除されているため、同じ単語を使っていても別の事象に言及している偽陽性(falsepositives)の結果を初めから検討する必要がない。しかも、このトピック索引では、違う単語を使っていてもその事象に言及している偽陰性(falsenegatives)の結果を拾うことができ、これはキーワードに依存する全文検索にはできない芸当である。索引作成者の判断が介入する点には、当然のことながら注意する必要がある。 また、単一のテキストを超えて抽象的な概念を検討する場合、キーワード検索はより脆弱になる。時代・地域の違いはもとより、書き手が変われば言葉遣いが変わるのであるから、同じ単語を使って同じ現象の推移や変遷をたどろうとするのは甚だ困難である。ここまで述べてきた言い回しと意味の違いこそが、全文検索にあたって適切なキーワードを選定する際の困難さの原因である。 ここまで述べてきた困難を解決するために、同論文では二つの検索方法を提案している。それが、関連づけ検索(relatedsearching)と重みづけ検索(weightedsearching)である。 関連づけ検索は、技術的にはワイルドカードとOR/AND検索を活用する。肝心なのは、トピックAの検索結果を保持しながら、その結果と関連する範囲でトピックBの検索結果を絞り込むという、いわばベン図の積集合(A∩B)を求める点にある。 同論文では、WarinParliamentという研究プロジェクトが紹介されており、このプロジェクトは、1960年代のオランダ右翼政党であった農民党(Boerenpartij)の議員がナチズムに賛意を表明していたことに対して非難が集まっていたという歴史家の評価を、デジタル手法を使って検証しようとするものである。ここではまず、「ナチズムへの賛意」というトピックAと、「農民党の議員」というトピックBに含まれる新聞記事をそれぞれ可能な限り洗い出すことから始める。その際、以下のような検索クエリを入力することにより、ナチズムに関連する可能性のある語の検索結果の和集合を求めることになる。目次
【前編】
「
「【後編】
「《連載》「
「
この関連づけ検索は、単語セット同士の関係性に依存することが長所でもあり、短所でもあるという。つまり、それらのセット同士に明確な関係性がある場合にのみ強力に働くということである。一方、もうひとつの検索手法として提案されている重みづけ検索は、単純な全文検索に近く、検索語の重要度を研究者が事前に指定しておく方法である。ドイツの政治学者たちの研究プロジェクトePol[3]では、戦後ドイツの新自由主義言説を調査する目的で、この重みづけ検索を用いたという。このプロジェクトでは、(“freemarket”ORliberalORright)のような一般的に用いられる検索語の和集合では検索結果が多すぎるし、(“freemarket”ANDliberal)のような検索語の積集合では検索結果が少ないことを問題視していた。
重みづけ検索にあたっては、検索語を選定する前の準備が必要である。ePolでは、新自由主義の言説形成に影響を与えたと一般的に考えられている36点のテキストを材料に、新自由主義を言い表す500以上の語、たとえばfreemarket,privatization,personalresponsibilityといった検索語のリストを、相対的な数値とともにランキング形式で作成したという。Privatizationはfreedomよりも点数が高い、といったように、研究トピックに具体的に直結する語の価値を高めようとするものである。実際の検索方法については残念ながら同論文では解説されていないが、この重みづけ検索によって、クエリに含まれる単語が検索結果として出現するかどうかについて考える必要がなくなったと結論づけている。
もちろん、重みづけ検索に用いる価値の高い単語リストを作成するための36点のテキストの選択に恣意性が含まれていないか、といった批判はあり得るが、このような批判に対しても同論文は、デジタル以前の分析手法にも共通する問題であると反論する。デジタル技術の登場によって、とかく分析の信憑性が問われるようになることがある。しかし、翻ってそれがデジタル以前の研究手法を問い直すことになるというのもまたよくあることである。研究過程のさまざまな局面におけるデジタル技術の影響を逐一検証していくことは、本連載でも取り上げてきたデジタル解釈学の観点から重要である。
今回は、あまりにも身近な全文検索の中でも、より精緻な検索を可能にする関連づけ検索と重みづけ検索について、HuistraとMellinkの論文を紹介しながら検討してきた。その際、検索語の設定や重みづけの基準など、分析結果に影響を与えうる研究者自身の選択や判断の履歴を追跡できるようにしておくことが重要であるという論点も扱った。大量のデータから何を選ぶか、その選択の妥当性をどう説明できるか、といった論点は、このデジタル時代に広く見られる問題であり、デジタル・ヒストリーやデジタル・ヒューマニティーズとも切り離せない重要なものである。次回以降、また新聞史料について検討する機会を設けたい。
2022年7月11日から15日、ロンドン大学・ICS(InstituteofClassicalStudies)において、「3DImagingandModellingforClassicsandCulturalHeritage」と題するサマースクールが開催され、筆者もこれに参加した。
3Dを扱うトピックに関しては近年、デジタル・ヒューマニティーズ分野全体でみても関心が高まっており、その具体的な利用についてはもちろん、理論面でも重要な研究が出始めている。例えば、TEI(TextEncodingInitiative)を中心としたDigitalScholarlyEdition(デジタル学術編集版)についての研究を第一線でリードしてきたオランダ・マーストリヒト大学のSusanSchreibman氏は、従来のDigitalScholarlyEditionの概念を3Dに拡張した3DScholarlyEditionという概念を提出している[1]。そこでは、事物の3Dモデルや仮想空間そのものが「テクスト」とみなされ、関連情報や解釈が注釈という形で付与されることになるだろうが、その方法はやはり従来の2Dなテクストとは多少なりとも異なるものになるはずである。その手法がどうあるべきか、それを研究材料として用いる場合、どのような点に注意すべきかといった問題がまさに問われ始めているのであり、3DScholarlyEditionという概念は、そうした議論を惹起するものとして大きな意義を持つ。こうした、デジタル・ヒューマニティーズひいては人文学研究そのものの方法論をめぐる議論を踏まえつつ、具体的な事例研究も各所で行われている。そうした研究を枚挙することはここではできないが、Schreibman氏自身が共同研究者のCostasPapadopoulos氏とともにPURE3Dというプロジェクトを主導し[2]、1916年のイースター蜂起におけるマウント・ストリート橋の戦いについての3DScholarlyEditionを構築する試みを進めている他[3]、最新の事例としては、17世紀のオランダにおける貴族邸宅の内装を3Dで再構築し、再構築に用いた資料や関連情報をLinkedOpenDataとして検索可能な形で提供するなど、3Dを用いた新たな研究プラットフォームの構築を目指すアムステルダム大学の研究がある[4]。
このように、各所で3Dに関する研究が進む中で、ロンドン大学・ICSも3Dを用いた人文学研究へのコミットを強めている。そもそもロンドン大学は、デジタル・ヒューマニティーズ研究の一大拠点であり、最先端の研究が行われる機関である。その中でICSも、DigitalClassics(デジタル古典学)を専門とするGabrielBodard氏を中心に、デジタル技術を用いた西洋古典・古代史研究を世界的にリードしてきた経緯がある。例えば、同機関が主催するDigitalClassicistLondonSeminarsは、当該分野におけるまさに最先端の研究に触れることのできる場を提供している[5]。3Dに関しても、同大学図書館が所蔵するEhrenbergCollectionのSketchfabでの公開[6]、定期的な3Dワークショップの開催など[7]、活発な活動を行なっており、とくに2017年以降、3D文化遺産研究で学位を取得したValeriaVitale氏が加わったことで[8]、いまやこの分野でも世界をリードする機関となりつつある。3DサマースクールはICSのこのような活動の一環として2021年から開催されているものであり、デジタル・ヒューマニティーズにおける3D関連研究の重要性の高まりという文脈の中で捉えられるべきであろう。
さて、ここからは今回のサマースクールの具体的な内容について述べたい。開催場所は、大英博物館の真裏、ロンドン大学の中心的な図書館も入るSenateHouseであった。
まず、主催者側からはチューターとしてICSのBodard氏、そして外部インストラクターとして、3D技術を用いた考古学研究の専門家であるAliciaWalsh氏が参加した[9]。受講者は計8名で、地元であるイギリスはもちろん、ベルギー、アメリカからの参加者もみられた。研究分野としては、やはり考古学(あるいは極めて考古学に近い歴史学、人類学)が多かったように思う。全体のプログラム構成としては大きく、3Dimagingを扱う前半と3Dmodellingを扱う後半に分かれており、前者はフォトグラメトリによる現存するオブジェクトの3Dモデル化、後者は現存しないオブジェクトや建造物、空間の3Dによる再構築を学んだ。ちなみに、3D関連の用語としては両者を一括して3Dmodellingと称することもあるが、少なくともICSでは常に両者を区別しており、筆者としても、この区別に賛同する[10]。
初日は、サマースクール全体のイントロダクション、自己紹介の後、施設の簡単な紹介があった。ICSには、DigitalHumanitiesLabと称される研究室が存在し、そこには3Dimaging(フォトグラメトリやレーザースキャンによる物体の3Dモデル作成)のための設備や3Dプリンターが設置されており、まさに「実験室」であった。元来は古典や古代史研究のための施設であるICSにこのような部屋が存在するというのは大変興味深く、人文学研究とデジタル技術を用いた実験的な試行錯誤が空間的にも融合しているような印象を受けた。
その後、参加者は図書館に入館(入館カードを作成してもらい、今後も入館可能)し、そこにコレクションされているオブジェクトの中からフォトグラメトリする対象を選ぶと、先の「実験室」で、インストラクターの指導のもと実際に撮影を行い、3DモデリングソフトのMetaShapeを用いて3Dモデルを実際に作成した。筆者は、サマースクール参加以前にすでにフォトグラメトリを行った経験があったが、「実験室」に装備された回転台(オブジェクトを載せて回転させる)や照明器具を用いた撮影は経験がなく、整備された環境の中で撮影をすることの意義と有効性を確認することができた。オブジェクトの撮影、モデル作成、そして完成したモデルのSketchfabへのアップロード作業は2日目の午前まで行われ、フォトグラメトリの一通りの過程を習得することが目指された。個人的には、モデルのSketchfabへのアップロード過程において、これまであまり触れてこなかったモデルに関する詳細な設定方法についての説明を受けられたことが非常に有意義であった。ちなみに、Sketchfabにアップロードした個々の参加者のモデルは、EhrenbergCollectionの一部として公開されている[11]。
(2日目午後は、フィールドトリップとしてロンドン・聖パンクラス教会の…)【長くなるので、以下は別途、後編等として書きたいと思います】
先月号で特集したDH2022は、ADHOの国際学術大会としては初めて、公式のフルオンライン会議として開催されましたが、700名の参加者があり、盛況のうちに終了しました。今後も色々な形で本メールマガジンでも採りあげていきたいと思っています。
大変残念なことに、2018年から本メールマガジンの校正をしてくださっていた近藤隼人氏が先月急逝されました。筑波大学の助教として将来を嘱望された若手研究者であり、同時に校正のスペシャリストでもあり、本メールマガジンの質を高めることに大きく貢献してきてくださった方でした。近藤氏のこれまでのご貢献への感謝とともに、ご冥福をお祈りいたします。
(永崎研宣)