DHM 172 【前編】

dhmadmin に投稿

人文情報学月報第172号【前編】

Digital Humanities Monthly No. 172-1

ISSN 2189-1621 / 2011年08月27日創刊

2025年11月30日発行 発行数1159部

目次

【前編】

  • 《巻頭言》「計量社会科学の20年と人文情報学の交差点
    松本朋子東京理科大学教養教育研究院
  • 《連載》「欧州・中東デジタル・ヒューマニティーズ動向」第88回
    古典エチオピア語(ゲエズ語)のデジタルコーパスと写本アーカイブの動向
    宮川創筑波大学人文社会系

【後編】

  • 《連載》「英米文学と DH」第11回
    反対意見としての DH 批判・統計と方法論
    橋本健広中央大学国際情報学部
  • 人文情報学イベント関連カレンダー
  • イベントレポート「TEI 2025
    関慎太朗特定国立研究開発法人理化学研究所革新知能統合研究センター音楽情報知能チーム
  • 編集後記

《巻頭言》「計量社会科学の20年と人文情報学の交差点

松本朋子東京理科大学教養教育研究院准教授

このたびは寄稿する機会をいただき、心より感謝申し上げます。私は比較政治学と政治経済学を専門とする計量社会科学の研究者です。これまで、人文情報学の発展と歩調を合わせるように変化してきた計量社会科学の20年を、現場の一人として見つめてまいりました。本稿では、その変化の一端を私自身の研究経験と重ねながらご紹介したいと思います。

自己紹介

私の研究は、三つのタイプのデータを扱っています。

第一は、戦前日本の『人事興信録』と呼ばれる人物名鑑を中心とする歴史資料をデジタル化し、定量解析する研究です。当時のエリート社会の変容を調査しています。

第二は、戦後の長期世論調査データの解析です。個票データを用いて、世代ごとの経済認識の違いや、選挙のない時期に世論が政権の安定性にどのように影響するかを調べています。

第三は、現代社会を対象としたサーベイ実験です。オンライン調査を通じて新たにデータを収集し、人々の再分配政策への態度や社会的公正感の形成過程を分析しています。

このように、私の研究は時間軸では「過去から現在へ」、方法論では「記録から実験へ」という広がりをもっています。

「データの稀少性」から「データの豊富さ」へ

この20年間、計量社会科学の風景は劇的に変わりました。一言でいえば、それは「稀少なデータの発掘」から「豊富なデータの処理」への転換です。この変化は、人文情報学が歩んできた道と深く重なっています。

変化の要因は大きく二つあります。

第一に、テクノロジーによるデータ生成と基盤整備の進展です。光学文字認識 (OCR)、自然言語処理 (NLP)、地理情報システム (GIS) といった技術の普及により、紙の資料や地図、行政記録といった非デジタル資源をデータ化することが容易になりました。この潮流は、まさに人文情報学との接点に位置しています。こうした歴史資料のデジタル化は、研究者が過去の社会を数量的に「再構築」することを可能にしています。私が行っている研究の一部も、まさにこの技術的恩恵の上に成り立っています。

第二に、データ解析手法の進化です。データ量の爆発的増加に伴い、社会科学でも機械学習が積極的に導入されました。研究を「発見・測定・予測・因果推論」という基本的なタスクに整理し、機械学習を使って新しい概念やパターンをデータから直接見出そうとする試みが進んでいます。少量の訓練データから大規模データ全体を推定できるようになり、研究者が自らのテーマに合わせた測定を行えるようになりました。

歴史政治経済学という新しい潮流

これらの技術的・方法的進歩を背景に、近年「歴史政治経済学 (Historical Political Economy)」と呼ばれる分野が急速に発展しています。これは、過去の制度や出来事が当時/現在の社会に及ぼす影響を定量的に分析する試みです。

たとえば、スペイン王室が植民地ペルーで地方総督職を売買していた慣行が、数世紀後の地域社会の政治的不信や経済格差に影響していること (Guardado 2018)、あるいは、スターリン時代のウクライナにおける「飢餓によるテロ」の記憶が現代の政治的態度に影響していること (Rozenas & Zhukov 2019)、さらに、19世紀イギリスの選挙権拡大が議会演説の言語的複雑性を低下させたこと (Spirling 2016)など、過去と現在を結ぶ「レガシー(遺産)」を実証的に示す研究が次々と登場しています。

こうした研究の背景には、歴史資料をデジタル化し、テキストや地理情報を精密に結びつける人文情報学的アプローチがあります。資料をテキストデータ化し、さらに数値化することで、過去の社会構造や人間関係を定量的に検証できるようになったのです。

新しい現象の「発見」と「測定」

計量社会科学はまた、機械学習によって新しい社会現象の発見にも貢献しています。従来のデータベースのように事前に定義された構造や形式を持たない非構造化データを分析し、これまで観察できなかった人間行動のパターンを可視化する研究が増えました。

たとえば、アメリカの警察官が装着するボディカメラの音声データを分析した研究では、相手の人種によって市民への敬意の表し方に明確な差があることが示されました (Voigt et al. 2017)。また、Facebook の実験では、友人の顔写真とともに「投票に行こう」と呼びかけるメッセージを表示すると、投票率が約2ポイント上昇することがわかりました (Bond et al. 2012)。

このような研究は、ネット上の行動記録や映像・音声データなど、従来の社会調査では得られなかった情報源を積極的に活用する点で画期的です。人々の行動や感情を「測定可能なデータ」として扱うことで、社会科学の分析対象がこの20年で飛躍的に拡大したのです。

技術の進歩がもたらす新たな課題

しかし、こうした発展は同時に新しい課題も浮かび上がらせていると感じます。

歴史資料を扱う研究では、過去の言語や手書き文字の読解、当時の制度や文化への理解が不可欠です。社会科学の統計的手法だけでは十分でなく、人文学的な知識との融合が求められます。

かつて、私たちは大学に入ると、教授から「資料に溺れる」ことを学びました。膨大な資料と格闘する中で、資料の価値を見極める目、過去に遡るほど欠損や誤りが増すデータの性質、数値化の際に削ぎ落とされる文脈を踏まえた解釈の重要性、そして何より、その知的興奮を体験したのです。しかし今、クリック一つで資料にアクセスし、コードや生成 AI で瞬時に特徴を把握できる時代に、どうすれば次世代にこの経験的知を継承できるのか。体得した学びの体系化が、私たちの世代に課された責務だと感じています。

さらに、測定技術の進歩は新たな倫理的問題を生んでいます。人々の行動や態度を精密に測定・予測できるようになった結果、その知見が選挙戦略や広告アルゴリズムに応用され、個人の行動を誘導したり、既存の社会的不平等や偏見を再生産する事例が報告されています。データを扱う側には、分析の透明性だけでなく、「データをどのような制約のもとで公開するか」「知見をどう使うか」という倫理的責任が問われています。

未来に向けて

この20年を振り返ると、計量社会科学は単なる「統計の応用」から、計算機科学・統計学・人文学を融合させた「データサイエンス型社会科学」へと進化してきました。膨大なデジタル情報と計算技術の発展により、私たちは社会現象をかつてない精度で観察し、歴史や現代の因果関係を定量的に示す力を得ています。

そして現在、人文情報学と計量社会科学は、いずれも「デジタル化された世界で人間社会をどう理解するか」という共通の問いを抱えています。だからこそ、異なる視点から、データを介して過去と現在、数量と意味をつなぐこの二つの学問が互いに協働しながら進むことこそが、次の時代の学術の鍵になるのではないかと思います。そして、私自身もそのような協働の機会が得られることを願っております。

【参照文献】

  • Bond, Robert M., et al. "A 61-million-person experiment in social influence and political mobilization." Nature 489 (2012): 295–298.
  • Guardado, Jenny. "Office-selling, corruption, and long-term development in Peru." American political science review 112.4 (2018): 971–995.
  • Rozenas, Arturas, and Yuri M. Zhukov. "Mass repression and political loyalty: Evidence from Stalin’s ‘terror by hunger’." American political science review 113.2 (2019): 569–583.
  • Spirling, Arthur. "Democratization and linguistic complexity: The effect of franchise extension on parliamentary discourse, 1832–1915." The journal of politics 78.1 (2016): 120–136.
  • Voigt, Rob, et al. "Language from police body camera footage shows racial disparities in officer respect." Proceedings of the national academy of sciences 114.25 (2017): 6521–6526.

執筆者プロフィール

松本朋子(まつもと・ともこ)。東京理科大学准教授。専門は計量政治学・比較政治。2016年に東京大学大学院博士課程修了。博士(法学)。名古屋大学特任講師を経て、2018年より東京理科大学講師、2023年より現職。
Copyright(C) MATSUMOTO, Tomoko 2025– All Rights Reserved.

《連載》「欧州・中東デジタル・ヒューマニティーズ動向」第88回

古典エチオピア語(ゲエズ語)のデジタルコーパスと写本アーカイブの動向

宮川創筑波大学人文社会系准教授

アフリカ大陸に残る最古の文字言語の一つである古典エチオピア語(ゲエズ語)は、エチオピア正教会の聖典言語として千年以上にわたって宗教・文学の発展を支えてきた。しかし、この貴重な文献遺産の多くは未だアクセス困難な状況にあり、散逸や損傷の危機に直面している。こうした課題に対し、21世紀に入って本格化したデジタル化プロジェクトは、ゲエズ語研究に変化をもたらしつつある。本稿では、ゲエズ語文献のデジタル化の現状と展望を概観する。


図1 ゲエズ語写本の例 (Tegrāy, Gulo Makadā, ʿUrā Qirqos, manuscript Ethio-SPaRe UM-014. Miracles of Mary. Folia 10v–11r; Alessandro Bausi, CC BY 3.0 Unported)[1]

古代エチオピアのアクスム王国において4世紀にキリスト教が公的宗教として採用されて以降、ゲエズ語は宗教・文学の主要言語として発展を遂げた。現在、エチオピア及びエリトリアには数多くの修道院と教会が存在し、そこには数万点規模のゲエズ語写本が所蔵されている。しかしながら、こうした膨大な写本群のうち十分に学術調査・目録化されたものはごく一部に過ぎない。マイクロフィルム化やデジタル化が行われた写本もごく一部というのが現状であり、多くの写本は散逸・損傷の危機にさらされている。写本遺産を保存し研究可能な形で後世に伝えるための迅速な対応が求められる中、近年いくつかの国際プロジェクトが立ち上げられた。

その先駆けが、2009年から2015年にかけてハンブルク大学ヒオプ・ルドルフ記念エチオピア・エリトリア研究センターで実施された Ethio-SPaRe(「エチオピアのキリスト教文化遺産:救済、保存、研究」)プロジェクトである[2]。同プロジェクトはエチオピア北部ティグライ州の教会や修道院を中心に、貴重写本の保存・調査に取り組んだ。具体的には、重要な修道院図書館の特定、写本目録の作成、貴重写本のデジタル複製の作成、写本に含まれるテキストの分類・分析などを実施し、それらの成果を検索可能なデータベースやバーチャル文庫として公開している。このようなデジタルアーカイブ化の試みは、ゲエズ語文献の保全と研究の基盤整備に大きく寄与した。

写本保存の取り組みと並行して、デジタル技術を活用したゲエズ語研究の新展開として特筆すべきなのが、2014年から2019年にかけて実施された TraCES(翻訳から創造へ:古代末期から中世にかけてのエチオピア語の文体と語彙の変遷)[3]プロジェクトである。ハンブルク大学の Alessandro Bausi 教授主導のもと、欧州研究評議会 (ERC) の助成を受けて実施されたこのプロジェクトは、古典エチオピア語テキストの大規模コーパスを構築し、計量的手法によって文体と語彙の変遷を解明することを目的とした。

ゲエズ語文学は主に古代末期における聖書・神学書などの翻訳から始まり、中世にはコプト系アラビア語からの翻訳やオリジナルの著作もあらわされた。この長い文学史の中で生じた語彙・文法・文体上の変化に着目し、TraCES では初めて大規模なデジタルコーパスと言語学的分析を組み合わせたアプローチがとられた。校訂済みのゲエズ語テキスト群に形態・品詞情報を注釈付与したデジタルコーパスを構築することで、テキストの出自や時代ごとの語法の違いを詳細に解析することが可能となった。

形態注釈付きコーパスを用いることで、単語の出現頻度やコロケーション(共起語)の変化を計量的に検出でき、文法・語彙選択の時代的変遷が明らかになる。この分析に基づき、未知のテキストの年代推定や成立背景の推測にも新たな手掛かりが得られる。TraCES プロジェクトの成果として、形態注釈付きのコーパス一式(約100MB規模)が公開されており、研究者は自由にダウンロードして利用できる[4]。このコーパスにはテキストごとに Ge'ezTextArchive 形式・国際標準の TEI/XML 形式・多層コーパスの ANNIS 形式の3種類でデータが提供され、様々な研究に利用されている。さらに辞書も GitHub で公開されている。[5]

写本そのものの統合的なデジタルアーカイブ構築としては、2016年に開始された長期プロジェクト Beta maṣāḥǝft(ベータ・マサーヘフト)[6]が挙げられる。ハンブルク科学アカデミーの支援のもと2040年までの計画で進められているこのプロジェクトは、エチオピア及びエリトリアのキリスト教写本文化を包括的に記述・研究するためのマルチメディア環境の構築を目指している。


図2 Beta maṣāḥǝft のトップページ

Beta maṣāḥǝft は、ゲエズ語写本についてのあらゆる情報を集約する XML ベースのデジタルプラットフォームを開発している。このプラットフォーム上で、各写本に含まれるテキスト本文や訓点・欄外注記などの内容情報だけでなく、写本の物理的特徴、奥書や所有者・寄進者に関する記録といったコロフォン情報、さらには関係する機関(所蔵図書館や教会)、作者、歴代の所蔵者・筆写者といった周辺メタデータまでを一元的に記録・管理する。可能な限り高解像度の写本画像も併せて提供され、いくつかの写本については校訂テキストや翻刻もテキストデータとして追加公開されている。

その特筆すべき機能の一つに、ハイパーカタログ(統合目録)による横断検索がある。他の既存オンライン写本データベースと連携しており、利用者はエチオピア系写本の諸データベースをまとめて検索できる。欧米の図書館に所蔵される写本から、エチオピア・エリトリア国内に現存する写本まで、利用可能な限り幅広いデータを包含している。このプラットフォーム上では、写本そのものの目録(レポジトリ)に加え、写本に含まれるテキストの統合目録(Clavis Aethiopica)、関連する学術文献のデータベース(注釈付き書誌)、写本の書写地や所蔵先となった教会・修道院の地名事典、筆者・訳者・所有者など人物データ集といった、写本文化研究に必要な周辺情報も統合的に提供される。Beta maṣāḥǝft はこのように多次元的なデータを蓄積・関連付けることで、エチオピアとエリトリアの豊かな写本遺産を立体的に捉えるための包括的な研究基盤を築き上げつつある。

前述したように、ゲエズ語のコーパス構築や写本アーカイブ化により、デジタル人文学の手法をこの分野に適用する道が開かれている。形態素解析情報付きコーパスを用いた頻度分析・文体分析はその一例であるが、近年ではさらに深層学習を用いた写本画像の自動テキスト化(HTR/OCR)の挑戦も始まっている[7]。デジタル化されたリソースは専門研究のみならず教育普及の面でも重要である。ゲエズ語は決して学習者の多い言語ではないが、オンライン上で誰もがコーパスやデジタル写本にアクセスできる環境が整いつつあることで、研究者・大学院生やエチオピアあるいはエリトリアの教会関係者だけでなく一般の愛好者も含めた幅広い層がこの古典言語に触れ、その研究・学習に参加できるようになりつつある。

[1] 写真は、Creative Commons Attribution 3.0 Unportedで、Bausi, Alessandro (2016) “Composite and Multiple-Text Manuscripts: The Ethiopian Evidence,” One-Volume Libraries: Composite and Multiple-Text Manuscripts, edited by Michael Friedrich and Cosima Schwarke, Berlin, Boston: De Gruyter, 2016, p. 152, DOI: https://doi.org/10.1515/9783110496956-005より。
[2] “Ethio-SPaRe: Cultural Heritage of Christian Ethiopia. Salvation, Preservation, Research,” HLCEES Hiob Ludolf Centre for Ethiopian and Eritrean Studies, Universität Hamburg, accessed November 13, 2025, https://www.aai.uni-hamburg.de/en/ethiostudies/research/ethio-spare.html.
[3] “<TraCES/> From Translation to Creation: Changes in Ethiopic Style and Lexicon from Late Antiquity to the Middle Ages,” Universität Hamburg, accessed November 13, 2025, https://www.traces.uni-hamburg.de/.
[4] “Corpus,” <TraCES/>, Universität Hamburg, accessed November 13, 2025, https://www.traces.uni-hamburg.de/texts/corpus.html/.
[5] “Geez lexicon of the TraCES project,” GitHub, accessed November 13, 2025, https://github.com/TraCES-Lexicon/lexicon.
[6] “Beta maṣāḥǝft: Manuscripts of Ethiopia and Eritrea,” Universität Hamburg, accessed November 13, 2025, https://www.betamasaheft.uni-hamburg.de/. および“Beta maṣāḥǝft: Manuscripts of Ethiopia and Eritrea,” Universität Hamburg, accessed November 13, 2025, https://betamasaheft.eu/.
[7] Hizkiel Mitiku Alemayehu, “Handwritten Text Recognition Best Practice in the Beta maṣāḥǝft workflow”, Journal of the Text Encoding Initiative [Online], Rolling Issue, Online since 02 February 2022, accessed November 13, 2025. URL: http://journals.openedition.org/jtei/4109; DOI: https://doi.org/10.4000/jtei.4109.
Copyright(C) MIYAGAWA, So 2025– All Rights Reserved.



 

ISSN 2189-1621 Published by: DHII