ISSN 2189-1621 / 2011年08月27日創刊
今回から英米文学と DH にまつわる話を連載させていただくことになった。英文学全般の DH の取組や私の研究の話などを紹介していく予定である。とはいえ、初回からしばらくは英米文学にかぎらず、およそ大学が有する学部組織全体に関連する、人文学、社会科学、自然科学全般にわたる電子書籍を提供するハティトラスト・デジタルライブラリー[1]と、関連組織であるハティトラスト・リサーチセンター[2]を紹介する。日本語で読めるハティトラスト・デジタルライブラリーの詳細は時実氏[3]の論考に詳しいが、2025年現在の状況を踏まえて述べたい。
ハティトラスト(HathiTrust)とは、全世界250以上の大学図書館および公立図書館、研究所等の組織がかかわる非営利の学術共同事業であり、研究、学問、公共の利益に寄与することを使命とし、電子図書館のサービス(ハティトラスト・デジタルライブラリー)や蔵書の電子テクストを用いたデータ分析サービス(ハティトラスト・リサーチセンター)などの各種プログラムを提供している[1, 4]。会員による共同運営、共同出資であり拠点はミシガン大学である。会員として加盟すればパブリックドメインの書籍のダウンロード、蔵書管理のサポート、書籍データの寄与および公開などが受けられる利点がある一方で、費用負担などのコストが生じる。費用はパブリックドメイン費と著作権があるコンテンツの費用からなり、パブリックドメイン費は会員となる図書館の決算額に応じて3段階に分かれる。著作権があるコンテンツの費用は書籍1冊あたり0.2ドルをその電子書籍を提供する会員どうしで按分する。2024年は約6割の会員が段階2にあてはまり、7845ドルのパブリックドメイン費を割り当てられ、段階2の会員の平均支出額は13696ドル(原稿執筆時の換算で約200万円)であったとのことである[5]。事務手続き等はすべて英語で行う必要がある。大学組織であれば、図書館間の加盟であること、全学の教育研究に資する電子コンテンツが利用できること、費用は図書館の規模によるが年間200万ほどであろうこと、手続きは英語という事情を勘案して加盟を考えてもよいだろう。日本では現在慶應義塾大学のみが加盟している。なお原稿執筆時点で図書館業務の軽減や破損のリスク回避につながると思われる資源共有サービスを開始することが決まっている[6]。
ハティトラストのサービスのうち、デジタルライブラリーのプログラムについて述べる。コンテンツは、Google がマス電子化作業を行う大学図書館の所蔵する書籍が主体であり、アメリカの著作権を遵守しつつ公開されている。400以上の言語で書かれた1800万以上の電子書籍および60の学術研究図書館のコレクションを所蔵している。言語上の内訳は英語が51% であるが、日本語も3% ある。年代別にみると20世紀後半以降の書籍が多い。蔵書の分野は哲学・心理学・宗教、史学、地理学・人類学、社会学、政治科学、法律、教育、音楽、美術、言語と文学、科学、薬学、農業、テクノロジー、書誌学・図書館情報学と多岐にわたっている[4]。会員の図書館はパブリックドメインの全文ダウンロードやアクセスできる蔵書の数が増える。非会員の利用できるコンテンツは全体の4割とのことである[7]。
これらの電子書籍のコンテンツは、インディアナ大学およびイリノイ大学を拠点とするハティトラスト・リサーチセンターを通して、研究用の分析などに利用できる[4]。ハティトラスト・リサーチセンターは、ハティトラストの提供するプログラムの一つであり、ハティトラスト・デジタルライブラリーの研究利用の支援および促進を使命としている。特にテクストおよびデータマイニングを中心に支援を行っている。
さてハティトラスト・リサーチセンターを利用するには、ログイン認証について所属機関にひと工夫お願いする必要がある。時間がかかる可能性があるため本稿で触れておきたい。ハティトラスト・リサーチセンターはログインにユーザー自身が所属する機関の機関認証を利用している。GakuNin を使用している機関が多いだろう。ハティトラスト・リサーチセンターに接続するには GakuNin が eduGAIN に参加する必要がある。また所属機関が会員でない場合は CILogon を使用する必要がある[8]。所属機関の情報センターが設定を行うと、所属機関の認証システムを使用してハティトラスト・リサーチセンターに接続できるようになる。
なお現在のハティトラスト・リサーチセンターは2026年末まで存続するが、その後の形態については模索中とのことである[9]。利用の手続きには時間がかかるため、興味のある方は早めにサービスを確認されたい。
Cynthia Damon による本章[1]は、『Digital Scholarly Editing』実践編の第4章であり、古典テクストを読む際に必須となる校異情報のデジタル化における扱いの現状を批判し、校異情報の実態をいくつかの実例を交えながら紹介し、その適切なデジタル化について提言を行う論考となっている。
著者によると、古代のテクストは、コピーからコピーへの複雑な伝達過程を経ることで現在に届き、出版物として頒布されることで私たちの手元に届く。しかし、そのテクストは著者の書いたそれの「近似値に過ぎない」。批判校訂版は、テクストを「伝達過程の現存する証拠と編集者の解釈とともに提示する」ものであり、校異情報においてそれが成されている。しかし、古典テクストのデジタルライブラリーは、校異情報を取り除き、「テクストのみを提示することが常となっている」。Text Encoding Initiative において校異情報は「異文のリポジトリ」と定義されているが、著者曰く、校異情報はそれをはるかに超えたものであり、「今読んでいるテクストがどのような歴史的、編集的過程を経て出来上がったものかを読者に認識させ、編集者の決定を評価するのに必要なものを与える一連の注記」であり、「異文についての議論のリポジトリ」なのである。そのため、「デジタル校異情報の中で、異文と同様に、こうした議論を具体化する方法を見つけなければならない」。
校異情報における議論について、著者はいくつかの事例を挙げている。例えば、Vegetius の Epitoma rei militaris における事例「3.9.3 perscribam εβ : de- δ」では、ε、β、δ は、伝承の主要な3グループを代表しており、校訂者は ε と β の一致から、perscribam を印刷テクストとしたことがわかる(δ の describam という異文は写字生による「考案」)。つまり、3つのうち2つが一致することにより原型の読み(perscribam)が得られた、という意味の注記である。また、describam を de- と書くことで -scribam を繰り返し書くことを避け、コンパクトにまとめているが、こうしたものは「読者に対する要求が大幅に増える」。こうした事例を含め、古典テクストの校異情報の注記は、「高度に進化した文献学の議論を構成しているのである」。
上で示したように、「校異情報の注記は簡単には読めない」。加えてこれらは「その批判校訂版や学術文献の別の場所に提示されている概念や理論の助けを借りて、復号されなければならない」。例えば、「写本間の関係が本質的に系譜的であるような伝承では、それらの関係を図式化したステンマ(stemma)[2]が、多くの校異情報の注記の意味を理解する鍵となる」。であるため、校異情報の記載内容はそうしたステンマを前提として読み解かなければならない。デジタル化にあたっては、こうした暗黙の了解も併せて提供する必要がある。
以上のように、校異情報において研究に関する議論の蓄積があるならば、古典テクストのデジタル批判校訂版を作成するために、どこから始めるのが適切なのか考えなければならない。著者は、「基本的であると広く考えられているモデルー証拠資料とページ画像で始まり、転写と符号化に進み、校合を作成したり、画像とバージョンをリンクさせたりするツールを適用し、注釈その他を加えることーのデジタル批判校訂版の作成を想像するならば」、その作業は既に過去に行われていることから、そうした形で何世代にも渡る校異情報や校訂版を生み出す過程全体をやり直すことは労力の無駄遣いである、と断言する。具体的な始め方として、著者は、写本画像からではなく、編集上の校合の結果と、その結果に意味を与える議論を記録する部分である校異情報から始めるべきであるとし、試みに、前置詞「a」に関しての議論が記載されている5つの近代校訂版による校異情報項目(「Kenny(1961)」、「McKeown(1987)」、「Munari(1955)」、「Ramirez de Verger(2003)」、「Lenz(1965)」)があるオウィディウスの『Amores』の第1巻詩13の最初の行を取り上げ、”Juxta Commons” プログラムを用いて、「ゼロから始める」アプローチ(著者の作業としては、以下の通り。出版されたテクスト「ed.」と主要な3つの写本(P、S、Y)を転写、それほど権威の無い200以上の写本は転写しなかった。)を適用する。結果として、「a] ed.; not in P, S, Y」という文字列が校異情報の項目として得られたが、これは「主要な写本にない a を印刷した」という報告であり、最も簡潔な Kenny による報告「主要な写本では「a」は省略されているが、ω とラベルづけされた一連の写本に存在する」にすら及ばないものであり、最初からではなく、途中から始めることの有効性を示唆している。しかし、課題も残されている。というのも、「校異情報の注記でコード化された言語は、TEI や他のデジタルスキーマで適切に再符号化する前に、概念に翻訳しなければならない」からである。著者は、Lenz の校異情報の項目にある「a< Y(+a Yc)PS」、Mckeown の「a yω : om.PYSCD」を挙げ、どちらも記号によって省略、追加、訂正の概念を表しているが、その表現方法が異なり、情報量にも差があることを指摘している。つまり、校異情報同士を関連付けるための概念的な翻訳にはかなりの労力が必要なのである。このような困難さは伴うにしても、著者は次のように述べている。「5つの証拠資料の異文を記録するのと、5つの校異情報の注記を記録することのどちらかを選ばなければならないとしたら、私はいつでも後者を選ぶ」。
以上、2016年に発表された論考について、原文の表現を借りながら要約と紹介を行った。この論考によって、何らかのテクストをデジタル化することと同程度に、そのテクストに関して行われた研究上の議論の蓄積を適切な形で新しい媒体に引き継ぐことの重要性を認識することが出来る。こうした作業の重要性は、著者の指摘する通り、古代のテクストの特性として、どこまでいっても著者の書いた「近似値」に過ぎないということがあり、また、これまでの研究に割かれた労力が膨大であることに由来するのであろうが、過去の議論を適切に再翻訳することは、その議論の担い手たちに対して敬意を払うことにも繋がっている。議論の蓄積のあるテクストをデジタル化の対象とする際は、テクストとそれをとりまく研究的な文脈をどこまで移植するのか、または切り捨てるのかを判断する必要がある。こうした作業には専門の研究者による判断が不可欠であり、論考中の校異情報の記載内容を適切に解釈する事例からも、デジタル化はただ単に文字をビットに置き換えるのではなく、専門家による学術的な作業であることを図らずも示しているのである。
https://www.gjs.osaka-u.ac.jp/news/2025/5645/
https://digitalarchivejapan.org/40232/
https://www.jinmoncom.jp/?CH137
https://forms.gle/nMcZxi1NVzZmWrPy9
1月15日、ケンブリッジ大学の芸術・人文学部に設置されている研究センター、ケンブリッジ・デジタル・ヒューマニティーズにおいて、慶應大学の岡田一祐氏とともに講演をしてきました。今回は文部科学省委託事業「人文学・社会科学の DX 化に向けた研究開発推進事業」DH コンソーシアムプロジェクトにおける人文学のテキストデータモデルの構築と普及に関する取組みについて紹介するとともに、そこに至るまでの日本の人文学テキストデータを巡る潮流について報告するという形になりました。
今回の訪問では、ケンブリッジ・デジタルライブラリの現状についてつぶさにご教示をいただくことを一つの目的としており、ケンブリッジ大学図書館が所蔵するいくつかの分野の貴重書に関する専門家の先生方とともに訪問し、当地のデジタルライブラリにおける貴重資料の扱い、つまり、どのようにして貴重資料からあの精緻なデジタルライブラリのコンテンツへとつないでいっているのか、ということについて、デジタル画像化だけでなく詳細な目録情報の作成や全文テキスト資料の構築まで、様々な分野の貴重資料のデジタル公開に向けたワークフローを含む現状をおうかがいすることができました。もちろん、その仕組みのデジタル技術面についても、開発しているエンジニアの方々から直接お話をおうかがいすることができました。1週間、毎日朝10時からお付合いしていただいて色々な専門家の方々からお話をおうかがいして、様々な興味深い情報を得ることができました。データベースシステムの移行に伴うトラブルを回避しつつ専門知の永続的かつ効率的な蓄積を実現するという意味でここのデジタルライブラリは非常に優れたものであると断言できるものでした。このシステムは、すでにイギリスの複数の大学で採用されており、さらに徐々に広まりつつあるようです。これについてはいずれ報告会のようなセミナーをやってみたいと思っておりますので、この方面にご関心がおありの方は、ぜひご注目しておいてください。