ISSN 2189-1621

 

現在地

DHM 087【前編】

人文情報学月報/Digital Humanities Monthly


人文情報学月報第87号【前編】

Digital Humanities Monthly No. 087-1

ISSN 2189-1621 / 2011年8月27日創刊

2018年10月31日発行 発行数778部

目次

【前編】

  • 《巻頭言》「中国語古典音韻資料のデジタル化
    鈴木慎吾大阪大学大学院言語文化研究科
  • 《連載》「Digital Japanese Studies寸見」第43回
    国立教育政策研究所教育図書館が貴重資料デジタルコレクションおよび明治期教科書デジタルアーカイブを公開
    岡田一祐国文学研究資料館古典籍共同研究事業センター
  • 《連載》「欧州・中東デジタル・ヒューマニティーズ動向」第7回
    デジタル・ヒューマニティーズにおけるテクスト・リユースと間テクスト性の研究
    宮川創ゲッティンゲン大学

【後編】

  • 《連載》「東アジア研究とDHを学ぶ」第7回
    デジタルアーカイブコンテンツのライセンスの問題
    菊池信彦:関西大学アジア・オープン・リサーチセンター
  • 《連載》「Tokyo DigitalHistory」第6回
    デジタル時代における資料の管理と利用
    金甫榮公益財団法人渋沢栄一記念財団
  • 人文情報学イベントカレンダー
  • イベントレポート「JADH2018:“Leveraging Open Data”
    山中美潮南山大学外国語学部英米学科
  • 編集後記

《巻頭言》「中国語古典音韻資料のデジタル化

鈴木慎吾大阪大学大学院言語文化研究科講師

私の専門は中国古典音声学、いわゆる漢語音韻学と呼ばれる分野である。中国語はもっぱら漢字によって表記されることから、事実上、それはほぼ漢字音の研究ということになる。この分野は、中国はともかく、日本国内では専攻する人が少ない。言語学一般に言えることだが、人文系の割には記号を駆使する理数系的な要素が多分に含まれていて取っつきにくいこと、また言語学の中にあっても音韻学には語彙や文法のような表面上の派手さ、華やかさが薄いこと、また古典語を対象とすること、専門用語がやたらに多いこと、方言をも含めた中国語全般の知識が前提として求められること、等々が理由だと思われる。日本語で読める入門書が少ないという困難もある。近頃は漢字に対する関心が高まっているとも聞くが、それもたいていは字形や字義に対する関心であって、字音はあまり興味の対象にはなっていないようである。

古代の音声が対象であるから、その材料は主に文献資料であり、とりわけ重要なのは古字書である。古字書というのは、その性質からいって情報学との親和性が高い。しかしながら、私の見るところ、この分野で情報学に明るい人というのはあまり多くはないようである。そもそも人口が少ない分野であるから、情報学となるとますます人が乏しくなるという状況がある。

そもそも、大学にカリキュラムがない。私も、伝統的な漢語音韻学を教えるのに精一杯で、また学生も自分の専門で精一杯になっているように見える。私自身の経験をいうと、情報方面の知識は時間のあるときに自分でアプリケーションを作ったりして覚えた程度もので、どこかで専門的に学んだというようなことはほとんどない。今後、新しい人が現れることを期待するとしても、今の状況ではなかなか出てはこないように思う。

今後、道を切り開くもっとも有望な方法は、やはり我々がデジタル技術を応用する面白さを少しずつでも実際に示していくことであろう。そこで、まずやるべきことは、漢語音韻学の基本資料・基本概念を分かりやすく示したコンテンツを制作し、公開していくことだろうと考えている。といっても、単に古字書をデータ化して検索できるようにするだけではあまり面白みはない。

言語音というものはそれ自身体系性が非常に強いものである。ある一つの言語において、子音や母音といった音の要素はおのおのが緊張関係を保って存在し、全体として一つの体系をなしているものである。また通時的な観点から見ても、ある音声が別の音声に変化する場合、要素間の緊張関係が保たれたまま体系的に変化するようなことがよく見られる。内部構造も、またその通時的変化も常に体系の原理に支配されていることがまさに音韻学の面白いところである。

そういうわけであるから、古字書、とりわけ音韻の字書であるところの韻書をデータ化する場合には、個々のレコードを個別に表示するだけでは不十分で、レコード間の関係、またその関係の総和としての体系を表現するものであって初めて面白いものとなる、ということになる。さらには、通時的な関係をも分かりやすく示すことができればなお素晴らしい。そのようなコンテンツは、きっと初学者にも理解しやすいものとなるに違いない。が、そのようなものはまだないようである。ならば自分で作ってみようと考えても、なかなか力が及ばず歯がゆいところなのだが、とりあえず私のイメージするものがどのようなものであるのかを示すため、ここでは私が試しに作ってみたものを二つほどご紹介しておこうと思う。どちらも「篇韻データベース」として http://suzukish.s252.xrea.com/search/ に設置している。

一つ目は、「Web 韻図」。これはずいぶん前に作ったもので、代表的な韻書『広韻』の所収字を検索し、韻図(漢字の字音を整理した音節表)の形式で表示するWeb ページである。漢語音韻学において中国語の古代音は、たとえば「人」という字であれば「平声・真韻・日母・開口」という、専門家にしか分からないような謎の属性の集合によって表現されるが、このサイトではそれが韻図における位置によって示される。この韻図は、漢語音韻学の基本資料である『韻鏡』によく似た形式のものであるから、『韻鏡』にある程度慣れている者であれば比較的理解でき、他の音節との関係性を一目で見ることができるようになっている。もっとも、『韻鏡』を理解するにはそれなりの訓練を必要とするのだが、このページを使うことで逆に『韻鏡』の構造に慣れるという効用も期待されよう。

もう一つは現在作成中の「切韻諸本輯覧」。これは、同じく漢語音韻学の基本資料『切韻』諸本のテキストを横断的に検索するページである。検索結果は諸本を一覧する形式で表示されるため、『切韻』の段階的な増補の状況を知ることができる。また、諸本の内容をディレクトリ形式で閲覧することもできるので、これによって初学者が『切韻』の構造を理解するといったことも期待できる。

「篇韻データベース」では関連する他のツールもいくつか設置し、利用に供している。漢語音韻学の扱う資料は幅広く、また膨大な研究蓄積がある。今後、資料のさらなるデジタル化が望まれるが、私としてはやはり漢語音韻学の内容に適した、工夫されたコンテンツの出現を望みたい。そして、それによって漢語音韻学が少しでも、その面白さが理解されるような学問になればと思う。

執筆者プロフィール

鈴木慎吾(すずき・しんご/大阪大学大学院言語文化研究科講師)大阪外国語大学大学院言語社会研究科博士後期課程修了。博士(言語文化学)。京都産業大学外国語学部助教を経て、2011年より現職。専門は漢語音韻学。研究のかたわら広東語の教育に従事。
Copyright(C) SUZUKI, Shingo 2018– All RightsReserved.

《連載》「Digital Japanese Studies 寸見」第43回

国立教育政策研究所教育図書館が貴重資料デジタルコレクションおよび明治期教科書デジタルアーカイブを公開

岡田一祐国文学研究資料館古典籍共同研究事業センター特任助教

国立教育政策研究所教育図書館が2018年8月30日に明治150年記念事業サイトを公開した[1]。そのうちわけは、文部科学省情報ひろばにおける「明治期教科書等教育資料の展示」、「明治期教科書デジタルアーカイブ」[2]および「貴重資料デジタルコレクション」[3]の公開の3点である。ここで取り上げたいのは、後二者になる。

国立教育政策研究所教育図書館は、前身の国立教育研究所の図書館に.端を発し、国民精神文化研究所からの蔵書を引き継いでいる組織であるが、教科書については、国立国会図書館上野支部(旧帝国図書館)が所蔵していた蔵書を寄贈されたものが基盤であるという[4]。帝国図書館の教科書は、[4]に触れられるように内務省検閲用のものもあるが、大日本教育会書籍館(しょじゃくかん)旧蔵のものなども見られ、単一のコレクションから成り立っているわけではない。もちろん、国立教育研究所としても購求やその他の寄贈を受けて充実したものとなっている。

まず、明治期教科書デジタルアーカイブ(以下、デジタルアーカイブ)を見てみよう。[4]によれば、2005年度以前からデジタル化がはじまり、2007年から研究所内でのみ閲覧が可能になっていたものであるという。デジタル化の対象は、1964年までに検定を受けた教科書であるとのことで、今回はその一部が公開されたことになる。利用規約としては政府標準利用規約第2.0版に相当するものとなっている[5]。[1]によれば、約8,400点の教科書が公開されたとのことであるが、巻ごとに一点と数えているようなので、種類としてどのくらいかはすぐには分らない。ただし、なんらかの懸念があるのであろう、引き続き研究所内のみで閲覧可能であるものもあり、そのようなものは霞が関まで行かねばならない。現状では、公開されたもののみに絞り込むことは Firefox、Chromeではできないように見える。なお、明治19年以降の教科書では、検定を受けるまえの版がある程度出回っており、利用に当たっては書誌情報をよく読んで、検定を受けたものか確認する必要がある。

ついで、貴重資料デジタルコレクション(以下、デジタルコレクション)について見る。デジタルコレクションは、デジタルアーカイブの若干質の低いデジタル化と異なり、出版にも堪えるような高精細な撮影をしたものをフォーマット変換をした程度で提供するものである。点数は78点で、『幼学綱要』や第二次『小学校令』の草稿など、重要な資料が公開されている。教育掛図なども、ウェブ上で高精細で見られるものはないに等しく、貴重である。同時に、閲覧の便を図って低解像度にした画像もあり、そのような資料を快適に確認することもできる。デジタルアーカイブが OPAC に PDFへのリンクを埋め込んだものとなっているのに対し、デジタルコレクションでは、ビューワがべつに提供されている。開発に当たって、できるだけ公開などの手順を単純化するよう心がけたことが述べられている[6]。たしかに、規模に見合ったコストというものはあって、この程度の量であれば専用パッケージによって複雑に手をかけて公開するよりも、極力シンプルな構成を取れるほうが機動力は格段に上がるだろう。デジタルアーカイブ業者のお仕着せプラットフォームから公開するまえに考えたいことかもしれない。

これまで、明治期の教科書を公開していた機関としては、筑波大学附属図書館[7]、広島大学図書館[8]、東京学芸大学附属図書館[9]があったが、あまり組織的なものではなく、今回の公開はいずれのものも上回るものである。この蔵書を質的にも量的にも上回るのは、東京書籍の東書文庫のみであり、また東書文庫の蔵書を補えるのもほとんどこの蔵書のみであろう。教科書は、国立国会図書館にほとんど入っていないために、図書刊行物としてはもっともデジタル公開が遅れていた分野であったが、これで利用環境が大幅に改善したことを喜びたい。

あとは新聞(と雑誌)であるが、こちらはあとひとふた世紀待たねばならないだろうか?

[1] 国立教育政策研究所明治150年記念事業 https://www.nier.go.jp/library/m150/
[2] 国立教育政策研究所教育図書館明治期教科書デジタルアーカイブ https://www.nier.go.jp/library/textbooks/
[3] 国立教育政策研究所教育図書館貴重資料デジタルコレクション https://www.nier.go.jp/library/rarebooks/
[4] 江草由佳(2007)「戦前期教科書の電子化・保存とその応用」『情報知識学会誌』17doi:10.2964/jsik.17_4_225
[5] 文部科学省ウェブサイト利用規約:文部科学省 http://www.mext.go.jp/b_menu/1351168.htm
[6] 江草由佳(2018)「移行しやすく使いやすいデジタルコレクション公開サイト構築の試み:教育図書館貴重資料デジタルコレクション公開準備の経験から」 https://www.slideshare.net/yegusa/20180902-c4ljp2018
[7] 貴重書コレクション(電子化リスト)| 筑波大学附属図書館 https://www.tulips.tsukuba.ac.jp/lib/ja/collection/rare
[8] 広島大学図書館教科書コレクション画像データベース http://dc.lib.hiroshima-u.ac.jp/text/
[9] 東京学芸大学 特別コレクション一覧:E-TOPIA http://library.u-gakugei.ac.jp/etopia/orai.html
Copyright(C) OKADA, Kazuhiro 2018– All RightsReserved.

《連載》「欧州・中東デジタル・ヒューマニティーズ動向」第7回

デジタル・ヒューマニティーズにおけるテクスト・リユースと間テクスト性の研究

宮川創ゲッティンゲン大学研究員

東京での JADH、TEI2018 に参加した後、筆者はドイツに戻り、ハンブルク大学写本文化研究センター (Centre for the Studiesof Manuscript Cultures)にて9月17日から21日にかけて開催された「コプト語文学と写本伝統」(Summer School inCoptic Literature and Manuscript Tradition)の夏期講座[1]で授業を担当した。その授業はコーパス言語学とデジタル・ヒューマニティーズ、特に TEI XMLを用いたウェブ・コーパスの作成とテクスト・リユース分析の授業であった。テクスト・リユース(text reuse/text re-use)とは、コンピュータ言語学のテクスト・マイニングの一分野であるが、2つ以上のテクスト間の統語的・意味的に類似した部分を取り出す技術である。従来は、統語的な類似性、例えば引用や剽窃などを抽出するのみであったが、近年の技術の進歩とともに、WordNet[2]などの語彙の意味ネットワークのデータベースと組み合わせることによって、引喩やパラフレーズなど意味的に類似するテクスト・リユースも探知できるようになっている。近年では、もともと間テクスト性(intertextuality)の研究が盛んであった人文学にも、このテクスト・リユース分析の技術が用いられるようになり、デジタル・ヒューマニティーズにおける重要な一分野となっている。筆者は、このテクスト・リユースを抽出する最新のソフトウェアである TRACER を開発している eTRAP プロジェクト(https://www.etrap.eu/)で、SFB/CRC1136[3]からの Research Affiliate として TRACER のコプト語[4]への適用、そして、コプト語の修道院文学と聖書のテクスト・リユースの研究を行なっている。TRACER によって、文献学者たちが発見し得なかったコプト語修道院文学における聖書からの引用が多数発見されてきている。

eTRAP プロジェクトは、ライプチヒ大学で eAQUA プロジェクト、そしてその後継の eTRACE プロジェクトなどでテクスト・リユース研究をしていたマルコ・ビュヒラー(MarcoBüchler)を中心にゲッティンゲン大学のゲッティンゲン・センター・フォー・デジタル・ヒューマニティーズで結成され、その後、ゲッティンゲン大学のコンピュータ科学研究所にも所属を置いたプロジェクトであり、ドイツ・連邦研究教育省(BMBF)の4年間の160万ユーロのグラントで運営されている。このプロジェクトには、3つのサブ・プロジェクトがあるが、そのうちの最もメインとなるものが TRACER の開発である。TRACER は、マルコ・ビュヒラーのライプチヒ大学におけるコンピュータ科学の博士課程の研究に遡り、それが発展した結果、eAQUA プロジェクトなどで古代ギリシア語の最大のコーパスである Thesaurus Linguae Graecaeでのテクスト・リユースを調べるためのソフトウェアとして開発され、さらに eTRAP プロジェクトで、多言語に対応するように改良が重ねられている。現在は、ラテン語、古代ギリシア語、チベット語、ヘブライ語、ドイツ語、英語において優れた成果を挙げており、著者は現在コプト語への適用を行っている。2016年までの成果は、TRACERには700以上のアルゴリズムがあり、それらのパラメータを調整することで、テクスト・リユースの精度を高めることができる。これらのアルゴリズムの調整は、config.xmlという xml ファイルを修正することで行える。

TRACER は、オープンソースのソフトウェアであり、eTRAP の GitLab (https://vcs.etrap.eu/users/sign_in) から全てダウンロードすることが可能である。TRACER の工程には6つのレベルがある。 一つ目のレベル1: Preprocessingでは、ダイアクリティカル・マークを取ったり、古代のラテン語、ギリシア語、コプト語文献、そして、中国語や日本語のように分かち書きをしない scriptura continua の文献の単語を分かち書きさせたり、と準備段階である。 また、この時点で、WordNet や BabelNet のファイルを読み込んで、synonym(同義語)と co-hyponym(以下で説明する)の情報とリンクさせ、意味的テクスト・リユースの探知に用いる準備をすることができる。co-hyponym とは、hyponym(上位語)を共有する語彙であり、例えば、「犬」と「猫」は、hyponym である「動物」の下で co-hyponym となっている。現在、筆者は、データベース科学が専門のオスロ大学准教授ローラ・スローター(Laura Slaughter)、日本語 WordNetの開発で著名なフランシス・ボンド(Francis Bond)教授の博士課程学生であるシンガポールの南洋理工大学のルイス・モルガード・ラ・コスタ(LuísMorgado da Costa)とともにコプト語 WordNet を開発している。 これが使えるようになった場合、synonym と co-hyponym のデータを TRACER に読み込んで引喩やパラフレーズなどの意味的テクスト・リユースの探知が飛躍的に向上すると思われる。レベル2: Featuring/Training は、TRACER が2つ以上のテクストを比較する際に用いる単位に関する工程である。単語レベルで比較する方法、バイグラム単位で比較する方法、トリグラム単位で比較する方法などがある。バイグラムでは、例えば、I like a cat.という文があった場合、[I like]で一単位、[like a]で一単位、[a cat]で一単位となるような単位の設定方法である。トリグラムの場合は、3つで1組、すなわち、[I like a]、[like a cat] が単位となる。次のレベル3: Selectionでは、データを様々なフィルターにかけて、冠詞や代名詞など頻度が多いがテクスト・リユースの探知には役立たない文法語(ストップ・ワードなどと呼ばれる)を筆頭に探知のノイズとなるデータを選り分けて隔離し、分析に影響を及ぼさないようにする。レベル4: Linkingでは、テクスト間の類似性がある箇所のリンク付けが行われる。ここでは、類似性のあるテクストの2部分の抽出および、いくつの単位がオーバーラップしているかの計算がなされる。もし、結果が少なすぎる場合は、MovingWindow という措置をとる必要がある。Moving Windowはコーパスをオーバーラッピングのある10から15グラムの単位で分割した上で分析をかける、といった手法である。こうすることにより、より少ない単位での小さなテクスト・リユースも見つけることができる。レベル5: Scoring では、テクストの類似性を数値で判定する。判定の方法は2つあり、absolute overlap と weightedoverlap である。前者は13以上の要素が共有されたテクスト・リユースを出し、weighted overlapは、テクスト・リユースにおける要素の共有の度合いをパーセンテージで出す。こうして、数値でテクスト・リユース分析の結果が算出される。レベル6は、Post-Processingであり、ヴィジュアリゼーション(視覚化・見える化)に関わる。 ヴィジュアリゼーションのエンジンはライプチヒ大学のシュテファン・イェニケ(StefanJänicke)が開発した TRAViz[5]である。この過程でドット・プロット・ビューやコレーション・ビューを含むデータのウェブページが生成され、オンライン・サーバーにそれを置けば、そのままデータをインタラクティブなウェブページの形式で公開することができる。ドット・プロット・ビューは、グラフ上の点の分布によってテクスト・リユースの位置を表示し、点の色によって類似度を表示する方法である。このグラフ上の点をクリックすると、テクスト・リユースの詳細が一目でわかるコレーション・ビューのミニ・ウィンドウを開くことができる。コレーション・ビューでは、2つの類似するテクストを平行線上に置き、各語はノードで示され、要素がオーバーラップしている場合は、ノードが統合され、異なる場合は、そのまま平行線に置かれるように表示される。画像で見た方が早く理解されうると思われるので、TRAVizのホームページ(http://www.traviz.vizcovery.org/)を訪れていただきたい。 ここで述べたことの詳細な説明は、TRACERのユーザーズ・ガイド(https://gfranzini.gitbooks.io/tracer/content/)をご覧いただきたい。

次回は、この TRACERによる具体的な成果と、古典におけるテクスト・リユース、および、人文学的テクスト・リユース研究に大きな影響を与えた間テクスト性研究について述べる。

[1] この夏期講座のウェブサイトは https://www.manuscript-cultures.uni-hamburg.de/register_coptic2018.html。この主催者は、TheCentre for the Study of Manuscript Cultures(正式には、SFB/CRC 950“Manuscript Cultures in Asia, Africa and Europe”)である。SFB/CRCについては次の注で説明する。 共催は、筆者が勤める共同研究センター1136(SFB/CRC 1136 “Education andReligion in Cultures of the Mediterranean and Its Environment fromAncient to Medieval Times and to Classical Islam”)とゲッティンゲン学術アカデミーの「コプト語訳旧約聖書デジタル・エディション」プロジェクト(“Digital Edition of theCoptic Old Testament”)、 ローマ大学ラ・サピエンツァにある欧州研究カウンシル(ERC)の PAThsプロジェクト(“PAThs - Tracking Papyrus and Parchment Paths: AnArchaeological Atlas of Coptic Literature,” http://paths.uniroma1.it/)、そしてコプト学におけるデジタル・ヒューマニティーズの泰斗であり、80年代から存在するローマ大学の「コプト語文語写本コーパス」プロジェクト(Corpusdei Manoscritti Copti Letterari)である。 PAThsプロジェクトは、2016年に始まったプロジェクトで、その目標はコプト語文献の写本学的なデジタル地図をウェブ上に作成し公開することにある。このプロジェクトについては、後の連載で詳述したい。ハンブルク大学の写本文化研究グループは、先月末に発表された DFG のプレスリリースで、新たにエクセレンツ・クラスター(Exzellenzcluster)を取得することが発表された。これはSFBよりも巨額の資金が支給される、5年間の研究所運営制度である。このため、更なる発展および研究員・学生の雇用の創出が見込まれる。ハンブルク大学の写本文化研究センターは、ハンブルクの中央駅から一駅の Dammtor という駅の近くにある。周囲には人工的な湖であるBinnenalster があり、大変美しい場所である。この研究センターには、日本のデジタル・ヒューマニティーズにおいて研究者が多い、日本・中国・インドの写本学のサブ・プロジェクトがある。エクセレンツ・クラスターにおいても、これらのサブプロジェクトは継続され、研究員や学生のための新たなポジションの募集が現在から来年にかけて何らかの形でなされるものであると思われる。
[2] 概念辞書と呼ばれる、語彙の同義性・上位関係などの意味ネットワークの辞書或はデータベースである。WordNetでは、各語は同義語のグループを基にする synset というグループに分類される。プリンストン大学の英語の WordNetが端緒だが、現在は様々な言語のものが存在する(Global WordNet Associationを参照、http://globalwordnet.org/)。BabelNet は WordNet よりも簡便でより多言語化させたようなデータベースであり、現在ローマ大学を中心に開発が進められている(https://babelnet.org/)。
[3] SFB/CRC 1136 “Education and Religion in Cultures of theMediterranean and Its Environment from Ancient to Medieval Times and toClassical Islam”、日本語訳をすれば、特別研究領域/共同研究センター1136「古代から中世及び古典イスラーム期にかけての地中海圏とその周辺の文化における教育と宗教」となる。 CRC はCollaborative Research Centre「共同研究センター」で英語版での正式名称、SFB はドイツ語版正式名称のSonderforschungsbereich「特別研究領域」の略であり、同一の組織を指している。 この組織は、DFG DeutscheForschungsgemeinschaft「ドイツ学術振興協会」が設立した、期間限定の研究所である。4年ごとに期間が更新され、最大で12年間継続することができる。これはいくつかの研究領域に分けられ、さらに研究領域はサブ・プロジェクトに分けられる。筆者が所属するのは、このSFB/CRC1136の研究領域B「解釈」(Interpretation)のサブ・プロジェクトB05「コプト語を用いた古代末期エジプトのキリスト教における聖書解釈と教育伝統」(“Biblical Interpretation andEducational Tradition in the Coptic-speaking Egyptian Christianity ofLate Antiquity”: Shenoute, Canon 6)である。2019年の6月に1期目が終了する。もし、2期目の更新が成功すれば、筆者は2023年まで同じ研究員のポジションでゲッティンゲンで働くことができる。そのためには、2019年2月にある外部評価会で研究所全体の良い判定を得、更新審査に合格する必要がある。
[4]コプト語は、より言語学的にはコプト・エジプト語とも呼ばれる、古代エジプト語の最終段階である。数多くの貴重な初期キリスト教文献を残し、現在でもコプト・キリスト教の典礼において用いられている。
[5] TRACER 以外にも応用可能である。詳しくは、TRAViz のホームページ(http://www.traviz.vizcovery.org/)を参照。
Copyright(C) MIYAGAWA, So 2018– All RightsReserved.

Tweet: