私の専門は中国古典音声学、いわゆる漢語音韻学と呼ばれる分野である。中国語はもっぱら漢字によって表記されることから、事実上、それはほぼ漢字音の研究ということになる。この分野は、中国はともかく、日本国内では専攻する人が少ない。言語学一般に言えることだが、人文系の割には記号を駆使する理数系的な要素が多分に含まれていて取っつきにくいこと、また言語学の中にあっても音韻学には語彙や文法のような表面上の派手さ、華やかさが薄いこと、また古典語を対象とすること、専門用語がやたらに多いこと、方言をも含めた中国語全般の知識が前提として求められること、等々が理由だと思われる。日本語で読める入門書が少ないという困難もある。近頃は漢字に対する関心が高まっているとも聞くが、それもたいていは字形や字義に対する関心であって、字音はあまり興味の対象にはなっていないようである。
古代の音声が対象であるから、その材料は主に文献資料であり、とりわけ重要なのは古字書である。古字書というのは、その性質からいって情報学との親和性が高い。しかしながら、私の見るところ、この分野で情報学に明るい人というのはあまり多くはないようである。そもそも人口が少ない分野であるから、情報学となるとますます人が乏しくなるという状況がある。
そもそも、大学にカリキュラムがない。私も、伝統的な漢語音韻学を教えるのに精一杯で、また学生も自分の専門で精一杯になっているように見える。私自身の経験をいうと、情報方面の知識は時間のあるときに自分でアプリケーションを作ったりして覚えた程度もので、どこかで専門的に学んだというようなことはほとんどない。今後、新しい人が現れることを期待するとしても、今の状況ではなかなか出てはこないように思う。
今後、道を切り開くもっとも有望な方法は、やはり我々がデジタル技術を応用する面白さを少しずつでも実際に示していくことであろう。そこで、まずやるべきことは、漢語音韻学の基本資料・基本概念を分かりやすく示したコンテンツを制作し、公開していくことだろうと考えている。といっても、単に古字書をデータ化して検索できるようにするだけではあまり面白みはない。
言語音というものはそれ自身体系性が非常に強いものである。ある一つの言語において、子音や母音といった音の要素はおのおのが緊張関係を保って存在し、全体として一つの体系をなしているものである。また通時的な観点から見ても、ある音声が別の音声に変化する場合、要素間の緊張関係が保たれたまま体系的に変化するようなことがよく見られる。内部構造も、またその通時的変化も常に体系の原理に支配されていることがまさに音韻学の面白いところである。
そういうわけであるから、古字書、とりわけ音韻の字書であるところの韻書をデータ化する場合には、個々のレコードを個別に表示するだけでは不十分で、レコード間の関係、またその関係の総和としての体系を表現するものであって初めて面白いものとなる、ということになる。さらには、通時的な関係をも分かりやすく示すことができればなお素晴らしい。そのようなコンテンツは、きっと初学者にも理解しやすいものとなるに違いない。が、そのようなものはまだないようである。ならば自分で作ってみようと考えても、なかなか力が及ばず歯がゆいところなのだが、とりあえず私のイメージするものがどのようなものであるのかを示すため、ここでは私が試しに作ってみたものを二つほどご紹介しておこうと思う。どちらも「篇韻データベース」として http://suzukish.s252.xrea.com/search/ に設置している。
一つ目は、「Web 韻図」。これはずいぶん前に作ったもので、代表的な韻書『広韻』の所収字を検索し、韻図(漢字の字音を整理した音節表)の形式で表示するWeb ページである。漢語音韻学において中国語の古代音は、たとえば「人」という字であれば「平声・真韻・日母・開口」という、専門家にしか分からないような謎の属性の集合によって表現されるが、このサイトではそれが韻図における位置によって示される。この韻図は、漢語音韻学の基本資料である『韻鏡』によく似た形式のものであるから、『韻鏡』にある程度慣れている者であれば比較的理解でき、他の音節との関係性を一目で見ることができるようになっている。もっとも、『韻鏡』を理解するにはそれなりの訓練を必要とするのだが、このページを使うことで逆に『韻鏡』の構造に慣れるという効用も期待されよう。
もう一つは現在作成中の「切韻諸本輯覧」。これは、同じく漢語音韻学の基本資料『切韻』諸本のテキストを横断的に検索するページである。検索結果は諸本を一覧する形式で表示されるため、『切韻』の段階的な増補の状況を知ることができる。また、諸本の内容をディレクトリ形式で閲覧することもできるので、これによって初学者が『切韻』の構造を理解するといったことも期待できる。
「篇韻データベース」では関連する他のツールもいくつか設置し、利用に供している。漢語音韻学の扱う資料は幅広く、また膨大な研究蓄積がある。今後、資料のさらなるデジタル化が望まれるが、私としてはやはり漢語音韻学の内容に適した、工夫されたコンテンツの出現を望みたい。そして、それによって漢語音韻学が少しでも、その面白さが理解されるような学問になればと思う。
国立教育政策研究所教育図書館が2018年8月30日に明治150年記念事業サイトを公開した[1]。そのうちわけは、文部科学省情報ひろばにおける「明治期教科書等教育資料の展示」、「明治期教科書デジタルアーカイブ」[2]および「貴重資料デジタルコレクション」[3]の公開の3点である。ここで取り上げたいのは、後二者になる。
国立教育政策研究所教育図書館は、前身の国立教育研究所の図書館に.端を発し、国民精神文化研究所からの蔵書を引き継いでいる組織であるが、教科書については、国立国会図書館上野支部(旧帝国図書館)が所蔵していた蔵書を寄贈されたものが基盤であるという[4]。帝国図書館の教科書は、[4]に触れられるように内務省検閲用のものもあるが、大日本教育会書籍館(しょじゃくかん)旧蔵のものなども見られ、単一のコレクションから成り立っているわけではない。もちろん、国立教育研究所としても購求やその他の寄贈を受けて充実したものとなっている。
まず、明治期教科書デジタルアーカイブ(以下、デジタルアーカイブ)を見てみよう。[4]によれば、2005年度以前からデジタル化がはじまり、2007年から研究所内でのみ閲覧が可能になっていたものであるという。デジタル化の対象は、1964年までに検定を受けた教科書であるとのことで、今回はその一部が公開されたことになる。利用規約としては政府標準利用規約第2.0版に相当するものとなっている[5]。[1]によれば、約8,400点の教科書が公開されたとのことであるが、巻ごとに一点と数えているようなので、種類としてどのくらいかはすぐには分らない。ただし、なんらかの懸念があるのであろう、引き続き研究所内のみで閲覧可能であるものもあり、そのようなものは霞が関まで行かねばならない。現状では、公開されたもののみに絞り込むことは Firefox、Chromeではできないように見える。なお、明治19年以降の教科書では、検定を受けるまえの版がある程度出回っており、利用に当たっては書誌情報をよく読んで、検定を受けたものか確認する必要がある。
ついで、貴重資料デジタルコレクション(以下、デジタルコレクション)について見る。デジタルコレクションは、デジタルアーカイブの若干質の低いデジタル化と異なり、出版にも堪えるような高精細な撮影をしたものをフォーマット変換をした程度で提供するものである。点数は78点で、『幼学綱要』や第二次『小学校令』の草稿など、重要な資料が公開されている。教育掛図なども、ウェブ上で高精細で見られるものはないに等しく、貴重である。同時に、閲覧の便を図って低解像度にした画像もあり、そのような資料を快適に確認することもできる。デジタルアーカイブが OPAC に PDFへのリンクを埋め込んだものとなっているのに対し、デジタルコレクションでは、ビューワがべつに提供されている。開発に当たって、できるだけ公開などの手順を単純化するよう心がけたことが述べられている[6]。たしかに、規模に見合ったコストというものはあって、この程度の量であれば専用パッケージによって複雑に手をかけて公開するよりも、極力シンプルな構成を取れるほうが機動力は格段に上がるだろう。デジタルアーカイブ業者のお仕着せプラットフォームから公開するまえに考えたいことかもしれない。
これまで、明治期の教科書を公開していた機関としては、筑波大学附属図書館[7]、広島大学図書館[8]、東京学芸大学附属図書館[9]があったが、あまり組織的なものではなく、今回の公開はいずれのものも上回るものである。この蔵書を質的にも量的にも上回るのは、東京書籍の東書文庫のみであり、また東書文庫の蔵書を補えるのもほとんどこの蔵書のみであろう。教科書は、国立国会図書館にほとんど入っていないために、図書刊行物としてはもっともデジタル公開が遅れていた分野であったが、これで利用環境が大幅に改善したことを喜びたい。
あとは新聞(と雑誌)であるが、こちらはあとひとふた世紀待たねばならないだろうか?
東京での JADH、TEI2018 に参加した後、筆者はドイツに戻り、ハンブルク大学写本文化研究センター (Centre for the Studiesof Manuscript Cultures)にて9月17日から21日にかけて開催された「コプト語文学と写本伝統」(Summer School inCoptic Literature and Manuscript Tradition)の夏期講座[1]で授業を担当した。その授業はコーパス言語学とデジタル・ヒューマニティーズ、特に TEI XMLを用いたウェブ・コーパスの作成とテクスト・リユース分析の授業であった。テクスト・リユース(text reuse/text re-use)とは、コンピュータ言語学のテクスト・マイニングの一分野であるが、2つ以上のテクスト間の統語的・意味的に類似した部分を取り出す技術である。従来は、統語的な類似性、例えば引用や剽窃などを抽出するのみであったが、近年の技術の進歩とともに、WordNet[2]などの語彙の意味ネットワークのデータベースと組み合わせることによって、引喩やパラフレーズなど意味的に類似するテクスト・リユースも探知できるようになっている。近年では、もともと間テクスト性(intertextuality)の研究が盛んであった人文学にも、このテクスト・リユース分析の技術が用いられるようになり、デジタル・ヒューマニティーズにおける重要な一分野となっている。筆者は、このテクスト・リユースを抽出する最新のソフトウェアである TRACER を開発している eTRAP プロジェクト(https://www.etrap.eu/)で、SFB/CRC1136[3]からの Research Affiliate として TRACER のコプト語[4]への適用、そして、コプト語の修道院文学と聖書のテクスト・リユースの研究を行なっている。TRACER によって、文献学者たちが発見し得なかったコプト語修道院文学における聖書からの引用が多数発見されてきている。
eTRAP プロジェクトは、ライプチヒ大学で eAQUA プロジェクト、そしてその後継の eTRACE プロジェクトなどでテクスト・リユース研究をしていたマルコ・ビュヒラー(MarcoBüchler)を中心にゲッティンゲン大学のゲッティンゲン・センター・フォー・デジタル・ヒューマニティーズで結成され、その後、ゲッティンゲン大学のコンピュータ科学研究所にも所属を置いたプロジェクトであり、ドイツ・連邦研究教育省(BMBF)の4年間の160万ユーロのグラントで運営されている。このプロジェクトには、3つのサブ・プロジェクトがあるが、そのうちの最もメインとなるものが TRACER の開発である。TRACER は、マルコ・ビュヒラーのライプチヒ大学におけるコンピュータ科学の博士課程の研究に遡り、それが発展した結果、eAQUA プロジェクトなどで古代ギリシア語の最大のコーパスである Thesaurus Linguae Graecaeでのテクスト・リユースを調べるためのソフトウェアとして開発され、さらに eTRAP プロジェクトで、多言語に対応するように改良が重ねられている。現在は、ラテン語、古代ギリシア語、チベット語、ヘブライ語、ドイツ語、英語において優れた成果を挙げており、著者は現在コプト語への適用を行っている。2016年までの成果は、TRACERには700以上のアルゴリズムがあり、それらのパラメータを調整することで、テクスト・リユースの精度を高めることができる。これらのアルゴリズムの調整は、config.xmlという xml ファイルを修正することで行える。
TRACER は、オープンソースのソフトウェアであり、eTRAP の GitLab (
次回は、この TRACERによる具体的な成果と、古典におけるテクスト・リユース、および、人文学的テクスト・リユース研究に大きな影響を与えた間テクスト性研究について述べる。