TEI(Text Encoding Initiative)とoXygenの初歩
TEIと言った場合、人文学資料のマークアップのためのルールを定めているガイドラインを指す場合と、これを策定しているコンソーシアムを指す場合があります。現在の最新版のガイドラインはP5と呼ばれており、TEI P5と言った場合、ガイドラインのことを指します。
TEIは、元々、人文学の資料を適切にデジタル化するために1980年代に欧米で策定が始まったガイドラインであり、文献資料の内容の構造から個別の箇所の解釈や異読、その他様々な付帯情報までもマークアップによって記述していくことを目指すものとして開始されました。つまり、学術利用に耐え得るだけの、構築性の高いデジタル化テクストの作成(のための規格)を目指しているということになります(Digital Scholarly Editionという言葉がよく用いられます)。当初はどうしても欧米の文献中心といった感じになってしまっていましたが、その後、徐々に対象となる資料の範囲を広げており、現在の最新版であるTEI P5では「gaiji」と名付けられた外字を扱うためのモジュールも用意されるなど、東洋学の文献への適用も現実的なものになりつつあります。
このTEIガイドラインには、人文学資料のデジタル化に関わる数十年に渡る議論と実践によって鍛えられてきた哲学が埋め込まれていますので、賛同するしないに関わらず、大変読み応えのあるものであり、人文学資料のデジタル化や電子出版に関わることに積極的な関心をお持ちの方には、ぜひご一読をおすすめします。(この頁の下部にリンクがあります。)少なくとも、最初の4章までと、自分の専門分野に関連のある章は読まれると良いでしょう。(なお、TEIガイドラインは、現在、鶴見大学の大矢一志先生を中心に和訳プロジェクトが進行中です。)
TEIは、当初はSGMLを用いて散文に対してマークアップを行うことを目指していましたが、XMLの普及にあわせて、XMLを用いたものに変更されました。これに伴い、入れ子構造にならないデータをどのように扱うかという問題が生じてきましたが、現在ではこれは「Stand off Markup」という考え方によってクリアするという流れになっているようです。
TEIのガイドラインに従ってXMLの構造を人文学資料に適用していくために、世界中で様々なアプリケーションが開発されていますが、中でも、大変便利なものがoXygen XML Editorです。TEIのみならず、様々なXML準拠の規格に容易に対応できるようになっている、とてもパワフルなツールです。ただ、慣れてしまえば極めて便利なのですが、使い始めの頃は、色々なことができるがゆえに、少し取っつきにくいところがあります。
そこで、このたび、以下のPDFをご提供することにいたしました。これは、デジタルヒューマニティーズ・ワークショップ 2010において、TEIのエクササイズのためにオスロ大学のEspen S. Ore先生が配布した資料を和訳しつつ増補し、oXygen XML Editorのバージョン12.2に対応させたものです。それほど長くありませんが、XML, TEI, Schema, XSLTの扱い方の基本が一通りわかるようになっています。筆者はすでにこれを用いて数回ワークショップを開催したことがありますが、大体2時間くらいで最後までできました。
なお、これはどちらかというと、oXygenの使い方がメインとなっておりますので、TEI文書の構造や、TEIの哲学、あるいは、TEI文書を用いた応用例のような事柄については、直接TEI P5ガイドラインを読まれるか、あるいは、以下に挙げる関連情報の方をご覧ください。
-
oXygen XML Editor(トライアル版のダウンロードも可能。アカデミック版のライセンス購入はかなり安価ですので購入をおすすめします。)
-
TEIとoXygenの初歩を学ぶための手引き:
- TEI P5 ガイドライン・目次(これが公式ガイドラインそのものです。)
- Allen H. Renear: Text Encoding, A Companion to Digital Humanities (TEIにおけるテクストのエンコーディングに関する基本的な考え方が提示されています。).
- James Cummings: The Text Encoding Initiative and the Study of Literature, A Companion to Digital Literary Studies (TEI P5も含めたTEIに関する総合的な解説になっています。)
- TEI by Example project (TEIに関する様々な事例やツールを集めています。)