ISSN 2189-1621 / 2011年8月27日創刊
私事で大変恐縮ですが、2019年9月に国立情報学研究所から東京大学大学院人文社会系研究科に転職しました。次世代人文学開発センター・人文情報学部門という部署で、その名の通りデジタルヒューマニティーズに関する研究教育や、それらを可能にする情報インフラの整備に取り組む予定です。これまで私は10年以上に渡って CiNii を中心とした学術情報サービスの開発・運用に携わってきました。どちらかと言えば情報の流通を支援する立場でしたが、一転して情報の発信や受信を主体的に行うことになります。所属の組織が研究所から大学へ、そして研究分野も情報学から人文学にということで、生活のすべてが変わってしまった気がします。まだまだ慣れるには時間がかかりそうです。とはいえ、何もかもが未知の世界というわけでもありません。これまでの仕事で扱ってきた日本語の文献情報を利用いただいていたのはいわゆる文系が中心でしたし、こういった縁から人文学の研究者のみなさんと長らく交流してきました。それでも、自分自身がその現場に飛び込むことになろうとは数年前にはまったく想像できませんでした。
人文情報学は比較的新しく、かつ学際的な研究分野ですが、個々の研究は人文学の研究者自らが情報技術を駆使しながら取り組んでいる場合と、人文学と情報学のそれぞれの研究者による共同研究であることが多いように思います。いずれの場合も、研究目的やその成果のあり方を規定するのは人文学であり、情報技術は道具として用いられるものという構成には変わりありません。情報学の側でも、テキスト処理やネットワーク分析といった解析手法、XML やデータベースなどの基盤技術を含めて、分野を問わずに使うことができるという汎用性を高く評価する面があり、道具として扱われることに逡巡はありません。こういったある種の共生関係は人文情報学に限らず、バイオインフォマティクスや医療情報学などさまざまな研究分野で存在していますし、さらには一般社会でも実際のビジネスを行うユーザ企業と IT ベンダーの関係は同様のものに見えます。
このような、それぞれの専門と情報技術の「つかず離れず」の安定的な関係性がいろいろな場所で崩れてきているのが現状なのかもしれません。例えば、私が関わってきた学術情報流通の枠組みが研究のプロセス自体に介入することはありませんでした。研究そのものは研究者が行い、得られた知見の流通は学会や出版社、図書館が担うという分業体制には長い歴史があります。しかしながら、昨今注目されている「オープンサイエンス」の動きは、この構図を大きく変化させる可能性があります。研究データという、従来の研究成果としての文献とは異なる種類の情報を広く共有するためには、個々の研究者の努力に頼るのではなく、データの管理体制の整備やそれを支援するための情報システムの提供など、これまでとは異なる職能を持つメンバーやコミュニティが研究活動に参加する必要があります。「シチズンサイエンス」もまた同じように、市民の参加をデータ収集のような研究プロセスのごく一部分に押し込めるような提案ではなく、研究全体に関われるものほど支持を得られるという状況です。こうした形で分業体制の解体はすでに始まっていると言えます。
個人的には、人文学の内部からこのような流れに棹さすべく、これまでの知見と経験を注ぎ込んでいきたいと考えています。ただただ既存の体制を破壊したいということではなく、情報技術がなければ存在できないような人文学の研究、人文学の知見がなければあり得ない情報技術、あるいは名前がつけられないようなものを生み出すことで、解体の向こうにある新たな体系化に貢献できればと考えています。いまはまだそれが何なのかはさっぱりわかりませんが…。折しも再来年には東京で人文情報学分野の最大の国際会議である Digital Humanities 2021(DH2021)が開催される予定です。この会議の共同プログラム委員長を拝命したこともあり、転職後の最初のマイルストーンとして、この場を「何か」で満たせるように活動していく所存です。たくさんの方々にご支援やご協力をお願いすることになろうかと思いますので、今後ともどうぞよろしくお願い申し上げます。
今回は小林雄一郎『ことばのデータサイエンス』(朝倉書店、2019)と大邑潤三・加納靖之『京都の災害をめぐる』(橋本学監修、小さ子社、2019)を紹介したい。
小林『ことばのデータサイエンス』は、言語資料を分析する際の考え方について説明したものである。小林は、これまでも統計解析プログラミング環境のひとつであるR言語を使ってのテキストマイニングなどについて数冊を編んでいるが、それらの本を貫くことばに対する視座について手際よくまとめたものとなっている[1]。
「はじめに」にあるように、本書は言語研究者、あるいは計量的文体研究者以外にも言語の特徴の分析を知ることができるように書かれている。以前もすこし触れたが[2]、デジタル人文学の基盤に電子テクストの処理性能の向上が寄与した面は相当程度に及ぶ。そのようななかで、電子テクストの処理をブラックボックスに任せず、自ら使えるツールとするための本書のような取り組みは、デジタル人文学を行っていくうえで欠かせないものである。また、分析対象によって統計分析の手法は異なることがあるので(141ページ注7などの細かいところからデータ選定の考え方まで)、言語研究以外の分野で統計を使いこなしている人々にとっても、言語研究における分析法を手軽に把握できる本書は至便なものといえよう。
本書は、小林のこれまでの本とは異なり、特定のなにかを目指したものにはなっていないため、できること・できないことがより明瞭に感じられる利点がある。統計的言語研究で可能になったのは、合理的な枠組みで言語を説明できる範囲を広げることであった。それは、種々の技術的革新と、それを身近なものとするツール群の開発と習得によって得られるわけであるが、今後の技術によって説明できるようになる領域と、枠組みには収まり得ない細部とは、人の営みを扱う人文学では今後とも併存しつづけるものである。いたずらに枠組みに収まらないことを徳とする偏狭さはよしとしないが、かといって、デジタルですべて解決できるはずもないのである(法則で人文ができているわけではないのだから)。本書の記述はとても手堅く、このさき学ぶべきことがらへの案内も叮嚀になされており、テクストを電子的に扱うまえに一読を勧めたい一冊である。
大邑・加納『京都の災害をめぐる』は、題名にあるように、京都の災害を文字通り巡ったものである。「歴史の中に埋もれた災害の事実を、地図と写真とともに解説する、今までにない京都案内」と帯文にあるように、平安京から南山城にかけての災害にかかわる地点を巡り、紹介したのが本書である。大邑・加納の対象に対する目は優しく、読み手に心地よい。本書の DH 的側面は、デジタルアーカイブ資料の活用と、紹介した地点のデジタル地図をウェブで提供していることにある[3]。
紹介される地点はいろいろで、防災に役立つ現代のもの(観測地点や災害関連情報、資料館など)、災害(震災・風水害・火災・その他)の足跡が残る地点などがあり、並び方も地図ごとに一定の整理がされたものとなっており、自然とぱらぱらと眺めることになる。史資料が多く引用されているのが印象的で、参考文献の指示も多く、京都に住んだことはないが、よくまとまっているという印象である。史資料の引用に際しては、所蔵者や利用条件が明記されている原資料なども多く、読者をさらなる探究へと誘う。その一方で、『甲子夜話』が平戸藩主松浦静山の著作であり、静山の見聞きしたことが綯い交ぜになって書き記されている—というような、種々の資料の性質については説明があったりなかったりで気になるところではある[4]。
デジタルアーカイブ掲載資料への案内を積極的に載せているのも、だいぶん珍しくはなくなってきたとはいえ、本書の特色であろう。ウェブ上で見られる資料については、明朝体で強調してある。活字本が公開されていればそちらにリンクを張っているが、ないばあいは、見られるものを優先して掲載している。ウェブ版の地図は、今後詳細なものを展開するとしているが、現在は Google My Maps を利用して紹介地点がマッピングされたものが提供されている。
本書を刊行した小さ子社は、人文書専門出版社ということであり、また、本書も、縦書きという体裁も含めて、人文書に位置づけられるのであろう。そのような出版社が、デジタル的展開に積極的に関与していることは心強いことである。事前に街歩きを開催したり、読者に写真投稿を呼びかけたりしたらしい(執筆時には投稿を見られなかった)ことも、本の性質として興味深い。
小林のような専門書は、大邑・加納のような一般書として消化されてはじめて学術外に還元される。縦書きの優位性を唱えるわけではないのだが、人文書が縦書きのものとして出されつづけるからには、どのようにデジタル人文学の成果を縦書きのものにしてゆくかは考えつづける必要があろう。分野としても専門性の点からも両書は日本のデジタル人文学の広がりを感じさせる良書であろうと思う。
PROIEL(Pragmatic Resources in Old Indo-European Languages)とは、ノルウェーのオスロ大学の Dag Trygve Truslew Haug が中心となって開発している、インド・ヨーロッパ語族の諸言語のうち古層の諸言語を中心としたテクストのコーパスおよびツリーバンク(統語樹のデータバンク)である。
インド・ヨーロッパ語族(印欧語族)とは、中国西北部でかつて話されていたトカラ語、インド[1]およびイランとその周辺の多くの言語、アナトリア半島で話されていたアナトリア諸語、そして、現在ヨーロッパで話されている数多くの言語[2]が属する語族である。その語族の諸言語は、元は一つの言語から分岐していってできたと考えられており、その祖先となる始源の言語をインド・ヨーロッパ祖語(印欧祖語)と呼ぶ。印欧歴史比較言語学は、主に音韻論、次に形態論的な観点から、印欧祖語の姿の復元(再建)を試みるが、統語論の観点から復元を試みる学者もいる。PROIEL は、この印欧歴史比較言語学に資するために、ノルウェー研究委員会の助成金を2008–2012年の間取得し、開発された。PROIEL Web App(http://foni.uio.no:3000/[3])と The PROIEL Treebank(https://proiel.github.io/)が公開されている。ウェブ・アプリでは、テクストが電子化されているだけでなく、形態素解析がなされ、インターリニアの語釈・文法情報が言語学的な方法でグロス付けされているほか、依存文法を用いた統語情報がツリーで表示され、さらには、代名詞の照応や既出・新出の情報などの情報構造までもが表示される。
はじめは印欧語族の古層言語の聖書の翻訳が主だったが、それ以外の文献も多数追加されていった。2019年10月15日時点、トカラ語派、アナトリア語派、ケルト語派、バルト語派、アルバニア語派の言語は含まれていない。ヨーロッパの言語がほとんどで、ヨーロッパ外では、唯一、インド・イラン語派のサンスクリットのコーパスがある。このPROIELに収録されている言語は、1453年までの古代・中世ギリシア語、教会スラブ語、古典アルメニア語、ゴート語、ラテン語、古英語、古フランス語、古ノルド語、古ロシア語、ポルトガル語、サンスクリット(現時点で『リグ・ヴェーダ』しかないため、より正しくはヴェーダ語)、スペイン語である。俗ラテン語から派生したスペイン語やポルトガル語、そして古フランス語は、属するロマンス語派の古層の代表言語であるラテン語よりも成立の年代が新しいため、印欧祖語の印欧歴史比較言語学ではあまり参考にされないと思われるが、それらの言語のテクストのコーパスも PROIEL は有している。
聖書以外にも、諸々のサーガやエッダ(古ノルド語)や『ラウソス修道者史』(古代ギリシア語)、プラウトゥスの諸作品(ラテン語)、『メスロプ・マシュトツ伝』(古典アルメニア語)、『リグ・ヴェーダ』(ヴェーダ語)など多数のテクストがある。
ウェブ・アプリの使用はサインアップ&ログインが必要である。まずテクスト、そして章、さらに節や文をクリックしていくと、最終的に注釈なしのテクストとともに、同じテクストが以下の3つのセクションで別々の方法・注釈で表示される。
インターリニア・グロス付きテクストは、図1のように、最初の段にテクスト、次の段に語ごとの品詞情報、3段目には、その語が名詞なら性・数・格、動詞なら時制・相・法・態などの文法情報、4段目にレンマ、そして最後の5段目の段にはレンマに対応する意味が書かれている。
中には、図1の ἅγιος「聖なる(形容詞・原級・主格・単数・男性)」、 Αντώνιος「アントーニオス(固有名詞・主格・単数・男性)」のように、5段目には意味が書かれていないものもある。インターリニア・グロスは、多くの数学者、物理学者、情報学者や言語学者が論文を作成する際に用いる LaTeX 形式でエクスポートできる。
統語樹のセクションでは、同じテクストの統語構造が、図2のように依存文法(dependency grammar)を用いたツリー形式で表示される。
依存文法とは2語間の主要部−従属部関係を中心に統語関係を記述するものである。これは、語の上位範疇として句を設定し句の中に語だけでなく句も入り得る構造をもつ構成文法、特にその代表例である句構造文法とは異なり、語よりも上位の構造を設定しない。依存文法は、特に、ラテン語や古代ギリシア語、チェコ語など、語の順序が比較的自由な言語でも、シンプルな記述を行うことが可能である。図2の例では、まず ἐρωτᾷ「尋ねる(動詞・直説法・現在時制・能動態・3人称・単数)」に文の主要部である PRED(述語)が付与され、この動詞が、その AUX(補助語)として接続詞 Καὶ「and」、XADV(開かれた副詞的補語)として ἐξελθῶν「出てきた(分詞・アオリスト・能動態・主格・単数・男性)」、SUB(主語)として Αντώνιος「アントーニオスが」、OBJ(目的語)としてαὐτον「彼を」を支配しているということが分かる。Αντώνιος は同時に ἐξελθῶν の主語でもあるため、XSUB(開かれた主語的補語)の関係が結ばれている。そして Αντώνιος は定冠詞 ὁ を補助語として、形容詞 ἅγιος を APOS(接置語)として従える。また、菱形は、主に等位接続詞(ここでは接続詞 Καὶ)に付されているようである。全体としての訳は、「そして、聖アントーニオスは出てきて彼に尋ねる」となる。
近年、Universal Dependency(UD)が依存文法を用いたツリーバンクのスタンダードとして著名でありコプト語を含め様々な言語で開発されている[5]が、PROIEL は、この UD に変換したヴァージョンも公開している[6]。
情報構造では、代名詞が何を指しているか、既出か新出かなどが様々な色のハイライトや枠などで示される。
形態論、統語論、情報構造のタグ付けの進捗具合は、テクストを選択した後に表示されるそのテクストの目次の項目に付されるチェックマークの色で表示される。チェックマークの色が緑であればタグ付けが十分なされており、赤色であればタグ付けが少なく、黄色であればその中間であることが読み取れる。
検索では、レンマ情報、形態素情報、統語情報、情報構造の情報などを指定して、細かな条件で検索することができる。検索後には、ヒットした語のコーパス内の用例がコンコーダンス形式で表示される。
このようにPROIELはユーザ・フレンドリーなインターフェイスを持ちながら、言語学者が要求するような細かな文法事項や語彙事項を条件に指定して検索できる、画期的なコーパスであり、特にツリーバンクとしても公開されているその統語情報のタグに関しては、印欧歴史比較言語学の統語論の分野において、大変有効に研究に使えるものであると考えられる。
https://www.lib.u-tokyo.ac.jp/ja/library/contents/event/20191015
https://dadh2019.conf.tw/site/page.aspx?pid=901&sid=1308&lang=en