DHM 083 【前編】

dhmadmin が 2018/10/31(水) - 12:54 に投稿

人文情報学月報第83号【前編】

Digital Humanities Monthly No. 083-1

ISSN 2189-1621 / 2011年8月27日創刊

2018年6月30日発行　　　　　　発行数760部

《巻頭言》「いつか絡繰り人形が本を読む」
大久保ゆう：青空文庫
《連載》「Digital Japanese Studies寸見」第39回
「国立公文書館が「地方公文書館等の主な明治期公文書等紹介ページ」を公開」
岡田一祐：国文学研究資料館古典籍共同研究事業センター
《連載》「欧州・中東デジタル・ヒューマニティーズ動向」第3回
「スウェーデンおよびアメリカ合衆国における古代末期関連のデジタル・ヒューマニティーズの一断面」
宮川創：ゲッティンゲン大学

【後編】

《連載》「東アジア研究とDHを学ぶ」第3回
「IIIF2018カンファレンス参加記」
菊池信彦：関西大学アジア・オープン・リサーチセンター特命准教授
《連載》「Tokyo Digital History」第2回
「『公文録』のWebスクレイピングとメタデータの含意」
福田真人：東京大学大学院人文社会系研究科日本史学専門分野博士課程3年、日本学術振興会特別研究員DC1
人文情報学イベントカレンダー
編集後記

《巻頭言》「いつか絡繰り人形が本を読む」

（大久保ゆう：青空文庫）

自分が機械人間になったらという妄想をよくする。自らに対する機械化願望は幼い頃からあり、水と脂肪でできた躰《からだ》を電気と金属からなる躯《からだ》にできればと思っているのだが、別に肉体の煩わしさが理由ではない。絡繰り人形になろうともやはりメンテナンスは必要なのだから、むしろ単なる夢のたぐいだ。

そうして機械になったあかつきには、自分の行為や思想はどのように変化するのか、と想像を逞しくするわけだが、考えるトピックのなかにひとつ、「機械人間の読書はどうなるのか」というものがある。人ならぬ我が身において読書の愉しみはどうなってしまうのか。

むろんオートマトンになってもなお紙の束を手に持つとは思えない。自分の電脳領域に文字の集積たるデータファイルを読み込むのだろう。しかし読み込みなどほんの一瞬に過ぎない。内容でさえも電脳ならば瞬時に理解してしまうはずだ。ここで「機械に内容理解など」と思われる向きには、少し別の例を示してみたい。

実は人間たる私個人の話だが、速読に似たことが多少は可能だ。経験から説けばおそらく文章をブロックの塊（あるいは意味の塊）として読んでいるらしい。さらにキーワードから重要な点とそうでない点に分け、主旨を論理的（かつ帰納的・演繹的）に推論しつつ、めくりながらかつての解釈にエラーがあればそのたびに修正して読み進めていく。内容の薄い本であれば読了に数分とかからないだろうし、専門書でもそれなりの速度で読み飛ばせる。かくしてまずは一読して要点をつかんでから、気になった点を再び精読した方が研究には効率がよい（とはいえ研究者諸氏にはごく一般的なことか）。

今のディープ・ラーニングによる翻訳の精度に鑑みれば、文字データさえあればＡＩでも早晩ゆうゆうと書物の要約を作れるようになるだろう。そして出来たものが、普段は本を読まず文も書かない者の手によるもの以上に用を足すなら、ある意味では機械も本が読めるということになる。

それでも精読にはならない、という者もあるかもしれない。しかし私たちはそこまで言うほど常日頃精読しているだろうか。もちろん私自身〈翻訳〉をする際にかなり精読してはいる。ただし日々の愉楽のため気ままに本を読む際は、（速読もしていないのに）思いもせず多分に文章を読み落としている。翻訳をする段になってあらためて読むと、こんな文章あっただろうかと感じることも少なくないし、ことによっては場面まるごと初読のごとく感じるほど、読む目と頭は不注意なことがある。読む自分の精度など殊のほか当てにならない。

しかし、だからこそ人は本を再読すると言える。読んでは読みを繰り返し、ひとつの本に時間を費やしながら付き合う。あらすじだけを知るために頁を繰るならそもそも読書行為自体が不要であり、たとえ研究書でも概説だけでよくなる。そもそも何度も嗜む者にとってはネタバレという世間並みの恐怖さえも問題ではない。すでに中身を知っていようが知っていまいが、本と付き合っている時間が大事なのであって、ある一節やふとした場面を愛おしく自らの視線と脳髄で撫で回すことが大切なのだ。種が割れてからが本番である。

ひるがえって、オートマトンが即時に文字データを読み込んで概要をまとめてしまえるというのなら、本はその瞬間にネタバレしてしまうことになろう。機械人間にとって内容が刹那で既知のものになってしまうというなら、読んだという経験や知るという実績だけを重視する価値観にとってはどこまでも充分となる。

だが絡繰り人形たる私がそんな行為で満足できないのは明らかだ。だからといって不可避のネタバレを宿命づけられた機械の躯を呪うことにならない。かえって嬉々として（いや鬼気として）無限とも言える精読の時間と空間を手にしてこれでもかと文字の海を満喫するはずだ。自身の電脳の内側にある本の文字データをすべて展開し、時にあちらをつまんでは解析をかけたりデータベースと照らし合わせたり、またこちらを取り上げては仮想空間を組み上げて再現したり、そちらに寄り添ったあげく多種多様な言語に訳して純粋言語を探ってみたりもするだろう。

もし精読という行為が、肉体の限界に制約された時空間から解き放たれたならば、思考と想像はどれだけ自由になれるだろうか。

ある作品を翻訳した直後の私は、文字データをオートマトンが読み込んだのごとき状態になることがあり、頭のなかに作品の全文をコピーした上であれこれと推敲するのはまことに楽しいひとときである。この脳内本のイメージは、いわゆるフォト・リーディングで書籍のページそのものを暗記してしまうのとはやはり何かが違う（この手法を用いたところで自分のなかで言葉の意味とまったく結びつかなかったことは暗記本位の受験勉強時代にいやというほど実感した）。

さて、この機械人形じみた感覚を視覚化してみたくて、最近手に入れたＶＲ機器を用いて試みに自分の訳した文章を仮想空間のあちこちに浮かばせてみた。いわば文字通り文字の海に浸ってみる行為である。前に奥に右に上に、横にも後ろにも、あらゆるところにおのれの訳文がふわふわと浮遊している。断片化された文章から原文を思い起こしながらやはり訳し直したいと思うこともあれば、気持ち悪くふふふと自らの出来を悦に入ったりする。

そして文字と私の逢い引きは、時をあっという間に彼方へとやってしまい、たちまち夜も更けてしまう。いつか絡繰り人形もあえて外界との接続を遮断した上で文字データと自分だけのランデブーの時間を悦んだりするのだろうか。だとすればそれは人にとっての瞑想や眠りと等しいのか知らん。何事も瞬時に処理可能な機械があえて時を延ばして文字データと戯れながらリラックスする。そんな機械人間の読書があるとすれば、同志として何とも微笑ましくなる。

ここで計算機にも処理限界があると指摘するのは野暮なものだ。ここで問題なのは、時の早さと緩やかさの問題だ。常に急かれるオートマトンたちがいつか時に留まることを楽しめるようになるなら、その助けになる望みが一縷でもあるのなら、私が今せっせとパブリック・ドメインの本を電子化していることも遠い将来、絡繰り人形たちの役に立つのやもしれぬ。

緩慢な時を知らない機械の躯をもった生きものの誰かが、電子デブリばかりがあふれる広大な電脳世界の片隅で何の役にも立ちそうにない文芸作品の文字データをふと見つける。あるいは人間の廃墟を捜索していて見つけたコンピュータの残骸からたまたま電子テキストを取り出す。そして自分だけのひとときを知る。

人類が滅んで機械人間たちの時代になってもなお残るものがあるとするなら、おそらく機械になることも叶わない自分から未来の絡繰りたちへユズリハのように引き継ぎ渡せるものがあるのであれば、時には徒労にも思える電子アーカイヴ活動もまんざらでもない気持ちになる。

執筆者プロフィール

大久保ゆう（おおくぼ・ゆう）1982年生まれ。初期より民間のデジタルアーカイブである青空文庫にボランティアとしてかかわる。高校生・大学生・大学院生と育つなかでデジタルアーカイブの実務と活用・振興を現場で試み続け、現在はフリーランス翻訳家。研究者（大久保友博）としての専攻は、翻訳論・翻訳文化史・創作環境論。京都大学大学院人間・環境学研究科博士後期課程修了、博士（人間・環境学）。京都橘大学助教。そのほか、本の未来基金運営委員、デジタルアーカイブ学会評議員。

「Digital Japanese Studies寸見」第39回　

「国立公文書館が「地方公文書館等の主な明治期公文書等紹介ページ」を公開」

（岡田一祐：国文学研究資料館古典籍共同研究事業センター）

国立公文書館に、明治150年記念事業の一環として、平成29年度全国公文書館長会議を受けて、「地方公文書館等が所蔵する主要な明治期公文書等のデジタル化画像について、一元的アクセスを可能とする特設ページ」が開設された[1]。

当初の目的としては、明治改元150年を期に、明治政府のもと行われた近代国家建設の記録をこれからも残し、また、その歩みを再確認することにあるとされ、そのために、「地方公共団体が設置する公文書館等[…]が所蔵する主要な明治期公文書等のデジタル化画像の一元的アクセスを可能とする特設ページを国立公文書館ホームページ上に設置」することが決まったとのことである[2]。公文書の横断検索については、「国立公文書館において、地方公文書館等の明治期公文書のデジタルアーカイブ化及び国立公文書館デジタルアーカイブとの横断検索を可能とする仕組みづくりへの助言を行う」[3]とのことで、これから取り組みが促進されることが期待される。すなわち、現段階では、各機関でこれはというものを紹介するというかたちとなっている。とはいえ、全体的に説明はなく、館ごとに資料へのなんらかのリンクがあるのみである。

そこに上がったものを見ると、体系的にデジタル化されているアーカイブへのリンクがある一方で、いわゆる「ウェブ展示」のかたちで示されているものも散見される。ウェブ展示も、PDFのパンフレットのものもあれば、ウェブサイトの一ページであるものもある。一般的にみて味気ないアーカイブへのリンクに比べて、PDFのパンフレットは、説明もていねいで分りやすいことが多く、それじたい不適切とは言いきれない。しかし、しばしば、URLを見ると、リニューアル等の機会で一掃されてしまいそうな一時的な命名のものも散見される。これらのウェブページの保管体制はいったいどうなっているのか、そもそもこの紹介ページがうち捨てられずに今後も残っていくのか、いろいろと気になる点は尽きない。

公文書館が作成する文書も公文書であることを思えば、この一群のウェブページも公文書であろう（明治150年は、しかも、官邸の進めている企画でもある）。盛り上り方もまた、その時代の行政を映す鑑ならば、これはこれで一級品の資料に違いない。国会図書館のインターネット資料収集保存事業で保存されていきはするのだろうが、自館の資料としても、ウェブページを活かしてこそ、つぎの150年もあるものではなかろうか。

[1] お知らせ：国立公文書館（地方公文書館等の主な明治期公文書等紹介ページの開設について） http://www.archives.go.jp/news/20180604163441.html。主な明治期公文書等 http://www.archives.go.jp/event/meiji150-01.html。 Twitter上での告知は6月8日にされているが（https://twitter.com/JPNatArchives/status/1005026683710255105）、「カレントアウェアネス-R」誌では6月5日に紹介されており（http://current.ndl.go.jp/node/36102）、具体的な日付はあきらかでない。

[2] 全国公文書館長会議「平成29年度全国公文書館長会議「明治150年」に取り組む基本的考え方」2017年6月8日（http://www.archives.go.jp/about/activity/pdf/h29kancho_02.pdf）。

[3] 注2参照。

《連載》「欧州・中東デジタル・ヒューマニティーズ動向」第3回

「スウェーデンおよびアメリカ合衆国における古代末期関連のデジタル・ヒューマニティーズの一断面」

（宮川創：ゲッティンゲン大学）

この1ヶ月間、私はスウェーデンのルンドとアメリカ合衆国のワシントンDCの2都市に滞在し、現地の研究者とともにDHプロジェクトのための作業を行った。スウェーデンのルンドは、デンマークのコペンハーゲンに近く、コペンハーゲンから電車で海峡トンネルを渡って来ることができる。ルンドは、スウェーデンでウプサラ大学についで2番目に古いルンド大学を擁し、小規模ながら、学生や研究者が多く暮らす学術都市である。この大学の神学部には、エジプトのキリスト教の初期の傑出した修道士であるアントニウスの手紙の研究で世界的に著名なサミュエル・ルーベンソン（Samuel Rubenson）教授がいるが、彼は現在、エジプトの初期の修道士たちの言行録である『師父たちの金言』（アポフテグマタ・パトルム）の大規模なデータベースであるMonastica（http://monastica.ht.lu.se/）の研究・開発を取り仕切っている。この『師父たちの金言』は4世紀頃にギリシア語で編纂されたのち、キリスト教における修道制の広まりとともに、様々な言語に翻訳されていき、コプト語サイード方言（サヒド方言）、コプト語ボハイラ方言（ボハイル方言）、古典シリア語、ラテン語、古代教会スラヴ語、古典グルジア語、古典アルメニア語、ソグド語、アラビア語、ゲエズ語などに翻訳されていった。翻訳や写本作成の過程で言行録の順番の変更や加筆、さらには削除などが行われていき、それぞれの翻訳には数多くの異同がある。それら多数の版の文献学的な異同の研究のプラットフォームとしてのウェブ・データベースを作成しながらも、統計的な研究によって写本間の異同に基づく距離（distance）を数値化し、それらを視覚化（visualization）していくことがこのプロジェクトの目標である。このプロジェクトのPIであるルーベンソン教授の招待で筆者はルンド大学に5月下旬、一週間滞在した。　

このプロジェクトには、各言語の専門家が参加しているが、ウェブ開発はヨハン・オールフェルト（Johan Åhlfeldt）氏によって現在は行われている。彼は、西洋古典学やエジプト学などで用いられる都市・土地・場所に関する、他のデータベースとのリンキング・データ（linking data）を活用させたデジタル・マップであるPelagios Commons（http://commons.pelagios.org/）の開発者として働いてきた。彼は現在、Monasticaのウェブ・インターフェースの改良を行っている。その中で注目すべきは、彼が現在実装させつつある、ウェブXMLエディタである。これは、汎用のウェブ上コードエディタであるCodeMirror（http://codemirror.net/）がベースになっている。CodeMirrorはJavaScriptで書かれている大変軽量な、ウェブ上で動く汎用エディタであり、オールフェルト氏はこれをMonasticaのユーザーがウェブ上で用いる一種のTEI XMLのエディタとしてカスタマイズしている。

私は、彼らに私が現在参加しているプロジェクトで用いられている一連のツールを紹介した。その中でも特に彼らの興味を引いたと思われるのが、私のコプト語文献の間テクスト性（intertextuality）のプロジェクトで用いられている、ライプチヒ大学のシュテファン・イェニケ（Stefan Jänicke）氏が開発したTRAVizである。このプログラムでは、2つのテクスト間に異同がある場合に、それを線やアラインメントで表したり、色の濃淡や種類によって文同士の類似度を示す点でマッピングさせたり、テクストをパラレルに表示させたり、と様々な視覚化ができる。いくら文章で表現したとしても、スクリーンショットをお見せした方が効率的であるので、まずは、TRAVizの公式ページ（http://www.traviz.vizcovery.org/index.html）の画像を見てほしい。ただし、このホームページはアラインメントによる異同の表示だけしか画像が掲載されておらず、文献間のマッピングの視覚化などは載っていない。マッピングとパラレル・ヴューは、筆者とマルコ・ビュヒラー（Marco Büchler）氏による、2016年のコプト学国際学会（カリフォルニア州クレアモント）で用いられたスライドを見ていただきたい（https://www.etrap.eu/wp-content/uploads/2016/08/claremont27Aug2016.pdf、もしくは、https://www.academia.edu/28103489/Miyagawa_S._B%C3%BCchler_M._Computational_Analysis_of_Text_Reuse_in_Shenoute_and_Besa_11th_International_Congress_of_Coptic_Studies._July_28）。ビュヒラー氏は、先月号前編で紹介したeTRAPチーム（https://www.etrap.eu/）のPIである。　

2つ目の出張は6月上旬の、アメリカ合衆国のワシントンDCにおける調査・研究である。筆者は2014年からCoptic SCRIPTORIUM（http://copticscriptorium.org/）というプロジェクトにResearch Memberとして参加している。Coptic SCRIPTORIUMのSCRIPTORIUMは、「（コプト語）サイード方言コーパス研究：学際的多層手法のためのインターネット・プラットフォーム」（Sahidic Corpus Research: Internet Platform for Interdisciplinary multilayer Methods）の略で、コプト語の中でも著作が最も多く書かれたサイード方言の言語学・文献学的なタグ付き多層ウェブコーパスを開発している。このプロジェクトのリーダーのうちの一人がジョージタウン大学言語学科の助教（Assistant Professor）であるアミール・ゼルデス（Amir Zeldes）氏であり、彼がプロジェクトの技術面を率いている。彼のポジションはテニュア・トラックであり、また、これまで計算言語学（Computational Linguistics）の博士課程の大学院生数人の指導教員を務めている。ゼルデス氏は、エルサレム出身のイスラエル人であり、学部はヘブライ大学で、大学院はポツダム大学とベルリン・フンボルト大学で学び、日本にも3ヶ月間語学学校に滞在し、母語のヘブライ語を始め、英語、ドイツ語、日本語、さらに、ポーランド語などを流暢に話すことができるポリグロットである。このプロジェクトのウェブコーパス自体はANNIS（http://corpus-tools.org/annis/）というフンボルト大学が開発したPostgreSQLに基づいたプラットフォームである。ここでは、画像を添付することができないので、ANNISのホームページでどのようにコーパスが表示されるのか見ていただきたい。専門のクエリ言語を用いて、様々な統語条件、または語彙条件で語や構文を検索することができる。入力するデータはSGMLであるが、TEI XMLなど様々なフォーマットに出力することも可能である。Coptic SCRIPTORIUMのデータは全てGitHubで公開されている（https://github.com/CopticScriptorium/）。今回のワシントン滞在中、ゲッティンゲンで筆者と同僚が作成した5世紀の修道院長シェヌーテの『第六カノン』と呼ばれるコプト語サイード方言の文献のEpiDoc TEI XMLデータを、SCRIPTORIUMで用いられるSGMLのデータに変換して、公開する手前のところまでゼルデス氏と共同作業を進めた。Coptic SCRIPTORIUMはこれまで多数の自動化NLPツールを作成し、用いている。主なものとして、トークナイザー（tokenizer）、レンマタイザー（lemmatizer）、POSタガー（POS-tagger）、そして、Universal Dependencyに基づいた統語樹パーサー（syntactic treebank parser）が挙げられる。レンマタイザーとPOSタガーは、ルートヴィヒ・マクシミリアン大学ミュンヘンのヘルムート・シュミット（Helmut Schmid）氏が開発したTreeTagger（http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/）を用いている。トークナイザーはゼルデス氏が独自に開発したものである。コプト語は前置詞、助動詞、冠詞などの文法語が内容語に接して書かれ、スペースは、日本語の文節のような、Bound Groupと呼ばれる音韻論的単位を元にしたある種の句ごとに挿入されることが多い。そのため、Bound Group内の語を分けてトークン化することがNLPの鍵となる。

これらの自動化ツールを纏めて、コプト語文を入力し、Processボタンをクリックするだけで解析されたSGMLデータが得られるCoptic NLP Serviceも、Coptic SCRIPTORIUMとKELLIAプロジェクト（http://kellia.uni-goettingen.de/）の一貫として公開されている（https://corpling.uis.georgetown.edu/coptic-nlp/）。これらのNLPツールには、ローマ大学のCorpus dei Manoscritti Copti Letterariプロジェクト（http://www.cmcl.it/）やベルリン・ブランデンブルク学術アカデミーのThesaurus Linguae Aegyptiaeプロジェクト（http://aaew.bbaw.de/tla/）など他のプロジェクトからの協力によって得た、広範なレンマデータが用いられている。

今回のワシントン出張では、ゼルデス氏との共同作業によって、『第六カノン』の数多くのデータ、シェヌーテの弟子のベーサのテクスト、そして、ゲッティンゲン学術アカデミーのコプト語旧約聖書デジタル・エディション化プロジェクトから得たコプト語サイード方言訳の旧約聖書のデータをCoptic SCRIPTORIUMの形式に変換する作業を行った。そのほかにも、ワシントンのアメリカ・カトリック大学に保管されている、世界各地のコプト語写本の100年前に撮られた写真のコレクションにおける調査・研究も行った。カトリック大学の教授であったアンリ・イヴェルナ（Henri Hyvernat）氏は100年前、世界各国の博物館や図書館にあるコプト語の写本を撮影し、それらの写真がこのカトリック大学のコレクションとなっている。元となった写本は現在は様々な国の博物館や図書館で保管されているが、劣化して読めなくなったものも多い。そのために、100年前に撮られたこのカトリック大学の写本の写真のコレクションは様々なコプト語写本を解読する際に大変重要なヒントとなる。

今夏は、ヨーロッパでは、例年のようにライプチヒ大学でDHのサマースクール（http://www.culingtec.uni-leipzig.de/ESU_C_T/node/97）が、オックスフォード大学でもDHのサマースクール（http://www.dhoxss.net/）があるほか、ハンブルク大学では、コプト文献学のサマースクール（https://www.manuscript-cultures.uni-hamburg.de/register_coptic2018.html）があり、私はコプト語コーパス言語学およびDHの講師として授業をする予定である。

次回の連載では、ヨーロッパとイスラエルの大学におけるDH教育について述べたいと思う。

続きは【後編】をご覧ください。

配信の解除・送信先の変更は、http://www.mag2.com/m/0001316391.html にてお願いいたします。

人文情報学月報編集室では、国内外を問わず各分野からのご寄稿をお待ちしています。
詳しくは dhm _at_ dhii.jp （ _at_ を@に置き換えてください）にお問い合わせください。

人文情報学月報 [DHM083]【前編】　2018年6月30日（月刊）

【発行者】人文情報学月報編集室

【編集者】一般財団法人人文情報学研究所

【ISSN】2189-1621

【E-mail】dhm _at_ dhii.jp （_at_ を@に置き換えてください。）

【サイト】 https://www.dhii.jp/DHM/

コメントを投稿するにはログインしてください

ISSN 2189-1621 Published by: