ISSN 2189-1621

 

現在地

DHM 094

人文情報学月報/Digital Humanities Monthly


人文情報学月報第94号

Digital Humanities Monthly No. 094

ISSN 2189-1621 / 2011年8月27日創刊

2019年5月31日発行      発行数493部

目次

  • 《巻頭言》「マンガのディジタルアーカイブに向けて―人文情報学との出会いと期待
    三原鉄也筑波大学図書館情報メディア系
  • 《連載》「Digital Japanese Studies 寸見」第50回
    HNG 単字検索の公開
    岡田一祐国文学研究資料館古典籍共同研究事業センター
  • 特別寄稿「Gregory Crane 氏インタビュー全訳(第4回・完)
    小川潤東京大学大学院人文社会系研究科
  • 人文情報学イベント関連カレンダー
  • イベントレポート「「東洋学へのコンピュータ利用」第30回研究セミナー
    王一凡一般財団法人人文情報学研究所
  • 編集後記

《巻頭言》「マンガのディジタルアーカイブに向けて―人文情報学との出会いと期待

三原鉄也筑波大学図書館情報メディア系特任助教

・文化資源としてのマンガ

マンガは、その定義や起源にはいくつかの議論がある[1]ものの、記号表現による簡略化・抽象化と複数のコマやシーンを平面的に連続させることを駆使して物語を表現する、日本で独特の進化を果たした視覚表現文化として、国内外である程度共通の認知を得ていると言ってよいだろう。戦後の悪書追放運動に代表されるように、以前はマンガを低俗なものだとする社会通念も根強く存在したが、現在では日本を代表する文化の一つとして認知されるに至っている。

マンガはその固有の表現形態に留まらず、アニメ、映画、ゲーム、舞台などへの翻案を通じ、メディアを越えてその物語空間とユーザを広げている。更に、こうした多メディア展開により言語障壁を超えて様々な国で親しまれている。日本人と他の国の人々が同じ作品の話をできたりすることも日常に見られ、マンガは日本の文化を世界に届ける役割を果たしている。こうしてマンガが異なる文化の境界を超えて広がっていくことで、マンガ自体も複合的な文化圏を形成している。

こうして近年マンガはサブカルチャーから脱皮を果たした訳だが、それは戦後と共にマンガが既に緩やかに古い存在になり始めていることを意味している。2018年大学で筆者が担当した講義で「マンガは古いものと感じるか? 新しいものと感じるか?」というアンケートを行ったところ、実に半数以上の学生が「古い」と答えたことはちょっとした驚きだった(対して「新しい」と答えたのは2〜3人ほどだった)。マンガはオーソリティが積極的に関与する存在になっている。

・国のマンガ保護とアーカイブ

我が国のマンガの保護・振興には文化芸術の保護と産業としての振興の二面に大別される。文化としてマンガを保護する議論は1990年代後半より始まり、2001年に文化芸術振興基本法(現、文化芸術基本法)[2]が制定され、それまで文化振興施策の中心だった伝統芸能に対し「メディア芸術」の振興が盛り込まれるに至る。

以来、同法を背景に、マンガは「メディア芸術」のひとつとして文化庁による文化振興施策が進められているが、昨今文化保護の観点から保存・アーカイブの話題の関心が高い。主要な施策として、我が国の優れたメディア芸術作品や散逸、劣化などの危険性が高いメディア芸術作品の保存と活用等を支援する「メディア芸術アーカイブ推進支援事業」[3]や我が国でこれまで創造されてきたメディア芸術作品の所蔵情報等の運用および利用促進を行う「メディア芸術所蔵情報等整備事業」[4]が挙げられる。更に、メディア芸術所蔵情報等整備事業の成果として、メディア芸術データベース[5]が公開されている。メディア芸術データベースはジャパンサーチ[6]におけるメディア芸術分野の主要な連携先、つなぎ役として調整が進められている[7]。

マンガに視点を戻すと、京都国際マンガミュージアム[8]は日本最大規模のマンガを対象とした図書館・博物館であり、事業主体である京都精華大学、同国際マンガ研究センターと協調してマンガ資料の保存と活用に関する様々な活動に取り組んでいる。また横手市増田まんが美術館[9]は「日本で最初のまんが美術館」を標榜し、マンガの執筆原画の収蔵・アーカイブや原画の展示活用に積極的に取り組んでいる。

・マンガをディジタル環境で扱うことの難しさ

マンガに限った話ではないが、資料の利活用の柔軟さを考えれば、ディジタルアーカイブの構築はアーカイブの運用において当然視野に入れるべきことだろう。しかし、マンガをディジタル環境で一般のユーザが期待するように「便利に」扱うことには困難が伴う。

マンガはビットマップの画像データで扱われることが一般的で、書籍のページや見開きに相当する単位でコンテンツデータが作成・提供される。日頃マンガの読者が当たり前のように読み取っている個別のコマやキャラクター、セリフといったマンガの構成要素にアクセスするには計算機がそれらを識別する必要がある。画像データからそうした構成要素を自動認識する技術の研究は既に進められており、日々性能も向上しているが、過去のコンテンツまで含めて多様な形態の表現に対応する汎用的な手法の確立が困難であることは容易に推察できる。

またマンガは複数の画像の組み合わせによって表現される。1コママンガや4コママンガもあるが、意味のあるまとまった物語を表現するには複数のページは不可欠であるし、より長い物語を作るためには書籍なら複数の巻次が費やされることは一般的だ。一方、ディジタル環境でマンガをコンテンツとして提供する単位は多岐に渡っており収束していない。バインディングのためのデータ標準の議論もある[10]が、実際のサービスで定着しているものはまだない。

加えて、マンガの出版産業における存在感の大きさゆえにコンテンツが著作権保護の厳密性や利害の調整が難しいことも利用の妨げとなりがちである。特にユーザの需要が大きいものほど市場的価値が高く、守られているものであることがほとんどである。

こうしたいくつかの要因により、一般的な文書や音声・動画メディアなどでサービス化されているコンテンツを利用する機能がマンガについては実現されていないのが現状である。

・マンガのメタデータとIIIF

筆者はこうした課題解決のために、マンガをディジタル環境で便利に扱うためのメタデータの研究を進めている。 マンガの構成要素や提供単位に関する情報を画像データのメタデータとして抽象的な情報として提供することで、画像データの在り方とは独立にマンガの情報をディジタル環境で扱えるようにする試みである。

しかし、この試みには画像データとメタデータをどのように統合的・協調的に扱うかという点で課題があった。その中で、IIIF(International Image Interoperability Framework)の登場と普及はその解決法として非常に大きなインパクトがあった。 IIIF は任意の画像データの任意の領域について URI でのアクセスを提供し、またそれらをバインディングしてコンテンツとして提供する基盤であると言える。これをメタデータと組み合わせて活用することで、これまでに実現されていない様々な機能をマンガの閲覧環境で実現できると考え、IIIF を活用して、構成要素の検索機能を持ったマンガの閲覧環境[11]やマンガ画像を Web 上で部分引用する機能[12]を開発している。

・未来に向けてマンガと人文情報学の良い関係を考えてみる

マンガが戦後の日本文化の一翼を担ってきたことに疑いはない。戦後が遠くなるほど、マンガは過去の資産としての側面や役割も大きくなっている。こうしたマンガ資産をより多様な可能性をもって次世代に伝えていくことは社会的な課題と言える。この議論と実践に人文情報学が貢献できることには疑いがない。

他方、人文情報学にとってもマンガを扱っていくことは、その社会への適用の可能性を示すモデルケースにできるのではないかと期待している。歴史的な厚みも出てきているとはいえ、未だ産業としても存在感は大きく、その問題解決の意義は学術研究に留まらない。個人的な体験と見聞の域を出ないが、産業界からの期待も大きい。

先に述べた IIIF の応用の例のように、人文情報学の成果から現在も活発なコンテンツの流通のさらなる促進に関するブレイクスルーが生まれるとしたら、マンガにとっても人文情報学にとっても非常に意義深いのではないだろうか。 そうしたアイディアは、特に未来のマンガ(たとえそれが現在のマンガと全く異なる形態だったとしても)の創造に寄与するものであってほしい。ぜひ人文情報学に関わるより多くの人々にマンガに照準を定めて、助けてほしいと思っている。

[1] 清水勲『漫画の歴史』(岩波新書、岩波書店、1991)に詳しい。
[2] 文化庁「文化芸術基本法(平成十三年法律第百四十八号) 改正 平成二十九年六月二十三日」http://www.bunka.go.jp/seisaku/bunka_gyosei/shokan_horei/kihon/geijutsu_shinko/kihonho_kaisei.html
[3] 文化庁「2019年度文化芸術振興費補助金メディア芸術アーカイブ推進支援事業について」http://www.bunka.go.jp/shinsei_boshu/kobo/1413142.html
[4] 文化庁「平成29年度メディア芸術所蔵情報等整備事業」http://www.bunka.go.jp/shinsei_boshu/kobo/h29_media_shozojoho_seibi.html
[5] メディア芸術データベース(開発版)https://mediaarts-db.bunka.go.jp/
[6] ジャパンサーチ(試験版)https://jpsearch.go.jp/
[7] 国立国会図書館電子情報部「ジャパンサーチ(試験公開版)の現状について」https://www.kantei.go.jp/jp/singi/titeki2/digitalarchive_suisiniinkai/jitumusya/dai5/siryou5.pdf
[8] 京都国際マンガミュージアム https://www.kyotomm.jp/
[9] 横手市増田まんが美術館 http://manga-museum.com/?page_id=12
[10] W3C BD COMICS MANGA COMMUNITY GROUP https://www.w3.org/community/bdcomacg/
慶應義塾大学 SFC 研究所 アドバンスド・パブリッシング・ラボ「W3Cに未来のデジタルマンガについてのコミュニティグループ」https://www.aplab.jp/digitalmanga
[11] 橋場天紀, 三原鉄也, 永森光晴, 杉本重雄「マンガの内容と構造のメタデータ記述を利用した IIIF に基づく検索・閲覧環境の構築」『研究報告人文科学とコンピュータ(CH)』2018-CH-116, no. 12, (2018-01), pp. 1–5.
[12] 加藤夕稀, 久行智恵, 三原鉄也,永森光晴,杉本重雄「コンテンツ共有のためのマンガの構造記述を利用した IIIF に基づく閲覧環境の構築」『研究報告人文科学とコンピュータ(CH)』2019-CH-119, no. 16 (2019-02), pp. 1–6.

執筆者プロフィール

三原鉄也(みはら・てつや/筑波大学図書館情報メディア系特任助教)。博士(情報学)。筑波大学図書館情報メディア系非常勤研究員を経て、2017年より現職。マンガをディジタル環境で高度に利用するためのメタデータやポップカルチャのディジタルアーカイブ連携の研究に携わっている。近年はメディア芸術データベースの開発にも参加している。
Copyright(C) MIHARA, Tetsuya 2019– All Rights Reserved.

《連載》「Digital Japanese Studies 寸見」第50回

HNG単字検索の公開

岡田一祐国文学研究資料館古典籍共同研究事業センター特任助教

2019年5月11日、漢字字体規範史データセット保存会(以下 HNG データセット保存会)は、HNG 単字検索を公開した[1]。HNG データセット保存会については、以前設立総会について報告したことがあり[2]、その活動の成果ということになろう[3]。

今回設けられた単字検索機能は、現在休止中の HNG における休止前の検索画面を再現しつつ、作り替えることを目的としたものだという。HNG の代替サービスとしては、CHISE-IDS HNG 検索がその役割を果たしてきたが、あくまで守岡知彦氏の運営する CHISE の拡張として存在しており、使用感などに異なる点があって、以前のものを求める声があったのに答えたという。HNG は何度か UI の変更を行っているが、HNG の休止以前の画面を筆者の過去のデータのなかに探してみるとつぎの画像があった。これは、いつの時点のものか正確には分からないが、HNG の最初期段階に近いものではなかろうか。内容としては、龍部の検索結果となっている。検索部分がなく最善の一枚ではないが、過去を思い出す分には十分であろう。

さて、善し悪しはさておき、両者のちがいについて明確にしてみよう。HNG 単字検索は、読んで字のごとく、単字単位で検索するものであり、それ以外は長らくHNGの代替サービスとして機能してきた CHISE-IDS HNG 検索が担うことになっている。それゆえに、この画像で検索されているものは単字検索では実現できないことになっているが、HNG の利用状況としてどのようなものが多かったかはもはや分からず、いたずらに複雑になることを避けたものか、たんに利用数の少ない機能を実装する意義を認めなかっただけか分からない。CHISE-IDS HNG 検索では、部首検索は実現されていないので、まったく同じ結果を得ることは現状難しい[4]。HNG は同時に多数の字体の検索を認めていたので、正規表現を用いることもできたが、それはやはり対象外である。大字典や諸橋大漢和の番号で検索できる機能も用意されていない。

HNG の重要な要素として、「異体率」というものがあった。これは、いわゆる正俗観念から生まれる異体字ではなく、ひとつの字について複数字体が用いられるばあい、用例の少ないほうを指す。画像では、上野本漢書楊雄伝において、「龍」字の「立」の部分が「立」か「丘」かで異体が見られる(ここでは「立」が8例で、「丘」が6例のため「丘」の龍を異体と見なす)。一資料で異体字が滅多に現れないものであるほど異体字率が低くなる[5]。注[2]所掲の記事で述べたように、HNG はもともとこの異体率を図示することに主眼があり、異体率の高低と文献の公私などの性格とに連関があることを示すのが画像中の配列である(背景に色が着いている右側の資料は異体率が顕著に高いもの)。そのようなねらいは HNG 単字検索では薄められ、文献の属性によって配列されるのみとなった。

HNG 単字検索での特徴は、注[1]所掲の記事で述べられたところであるが、かいつまんでみれば、(CHISE-IDS HNG 検索ですでに可能になっていたとはいえ)HNG のもととなった石塚漢字字体資料における紙カードや、写本情報へのアクセスが容易になったことであろう。それぞれ、用例数と画像のクリックでアクセスすることができる。紙カードは、これまで公開されておらず、用例をくわしく検討することができなかったわけであるが、一応それを見ることができるようになったわけである[6]。このほかにも、高田氏の作成した大字典に関するデータや、そのほかの CHISE 上の豊富な文字情報を活用することも容易になっている。

これらの特徴からも分かるとおり、HNG 単字検索は、HNG の UI を真似つつ、まったくべつのものとして作り上げられていることが分かる。 これは、「HNG がインフラ化している」という HNG データセット保存会の趣旨に沿ったところであり、また、HNG 自体の関係者ではない守岡氏や劉氏がシステム設計を担っていることからも自然なことである。 異体率も捨て去ったのはいささか思い切ったことにも思えるが(石塚漢字字体資料は各時代・地域の字体コーパスたることを目的とはしていないので、異体字を資料への登場数で数えられると困ってしまうのである)、その他の位置づけについてはおおむね首肯されることであり、データの普遍性を生かす試みとして重要なものと思われる。

[1] MORIOKA Tomohiko さんのツイート: “HNG 単字検索 https://t.co/UJHbO0r8sH を公開しました。停止前の漢字字体規範史データベースに似た UI をレスポンシブルデザインで実現しています。https://t.co/oAJnNytqBX の下の方にある検索窓からも利用できます。” https://twitter.com/CHISE_ja/status/1127028341310087168 11 May 2019, 10:51 AM (JST)
守岡知彦・劉冠偉・高田智和(2019)「漢字字体規範史データセット用従来型UI再生の試み」『研究報告人文科学とコンピュータ(CH)』2019-CH-120 (2) http://id.nii.ac.jp/1001/00195468/
[2] 岡田一祐(2018)「Digital Japanese Studies 寸見 第41回 :設立記念シンポジウムが催され HNG データセット保存会が発足」『人文情報学月報』85号。 なお、今回の件は [1] の発表者でもある幹事の守岡・高田両氏および劉氏のご尽力のたまものである。 筆者は一応発起人であるが、今回のことに係わってはいないことを念のために附言しておく。
[3] 守岡氏に HNG データセット保存会の経緯等について述べた以下の論考がある。
守岡知彦(2018)「データベースの再生と保存についての試論:HNG を例に」『じんもんこん2018論文集』http://id.nii.ac.jp/1001/00192401/
[4] 画像で「𪚕」とされている文字は、CHISE では龕に改められているなどのデータ上の差異がある(文脈が分からないが、字形上は CHISE の処置のほうが正しく見える)。現状、データ整理の問題だとは思うが、この字に CHISE-IDS HNG 検索から「龍」のみで辿りつくことはできない(http://www.chise.org/hng-ids-find?components=%E9%BE%8D、2019年5月現在)。
[5] 「異体率=異体の総字数/(文献の総字数-孤例の総字数)×100」とされる。
[6] 判定の根拠等が分かるようになったわけではない。なお、石塚漢字字体資料に由来する HNG のデータのうち、「院政大教」と呼ばれる資料(高山寺本大教王経(巻二)院政期写本)が公開対象から除外された。
Copyright(C) OKADA, Kazuhiro 2019– All Rights Reserved.

特別寄稿「Gregory Crane 氏インタビュー全訳(第4回・完)

小川潤東京大学大学院人文社会系研究科博士課程

最終回コメント

全4回にわたって掲載した「Gregory Crane 氏インタビュー全訳」も今回が最終回となる。 古典文献学の分野における世界最大のデジタルライブラリーである「ペルセウス」のプロジェクトリーダーである Gregory Crane 氏とお話しできたことは私にとって貴重な経験であったと同時に、快くインタビューに応じてくれた Crane 氏の快活な人柄が今も記憶に残っている。

お話の中では、「ペルセウス」の設立秘話や苦労話、現在までの発展過程、さらには今後の取り組みに至るまで真摯にお答えいただき、「ペルセウス」について詳しく知ることができた。 同時に、プロジェクトの枠に留まることなく、Crane 氏がテキストのデジタル化を進める上で大切にしている理念、さらには「テキストを読む」ことに対する根本的な認識に関してもお話いただいた。 これを通して、テキストのデジタル化がさらに進展するこれからの時代の「テキスト読解」、ひいては人文学の在り方を考える上で重要な示唆を得ることができたと思う。

質問者の勉強不足、さらには翻訳の拙さゆえに Crane 氏が語ってくれた貴重な内容を十分に伝えきれていない点については、ご容赦いただければ幸いである。 改めて、このような機会を設けてくださった東京大学大学院人文社会系研究科の下田正弘氏、人文情報学研究所の永崎研宣氏、翻訳にご協力いただいた Tokyo Digital History の諸兄、そしてなによりも、インタビューに快く応じてくださった Gregory Crane 氏に深い謝意を表したい。


問:次に、デジタル校訂版の利用と引用についてお聞きします。 日本においては現状、デジタル校訂版よりも Loeb や Bude、Teubner といった紙媒体で出版された校訂版のほうが信頼に足るとの認識が広く存在するように思われ、そのために研究者はペルセウスを始めとしたデジタル校訂版を参照したことを必ずしも明記しない場合があると思いますが…
答:利用者は、何であれ彼らが利用したサービスを明示するべきです。もしペルセウスを用いたのであれば、参考にしたサービスとして言及すべきです。もし利用者が私たちのテキストを利用し、それを Teubner などと比較したいというのであれば、それは何の問題もないことは言うまでもなく、私たちが促進すべきことでもあります。利用者は最新の版を確認するべきですし、クロスリファレンスは必要です。それゆえ、私たちのテキストを土台に、他の版と比較することは至極適当なことです。しかし利用者はその際、検討・研究過程のすべてを明らかにするべきであることは間違いありません。とはいえ、それが為されなかったからとおって、私たちがそれに抗議するというようなことはありません。
問:アメリカやドイツにおける状況はどうでしょうか?
答:私が思うに、状況は同じです。研究者たちがギリシア言語学を扱う書籍を執筆するためにギリシア語を読み、分析するとき、彼らの多くは私たちのテキストを使用します。時には少し変更したりもしますが、このような場合、一般的に研究者たちはペルセウスを参照したことを明示します。しかし一方で、変更を加えることなく、書籍執筆のため単にテキストを参照する場合、彼らは本来必要な引用を行わないことがあります。
問:やはり問題はあるということですね。今後、古代史・古典の分野においてもデジタル校訂版の参照を明記する慣習を形作っていく必要があると思います。さて、時間の関係もあり次が最後の質問になります。 ペルセウスのさらなる進化のために、今後どのようなことを行っていきたいと考えておられるのでしょうか?
答:昨日私は、私が非常に重要な試みであると考えているプロジェクトとサービスのそれぞれをご紹介しました。 その中でも特に重要な三つのプロジェクトである自動マッピングと言語的注釈、そして並列翻訳(align translation)について詳しく説明したと思います。 これらのすべては現に機能していますし、我々が構築することもできますが、それでも現状、これらは別の動作環境で稼働するシステムなのです。 それゆえ、テキストを読みながら同時に、「地図を表示」「ツリーバンクを表示」「並列翻訳を表示」といったツールを目にすることはできないのであり、これらのツールを単一のシステムのうちに包含しない限り、一つのまとまったシステムとして機能することはないのです。 これができるまでは、複数のシステムを行き来するという煩雑な作業が残り、真に「読んでいる」ことにはなりません。 これが、一つの技術的課題です。しかし私は、このような技術的課題の背後に横たわっているものは、「読むこと」に関する先入観と初期理論であると考えています。 私にとっての問題は、我々がどのように利用者のテキスト理解を助けることができるかという点にあり、この問題に対して私は、我々が「スマートエディション」(smart editions)と称するシステムを構築しようとしているのです。これは利用者が扱うテキストのコーパスモデルを内蔵しており、何が重要であるのかを把握し、提供するものです。例えば、あなたが演劇史を研究しているとして、能や歌舞伎との比較研究という視点から古代ギリシア劇に興味があるとします。 この場合あなたは、より一般的に思想史に興味がある場合とは異なる点に注目するに違いありません。我々はどのようにして、あなたが探索しているもの、学んでいるものに対して(システムを)最適化することができるでしょうか。 どのように、あなたが、翻訳を通して理解する以上の、真に興味を抱いたテキストに取り組むことを可能にするシステムを構築することができるでしょうか。 あなたはおそらく、翻訳されたテキストの奥に存在する一次資料に目を向けるようになり、「この言語を学んでみたい、この言語についてよく知りたい」と言うようになるでしょう。 私を例に取れば、私の好きな黒澤映画のいくつか、『虎の尾を踏む男達』や、日本の歴史をモチーフとする『影武者』を鑑賞すること自体は文化的にも容易なことです。 しかし、表面的な部分を越えて歴史的文脈や言語、そして字幕の裏に存在する言語的ニュアンスを理解することは私にとっては困難なことなのです。 私は、私自身や他の人々が、作品を理解するために非常に強力で、すべての語彙、形態素、そして作品に現れる慣習的な要素のすべてを網羅するようなシステム構築を進める状況を容易に見出すことができます。 もしそのようなシステムにアクセスできればの話ではありますが。それゆえ私は、私自身の状況を考えるのです。 すなわち、興味はあるけれども、それを知るための知識に欠けるという状況を。このような状況にある人こそ、私が支援したい人であると言えるのです。 つまり(ギリシア語やラテン語に堪能でなくとも)ホメロスやその他のギリシア悲劇、プラトンやホラティウスを読もうとする人々です。
問:なるほど。興味関心はあるけれども、文化的・言語的困難のゆえに中々一歩踏み出せずにいる人々にとって有益なシステムを、ということですね。
答:そうです。そして私は、これまでは存在しなかったシステムを構築したいと考えています。 そこでは誰もが興味から出発することができ、そして探求できる範囲に限界はないのです。もちろんそこでも、多大なエネルギーと決意、修練、終わりなき修練と、理解を深めるための長年にわたる努力が求められるでしょうが、あなたの捧げる時間と努力の不足以外に、あなたの探求を妨げるものはないのです。 これは、上で述べたような困難な障壁に妨げられるのとは対照的です。私が黒澤映画を理解しようとするとき、そこには真の限界がありました。 図書館に行き、映画史と映画学に関する本を読むことはできますが、言語はわからず、私が本当に触れたいと望むような深い文化的文脈に分け入ることもできないのです。 しかしこれは、私たちが変えることのできるものであり、私は専門である西洋古典の分野においてどのように変えることができるかを知っています。 それゆえに私は、こうした変革を前に進めるためのアイデアを持っているのです。 そして(SAT プロジェクトを知って)私は非常に感銘を受け、このような変革を SAT とも連携して進め、相補的なプロジェクトとして協同することに希望を抱きました。 それによって私たちは、どのようにドイツやアメリカの人々が、限界に縛られることなく仏典の探求に参入できるのか、そして同じく、どのようにラテン語やギリシア語の文献に日本や韓国、中国の人々が触れられるようにするのかを共に考えることができるのです。
質問者:アジアの人々が西洋古典に馴染みにくいのはもちろんですが、欧米の人々がアジアの文献に触れることはそれ以上に困難なのではないかと思います。 仰るように、協同を通してそのような困難が少しずつでも解消されていくのではないかと期待したくなりました。貴重なお話をありがとうございました。(完)
Copyright(C) OGAWA, Jun 2019– All Rights Reserved


人文情報学イベント関連カレンダー

【2019年6月】

【2019年7月】

【2019年8月】

Digital Humanities Events カレンダー共同編集人

小林雄一郎日本大学生産工学部
瀬戸寿一東京大学空間情報科学研究センター
佐藤 翔同志社大学免許資格課程センター
永崎研宣一般財団法人人文情報学研究所
亀田尭宙京都大学東南アジア地域研究研究所
堤 智昭東京電機大学情報環境学部
菊池信彦関西大学アジア・オープン・リサーチセンター

イベントレポート「「東洋学へのコンピュータ利用」第30回研究セミナー

王一凡一般財団法人人文情報学研究所准研究員

去る2019年3月8日(金)に、京都大学人文科学研究所が主催する恒例の「東洋学へのコンピュータ利用」第30回研究セミナーが開催された。 今回は当然ながら平成最後の開催となるが、安岡孝一教授は開会の挨拶で本セミナーが奇しくも平成とともに始まったことに触れ、この活動が一時代を通して継続し得たことを寿ぐとともに、来たる新たな時代に向けて意欲を示した。

また、これを記念する形で2019年夏に国立国語研究所において特別セミナーを開催する計画であるという(7月26日に開催予定となった)。

今回は午後からの開催で、計6名の講演者が発表を行った。

1. 安岡孝一「四書を学んだ MeCab + UDPipe はセンター試験の漢文を読めるのか」

共同研究プロジェクトである古典中国語依存文法解析の資源を利用し、既存のデータと手法を未知のセンター試験漢文(白文)5年分に適用させた実験の報告であった。 依存文法解析を行えるソフトウェアが限られる中、白文の特性として形態素解析が事前に必要となることから、MeCab と UDPipe をどのように組み合わせるのが最適かが検討された。 作成済の四書コーパスを学習させ、語区切りから文区切りまで全自動で解析したところ、最高で40~50点前後の正解率を得た。特に文区切りの成績の悪さが目立つため、文区切り位置を事前に与えた状態で試したところ、最高で60~70点前後に改善したが、興味深いことに2017年度の新井白石の文章は改善幅が小さく、正統的な漢文とは毛色が異なる可能性が示唆された。 次いで、返り点付与による品詞判別の改善も試したが、元々の精度が低くないことに加え手がかりが曖昧なせいか、さほど効果はなかった。最後に、最近登場した StanfordNLP を組み入れた追試も行ったが、アルゴリズムや機能面で本用途には未だ不足が残る結果となった。

会場からは時代ごとのテキストや注疏への応用の可能性について質問があった。UDPipe は学習データが大きくなればなるほど精度が増すのではないかという見込み、また注記は引用のため主語や目的語が抜けた文になりがちで解析が難しいということが述べられた。

2. 木村麻衣子「IFLA LRM の漢籍への適用」

国際図書館連盟によって2017年に発表された最新の書誌情報の概念モデルである IFLA LRM の構造を概観し、それを漢籍に適用した際に生じる問題点を、『古書通例』の記述を踏まえながら解説した。 写本による伝承の場合は書写により確実に異文が発生することや、刊本であっても版同士の関係が検証を経ずには確定しがたいことから、「著作」と「個別資料」の間の段階を実用的に扱うことが難しい。 「著作」の定義も古典は漸進的に成書したものであるため曖昧である。また現存するテキストは後人による補注や分合の歴史が長く中間形態の散逸も多いため派生や前後関係の確定が困難であり、そもそも注疏の概念をどう表現するかが明確でない。 さらに、LRM では集合体現形としてもともと複数の本を合冊したような形態を扱うことができるが、詩集の注釈では単独の体現形を持たない(単行した事実がない)詩と注の集合がさらに集合した複雑な構造を持つ例があると指摘した。

質疑では、現代書の枠組みでは直接これら古典籍を扱う必要はないが、古文献の関連書が出版されるためどうしても参照しなければならない時があると述べられた。 また、西洋においても古典籍を扱う図書館は LRM の採用を保留しているとのことで、古文献に通底する問題の根深さを感じさせた。

3. 白須裕之「漢字構造の代数的記述についての予備的考察」

『情報処理学会論文誌』に掲載された守岡(2018)[1]を下敷きに、その論旨に項書換系として妥当な形式的定義を与える提案と問題点の指摘を行った。 最初に議論に必要な等号系・簡約系・項書換系・完備化などの概念を定義したうえで、JIS の包摂基準をこれらの形式言語で記述した表現を示した。これを念頭において守岡(2018)の内容を検討すると、「抽象文字」の導入により体系が冗長になっている、適用除外という項書換系で扱えないものを混入しているなどの改善点を指摘した。 しかし、漢字構造記述への代数系の導入は、今回検討した範囲を越えて他の符号化文字集合や古文献内の文字を整理するための道具立てとして有用であるとし、複数の字書などに基づく異なる文字体系を統合して記述するために必要となることであるとして、それらを達成していくための諸課題について引き続き検討していきたいと述べた。

会場からは主に実務への応用を念頭において、項数の異なる関数や、特定の演算をこの枠組みで受け入れることができるかどうか、また議論の前提においた基準や記号が実際には定義上の曖昧さを含み、完備化できないのではないかという方面の質問が集中した。

4. 李媛・池田証壽「公開した古辞書テキストデータからみたUCS符号化提案―天治本新撰字鏡掲出字を例に―」

発表者のグループを含む国際的な古漢字資料データの共同作成プロジェクトの発足を紹介した後、保有している天治本新撰字鏡の本文データベースから掲出字の UCS 符号化を目指す際に参照すべき基準や資料、および新撰字鏡の構造と作成中のデータの一覧を発表した。UCS 符号化のための基準については、IRG の基準の概要と留意点を示し、発表者らのグループが独立した提案元として活動すべきではないかとの方針を語った。次いで天治本新撰字鏡の特徴と研究上の意義を紹介し、国字や未収録字の割合が高い文献であるとしたうえで、既存の電子テキストのデータ構造から提案用の文字情報を作成する方法、文字の識別や他本の参照によって既収録字と未収録字を判定する詳細について論じた。 現時点で掲出字のうち1,515字を調査しており、うち370字が符号化済で、1,145字が符号化候補であると結論づけ、その詳細な検討結果の一覧を付録として記載した。

質疑では、関係者による近年の UCS 符号化における新しい動向の補足や、実務上考慮すべき点、また写本に基づく漢字提案に付随する留意事項などのアドバイスが主に行われた。

5. 鈴木俊哉「テンプレートマッチを用いた岩崎本説文解字影印本の加筆部分推定―続古逸叢書と四部叢刊初印本―」

説文解字の校訂問題に関して、岩崎家旧蔵の説文解字とそれを影印したとされる続古逸叢書および四部叢刊初印本の間の差異を、画像の重ね合わせによって検証した報告であった。 まず20世紀初めに至る説文解字の古本特定にまつわる流れと岩崎本が定本とみなされる経緯を概観し、私蔵本であった岩崎本に代えてその影印である続古逸叢書や四部叢刊が研究者らに普及したこと、影印の際に大なり小なりの潤改が行われた疑いがあることからこれらの版の間の優劣に議論があることを述べた。 そこで両本を重ね合わせることで実際の差異を調査することにした。 この時、各底本画像の歪みのためページ画像を直接比較することが困難であったため、続古逸叢書の見出し字を手動で切り出した範囲を四部叢刊初印本と自動マッチさせる手法をとった。 それを確認した結果329字に修正が疑われる差異があり、かつ一方が明らかに崩れている例が多く、この「崩れ」は概して四部叢刊初印本に多いことが判明した。また、先行文献では報告されていない「𠧪」「色」2字の違いが発見された(なお、現在では広島大学のリポジトリにおいて岩崎本のマイクロフィルムを加えた三本の比較結果が掲載されている。http://ir.lib.hiroshima-u.ac.jp/00046886)。

6. 守岡知彦「漢字構造情報の IPLD 化の試み」

CHISE の漢字構造データを永続化する手段として、P2P 型のネットワークである IPFS 上で流通する IPLD 形式に変換して保存する手法と、その具体的なデータ形式や得られた知見について解説した。 IPFS を採用するメリットとしては、学術情報のために名前空間を維持する基盤の脆弱さを補えることや、ハッシュ値を用いるためデータの真正性を確保できることが挙げられた。 IPLD 化にあたっては、内容の不変性の高低によって分割することが適していると考え、漢字構造に関する情報を符号位置オブジェクト・包摂情報付き符号位置オブジェクト・符号化文字オブジェクトに分け、それぞれ Key-value の複合として表現し、それらを ID 参照で関係づける手法を取った。 この結果 IDS の照合が可能になり、既存の CHISE データで名前のなかった部品の名寄せに貢献した。 一方で、IPFS を介したリソース取得が遅いという問題が明らかになり、これは本来少数大容量のデータの流通を意図したプロトコル設計が原因とされた。 また、内容の更新によって変化する ID の同一性を保証する仕組みの必要性が認識された。

補足として、IPFS 特有の仕組みとしてダウンロードしたデータはすべてキャッシュとみなされるため、「pin」によって保持しない限り自動消滅するという注意点が述べられた。

[1] 守岡知彦「項書き換え系を用いた漢字字体の包摂規準の形式化の試み」『情報処理学会論文誌』59(2), pp. 332-340, 2018-02-15, http://id.nii.ac.jp/1001/00185743/.
Copyright(C) WANG, Yifan 2019– All Rights Reserved.

◆編集後記

いよいよ、新しいメールマガジンシステムに移行いたしました。 読者の皆様のご協力に深く感謝いたします。

今月号では、漢字のデジタル化に関する話題がいくつも出てきています。 普段広く使用されている漢字についてはパソコンでもほとんど問題なく使えるようになってきていますが、古い文献に出てくるような漢字では、まだまだ色々な課題を抱えています。 Web が登場してからもうすぐ30年という時間のなかで、それを解決するための基盤になり得る動きが、HNG データセット保存会や CHISE などといった形で徐々に姿を現しつつあります。 長い伝統を持つ東アジアの文化をデジタル媒体上で研究するための基盤は、我々のこれまでの来し方をいつでも顧みられるようにするためには欠かせないものです。 かつて東アジア文化の共通基盤であった漢字を改めてデジタル媒体に載せていくために何ができるのか、ということは、我々としても一つの大切な課題としていくことが必要ではないかと思っています。

(永崎研宣)



Tweet: