ISSN 2189-1621 / 2011年8月27日創刊
マンガは、その定義や起源にはいくつかの議論がある[1]ものの、記号表現による簡略化・抽象化と複数のコマやシーンを平面的に連続させることを駆使して物語を表現する、日本で独特の進化を果たした視覚表現文化として、国内外である程度共通の認知を得ていると言ってよいだろう。戦後の悪書追放運動に代表されるように、以前はマンガを低俗なものだとする社会通念も根強く存在したが、現在では日本を代表する文化の一つとして認知されるに至っている。
マンガはその固有の表現形態に留まらず、アニメ、映画、ゲーム、舞台などへの翻案を通じ、メディアを越えてその物語空間とユーザを広げている。更に、こうした多メディア展開により言語障壁を超えて様々な国で親しまれている。日本人と他の国の人々が同じ作品の話をできたりすることも日常に見られ、マンガは日本の文化を世界に届ける役割を果たしている。こうしてマンガが異なる文化の境界を超えて広がっていくことで、マンガ自体も複合的な文化圏を形成している。
こうして近年マンガはサブカルチャーから脱皮を果たした訳だが、それは戦後と共にマンガが既に緩やかに古い存在になり始めていることを意味している。2018年大学で筆者が担当した講義で「マンガは古いものと感じるか? 新しいものと感じるか?」というアンケートを行ったところ、実に半数以上の学生が「古い」と答えたことはちょっとした驚きだった(対して「新しい」と答えたのは2〜3人ほどだった)。マンガはオーソリティが積極的に関与する存在になっている。
我が国のマンガの保護・振興には文化芸術の保護と産業としての振興の二面に大別される。文化としてマンガを保護する議論は1990年代後半より始まり、2001年に文化芸術振興基本法(現、文化芸術基本法)[2]が制定され、それまで文化振興施策の中心だった伝統芸能に対し「メディア芸術」の振興が盛り込まれるに至る。
以来、同法を背景に、マンガは「メディア芸術」のひとつとして文化庁による文化振興施策が進められているが、昨今文化保護の観点から保存・アーカイブの話題の関心が高い。主要な施策として、我が国の優れたメディア芸術作品や散逸、劣化などの危険性が高いメディア芸術作品の保存と活用等を支援する「メディア芸術アーカイブ推進支援事業」[3]や我が国でこれまで創造されてきたメディア芸術作品の所蔵情報等の運用および利用促進を行う「メディア芸術所蔵情報等整備事業」[4]が挙げられる。更に、メディア芸術所蔵情報等整備事業の成果として、メディア芸術データベース[5]が公開されている。メディア芸術データベースはジャパンサーチ[6]におけるメディア芸術分野の主要な連携先、つなぎ役として調整が進められている[7]。
マンガに視点を戻すと、京都国際マンガミュージアム[8]は日本最大規模のマンガを対象とした図書館・博物館であり、事業主体である京都精華大学、同国際マンガ研究センターと協調してマンガ資料の保存と活用に関する様々な活動に取り組んでいる。また横手市増田まんが美術館[9]は「日本で最初のまんが美術館」を標榜し、マンガの執筆原画の収蔵・アーカイブや原画の展示活用に積極的に取り組んでいる。
マンガに限った話ではないが、資料の利活用の柔軟さを考えれば、ディジタルアーカイブの構築はアーカイブの運用において当然視野に入れるべきことだろう。しかし、マンガをディジタル環境で一般のユーザが期待するように「便利に」扱うことには困難が伴う。
マンガはビットマップの画像データで扱われることが一般的で、書籍のページや見開きに相当する単位でコンテンツデータが作成・提供される。日頃マンガの読者が当たり前のように読み取っている個別のコマやキャラクター、セリフといったマンガの構成要素にアクセスするには計算機がそれらを識別する必要がある。画像データからそうした構成要素を自動認識する技術の研究は既に進められており、日々性能も向上しているが、過去のコンテンツまで含めて多様な形態の表現に対応する汎用的な手法の確立が困難であることは容易に推察できる。
またマンガは複数の画像の組み合わせによって表現される。1コママンガや4コママンガもあるが、意味のあるまとまった物語を表現するには複数のページは不可欠であるし、より長い物語を作るためには書籍なら複数の巻次が費やされることは一般的だ。一方、ディジタル環境でマンガをコンテンツとして提供する単位は多岐に渡っており収束していない。バインディングのためのデータ標準の議論もある[10]が、実際のサービスで定着しているものはまだない。
加えて、マンガの出版産業における存在感の大きさゆえにコンテンツが著作権保護の厳密性や利害の調整が難しいことも利用の妨げとなりがちである。特にユーザの需要が大きいものほど市場的価値が高く、守られているものであることがほとんどである。
こうしたいくつかの要因により、一般的な文書や音声・動画メディアなどでサービス化されているコンテンツを利用する機能がマンガについては実現されていないのが現状である。
筆者はこうした課題解決のために、マンガをディジタル環境で便利に扱うためのメタデータの研究を進めている。 マンガの構成要素や提供単位に関する情報を画像データのメタデータとして抽象的な情報として提供することで、画像データの在り方とは独立にマンガの情報をディジタル環境で扱えるようにする試みである。
しかし、この試みには画像データとメタデータをどのように統合的・協調的に扱うかという点で課題があった。その中で、IIIF(International Image Interoperability Framework)の登場と普及はその解決法として非常に大きなインパクトがあった。 IIIF は任意の画像データの任意の領域について URI でのアクセスを提供し、またそれらをバインディングしてコンテンツとして提供する基盤であると言える。これをメタデータと組み合わせて活用することで、これまでに実現されていない様々な機能をマンガの閲覧環境で実現できると考え、IIIF を活用して、構成要素の検索機能を持ったマンガの閲覧環境[11]やマンガ画像を Web 上で部分引用する機能[12]を開発している。
マンガが戦後の日本文化の一翼を担ってきたことに疑いはない。戦後が遠くなるほど、マンガは過去の資産としての側面や役割も大きくなっている。こうしたマンガ資産をより多様な可能性をもって次世代に伝えていくことは社会的な課題と言える。この議論と実践に人文情報学が貢献できることには疑いがない。
他方、人文情報学にとってもマンガを扱っていくことは、その社会への適用の可能性を示すモデルケースにできるのではないかと期待している。歴史的な厚みも出てきているとはいえ、未だ産業としても存在感は大きく、その問題解決の意義は学術研究に留まらない。個人的な体験と見聞の域を出ないが、産業界からの期待も大きい。
先に述べた IIIF の応用の例のように、人文情報学の成果から現在も活発なコンテンツの流通のさらなる促進に関するブレイクスルーが生まれるとしたら、マンガにとっても人文情報学にとっても非常に意義深いのではないだろうか。 そうしたアイディアは、特に未来のマンガ(たとえそれが現在のマンガと全く異なる形態だったとしても)の創造に寄与するものであってほしい。ぜひ人文情報学に関わるより多くの人々にマンガに照準を定めて、助けてほしいと思っている。
2019年5月11日、漢字字体規範史データセット保存会(以下 HNG データセット保存会)は、HNG 単字検索を公開した[1]。HNG データセット保存会については、以前設立総会について報告したことがあり[2]、その活動の成果ということになろう[3]。
今回設けられた単字検索機能は、現在休止中の HNG における休止前の検索画面を再現しつつ、作り替えることを目的としたものだという。HNG の代替サービスとしては、CHISE-IDS HNG 検索がその役割を果たしてきたが、あくまで守岡知彦氏の運営する CHISE の拡張として存在しており、使用感などに異なる点があって、以前のものを求める声があったのに答えたという。HNG は何度か UI の変更を行っているが、HNG の休止以前の画面を筆者の過去のデータのなかに探してみるとつぎの画像があった。これは、いつの時点のものか正確には分からないが、HNG の最初期段階に近いものではなかろうか。内容としては、龍部の検索結果となっている。検索部分がなく最善の一枚ではないが、過去を思い出す分には十分であろう。
さて、善し悪しはさておき、両者のちがいについて明確にしてみよう。HNG 単字検索は、読んで字のごとく、単字単位で検索するものであり、それ以外は長らくHNGの代替サービスとして機能してきた CHISE-IDS HNG 検索が担うことになっている。それゆえに、この画像で検索されているものは単字検索では実現できないことになっているが、HNG の利用状況としてどのようなものが多かったかはもはや分からず、いたずらに複雑になることを避けたものか、たんに利用数の少ない機能を実装する意義を認めなかっただけか分からない。CHISE-IDS HNG 検索では、部首検索は実現されていないので、まったく同じ結果を得ることは現状難しい[4]。HNG は同時に多数の字体の検索を認めていたので、正規表現を用いることもできたが、それはやはり対象外である。大字典や諸橋大漢和の番号で検索できる機能も用意されていない。
HNG の重要な要素として、「異体率」というものがあった。これは、いわゆる正俗観念から生まれる異体字ではなく、ひとつの字について複数字体が用いられるばあい、用例の少ないほうを指す。画像では、上野本漢書楊雄伝において、「龍」字の「立」の部分が「立」か「丘」かで異体が見られる(ここでは「立」が8例で、「丘」が6例のため「丘」の龍を異体と見なす)。一資料で異体字が滅多に現れないものであるほど異体字率が低くなる[5]。注[2]所掲の記事で述べたように、HNG はもともとこの異体率を図示することに主眼があり、異体率の高低と文献の公私などの性格とに連関があることを示すのが画像中の配列である(背景に色が着いている右側の資料は異体率が顕著に高いもの)。そのようなねらいは HNG 単字検索では薄められ、文献の属性によって配列されるのみとなった。
HNG 単字検索での特徴は、注[1]所掲の記事で述べられたところであるが、かいつまんでみれば、(CHISE-IDS HNG 検索ですでに可能になっていたとはいえ)HNG のもととなった石塚漢字字体資料における紙カードや、写本情報へのアクセスが容易になったことであろう。それぞれ、用例数と画像のクリックでアクセスすることができる。紙カードは、これまで公開されておらず、用例をくわしく検討することができなかったわけであるが、一応それを見ることができるようになったわけである[6]。このほかにも、高田氏の作成した大字典に関するデータや、そのほかの CHISE 上の豊富な文字情報を活用することも容易になっている。
これらの特徴からも分かるとおり、HNG 単字検索は、HNG の UI を真似つつ、まったくべつのものとして作り上げられていることが分かる。 これは、「HNG がインフラ化している」という HNG データセット保存会の趣旨に沿ったところであり、また、HNG 自体の関係者ではない守岡氏や劉氏がシステム設計を担っていることからも自然なことである。 異体率も捨て去ったのはいささか思い切ったことにも思えるが(石塚漢字字体資料は各時代・地域の字体コーパスたることを目的とはしていないので、異体字を資料への登場数で数えられると困ってしまうのである)、その他の位置づけについてはおおむね首肯されることであり、データの普遍性を生かす試みとして重要なものと思われる。
全4回にわたって掲載した「Gregory Crane 氏インタビュー全訳」も今回が最終回となる。 古典文献学の分野における世界最大のデジタルライブラリーである「ペルセウス」のプロジェクトリーダーである Gregory Crane 氏とお話しできたことは私にとって貴重な経験であったと同時に、快くインタビューに応じてくれた Crane 氏の快活な人柄が今も記憶に残っている。
お話の中では、「ペルセウス」の設立秘話や苦労話、現在までの発展過程、さらには今後の取り組みに至るまで真摯にお答えいただき、「ペルセウス」について詳しく知ることができた。 同時に、プロジェクトの枠に留まることなく、Crane 氏がテキストのデジタル化を進める上で大切にしている理念、さらには「テキストを読む」ことに対する根本的な認識に関してもお話いただいた。 これを通して、テキストのデジタル化がさらに進展するこれからの時代の「テキスト読解」、ひいては人文学の在り方を考える上で重要な示唆を得ることができたと思う。
質問者の勉強不足、さらには翻訳の拙さゆえに Crane 氏が語ってくれた貴重な内容を十分に伝えきれていない点については、ご容赦いただければ幸いである。 改めて、このような機会を設けてくださった東京大学大学院人文社会系研究科の下田正弘氏、人文情報学研究所の永崎研宣氏、翻訳にご協力いただいた Tokyo Digital History の諸兄、そしてなによりも、インタビューに快く応じてくださった Gregory Crane 氏に深い謝意を表したい。
http://kanji.zinbun.kyoto-u.ac.jp/seminars/oricom/2019-7.html
去る2019年3月8日(金)に、京都大学人文科学研究所が主催する恒例の「東洋学へのコンピュータ利用」第30回研究セミナーが開催された。 今回は当然ながら平成最後の開催となるが、安岡孝一教授は開会の挨拶で本セミナーが奇しくも平成とともに始まったことに触れ、この活動が一時代を通して継続し得たことを寿ぐとともに、来たる新たな時代に向けて意欲を示した。
また、これを記念する形で2019年夏に国立国語研究所において特別セミナーを開催する計画であるという(7月26日に開催予定となった)。
今回は午後からの開催で、計6名の講演者が発表を行った。
共同研究プロジェクトである古典中国語依存文法解析の資源を利用し、既存のデータと手法を未知のセンター試験漢文(白文)5年分に適用させた実験の報告であった。 依存文法解析を行えるソフトウェアが限られる中、白文の特性として形態素解析が事前に必要となることから、MeCab と UDPipe をどのように組み合わせるのが最適かが検討された。 作成済の四書コーパスを学習させ、語区切りから文区切りまで全自動で解析したところ、最高で40~50点前後の正解率を得た。特に文区切りの成績の悪さが目立つため、文区切り位置を事前に与えた状態で試したところ、最高で60~70点前後に改善したが、興味深いことに2017年度の新井白石の文章は改善幅が小さく、正統的な漢文とは毛色が異なる可能性が示唆された。 次いで、返り点付与による品詞判別の改善も試したが、元々の精度が低くないことに加え手がかりが曖昧なせいか、さほど効果はなかった。最後に、最近登場した StanfordNLP を組み入れた追試も行ったが、アルゴリズムや機能面で本用途には未だ不足が残る結果となった。
会場からは時代ごとのテキストや注疏への応用の可能性について質問があった。UDPipe は学習データが大きくなればなるほど精度が増すのではないかという見込み、また注記は引用のため主語や目的語が抜けた文になりがちで解析が難しいということが述べられた。
国際図書館連盟によって2017年に発表された最新の書誌情報の概念モデルである IFLA LRM の構造を概観し、それを漢籍に適用した際に生じる問題点を、『古書通例』の記述を踏まえながら解説した。 写本による伝承の場合は書写により確実に異文が発生することや、刊本であっても版同士の関係が検証を経ずには確定しがたいことから、「著作」と「個別資料」の間の段階を実用的に扱うことが難しい。 「著作」の定義も古典は漸進的に成書したものであるため曖昧である。また現存するテキストは後人による補注や分合の歴史が長く中間形態の散逸も多いため派生や前後関係の確定が困難であり、そもそも注疏の概念をどう表現するかが明確でない。 さらに、LRM では集合体現形としてもともと複数の本を合冊したような形態を扱うことができるが、詩集の注釈では単独の体現形を持たない(単行した事実がない)詩と注の集合がさらに集合した複雑な構造を持つ例があると指摘した。
質疑では、現代書の枠組みでは直接これら古典籍を扱う必要はないが、古文献の関連書が出版されるためどうしても参照しなければならない時があると述べられた。 また、西洋においても古典籍を扱う図書館は LRM の採用を保留しているとのことで、古文献に通底する問題の根深さを感じさせた。
『情報処理学会論文誌』に掲載された守岡(2018)[1]を下敷きに、その論旨に項書換系として妥当な形式的定義を与える提案と問題点の指摘を行った。 最初に議論に必要な等号系・簡約系・項書換系・完備化などの概念を定義したうえで、JIS の包摂基準をこれらの形式言語で記述した表現を示した。これを念頭において守岡(2018)の内容を検討すると、「抽象文字」の導入により体系が冗長になっている、適用除外という項書換系で扱えないものを混入しているなどの改善点を指摘した。 しかし、漢字構造記述への代数系の導入は、今回検討した範囲を越えて他の符号化文字集合や古文献内の文字を整理するための道具立てとして有用であるとし、複数の字書などに基づく異なる文字体系を統合して記述するために必要となることであるとして、それらを達成していくための諸課題について引き続き検討していきたいと述べた。
会場からは主に実務への応用を念頭において、項数の異なる関数や、特定の演算をこの枠組みで受け入れることができるかどうか、また議論の前提においた基準や記号が実際には定義上の曖昧さを含み、完備化できないのではないかという方面の質問が集中した。
発表者のグループを含む国際的な古漢字資料データの共同作成プロジェクトの発足を紹介した後、保有している天治本新撰字鏡の本文データベースから掲出字の UCS 符号化を目指す際に参照すべき基準や資料、および新撰字鏡の構造と作成中のデータの一覧を発表した。UCS 符号化のための基準については、IRG の基準の概要と留意点を示し、発表者らのグループが独立した提案元として活動すべきではないかとの方針を語った。次いで天治本新撰字鏡の特徴と研究上の意義を紹介し、国字や未収録字の割合が高い文献であるとしたうえで、既存の電子テキストのデータ構造から提案用の文字情報を作成する方法、文字の識別や他本の参照によって既収録字と未収録字を判定する詳細について論じた。 現時点で掲出字のうち1,515字を調査しており、うち370字が符号化済で、1,145字が符号化候補であると結論づけ、その詳細な検討結果の一覧を付録として記載した。
質疑では、関係者による近年の UCS 符号化における新しい動向の補足や、実務上考慮すべき点、また写本に基づく漢字提案に付随する留意事項などのアドバイスが主に行われた。
説文解字の校訂問題に関して、岩崎家旧蔵の説文解字とそれを影印したとされる続古逸叢書および四部叢刊初印本の間の差異を、画像の重ね合わせによって検証した報告であった。 まず20世紀初めに至る説文解字の古本特定にまつわる流れと岩崎本が定本とみなされる経緯を概観し、私蔵本であった岩崎本に代えてその影印である続古逸叢書や四部叢刊が研究者らに普及したこと、影印の際に大なり小なりの潤改が行われた疑いがあることからこれらの版の間の優劣に議論があることを述べた。 そこで両本を重ね合わせることで実際の差異を調査することにした。 この時、各底本画像の歪みのためページ画像を直接比較することが困難であったため、続古逸叢書の見出し字を手動で切り出した範囲を四部叢刊初印本と自動マッチさせる手法をとった。 それを確認した結果329字に修正が疑われる差異があり、かつ一方が明らかに崩れている例が多く、この「崩れ」は概して四部叢刊初印本に多いことが判明した。また、先行文献では報告されていない「𠧪」「色」2字の違いが発見された(なお、現在では広島大学のリポジトリにおいて岩崎本のマイクロフィルムを加えた三本の比較結果が掲載されている。http://ir.lib.hiroshima-u.ac.jp/00046886)。
CHISE の漢字構造データを永続化する手段として、P2P 型のネットワークである IPFS 上で流通する IPLD 形式に変換して保存する手法と、その具体的なデータ形式や得られた知見について解説した。 IPFS を採用するメリットとしては、学術情報のために名前空間を維持する基盤の脆弱さを補えることや、ハッシュ値を用いるためデータの真正性を確保できることが挙げられた。 IPLD 化にあたっては、内容の不変性の高低によって分割することが適していると考え、漢字構造に関する情報を符号位置オブジェクト・包摂情報付き符号位置オブジェクト・符号化文字オブジェクトに分け、それぞれ Key-value の複合として表現し、それらを ID 参照で関係づける手法を取った。 この結果 IDS の照合が可能になり、既存の CHISE データで名前のなかった部品の名寄せに貢献した。 一方で、IPFS を介したリソース取得が遅いという問題が明らかになり、これは本来少数大容量のデータの流通を意図したプロトコル設計が原因とされた。 また、内容の更新によって変化する ID の同一性を保証する仕組みの必要性が認識された。
補足として、IPFS 特有の仕組みとしてダウンロードしたデータはすべてキャッシュとみなされるため、「pin」によって保持しない限り自動消滅するという注意点が述べられた。
いよいよ、新しいメールマガジンシステムに移行いたしました。 読者の皆様のご協力に深く感謝いたします。
今月号では、漢字のデジタル化に関する話題がいくつも出てきています。 普段広く使用されている漢字についてはパソコンでもほとんど問題なく使えるようになってきていますが、古い文献に出てくるような漢字では、まだまだ色々な課題を抱えています。 Web が登場してからもうすぐ30年という時間のなかで、それを解決するための基盤になり得る動きが、HNG データセット保存会や CHISE などといった形で徐々に姿を現しつつあります。 長い伝統を持つ東アジアの文化をデジタル媒体上で研究するための基盤は、我々のこれまでの来し方をいつでも顧みられるようにするためには欠かせないものです。 かつて東アジア文化の共通基盤であった漢字を改めてデジタル媒体に載せていくために何ができるのか、ということは、我々としても一つの大切な課題としていくことが必要ではないかと思っています。
(永崎研宣)