ISSN 2189-1621

 

現在地

DHM 065 【後編】

2011-08-27創刊                       ISSN 2189-1621

人文情報学月報
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄Digital Humanities Monthly

             2016-12-29発行 No.065 第65号【後編】 648部発行

_____________________________________
 ◇ 目次 ◇
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

【前編】
◇《巻頭言》「デジタル技術と文化財の複製」
 (高岸輝:東京大学大学院人文社会系研究科准教授)

◇《連載》「Digital Japanese Studies寸見」第21回
「国文研歴史的典籍オープンデータアイデアソンに参加して」
 (岡田一祐:東京外国語大学アジア・アフリカ言語文化研究所)

【後編】

◇人文情報学イベントカレンダー

◇イベントレポート(1)「アイデアソン」参加報告
 (佐藤正尚:東京大学大学院修士課程総合文化研究科、
  永崎研宣:人文情報学研究所)

◇イベントレポート(2)「じんもんこん2016」
 (小風尚樹:東京大学大学院人文社会系研究科博士課程1年)

◇イベントレポート(3)「Donald Sturgeon博士の ctext.org 関連講演レポート」
 (王一凡:東京大学人文社会系研究科修士課程)

◇編集後記

◇奥付

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
【人文情報学/Digital Humanitiesに関する様々な話題をお届けします。】
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

◇人文情報学イベントカレンダー(□:新規掲載イベント)

【2017年1月】

□2017-01-18(Wed):
九州大学統合新領域学府ライブラリーサイエンス専攻シンポジウム
「オープンデータとデジタルヒューマニティーズ」
(於・福岡県/九州大学附属中央図書館)
https://www.lib.kyushu-u.ac.jp/ja/event/symposium_20170118

□2017-01-21(Sat):
第6回 知識・芸術・文化情報学研究会
(於・大阪府/立命館大学 大阪梅田キャンパス)
http://www.jsik.jp/?kansai20170121cfp

□2017-01-23(Mon):
人文学オープンデータ共同利用センター 第1回CODHセミナー
Big Data and Digital Humanities
(於・大阪府/立命館大学 大阪梅田キャンパス)
http://codh.rois.ac.jp/seminar/big-data-digital-humanities-20170123/

【2017年2月】

■2017-02-04(Sat):
第113回人文科学とコンピュータ研究会発表会
(於・愛知県/愛知工業大学 本山キャンパス)
http://www.jinmoncom.jp/

■2017-02-18(Sat):
第22回公開シンポジウム「人文科学とデータベース」
(於・奈良県/奈良女子大学)
http://www.jinbun-db.com/news/4

【2017年3月】

■2017-03-10(Fri):
「東洋学へのコンピュータ利用」研究セミナー
(於・東京都/京都大学 人文科学研究所本館)
http://www.kanji.zinbun.kyoto-u.ac.jp/seminars/oricom/

Digital Humanities Events カレンダー共同編集人
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
小林雄一郎(東洋大学社会学部)
瀬戸寿一(東京大学空間情報科学研究センター)
佐藤 翔(同志社大学教育文化学科 助教)
永崎研宣(一般財団法人人文情報学研究所)

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
◇イベントレポート(1)「アイデアソン」参加報告
 (佐藤正尚:東京大学大学院修士課程総合文化研究科、
  永崎研宣:人文情報学研究所)

 2016年12月9日、国文学研究資料館において「歴史的典籍オープンデータワークシ
ョップ~使いたおそう!古典籍データ~」が開催された。日程的には、この週末に
開催される「じんもんこん2016」シンポジウムのプレイベントという位置づけにな
るこのイベントは、前年にも京都での「じんもんこん2015」のプレイベントとして
開催されたものの東京版(かつ本拠地開催)という形になっていた。

 第1部では、今回のアイデアソンの素材となるオープンデータについての説明が行
われた。今回350点の古典籍が追加され、合計700点となった上に名前も「国文研デ
ータセット」から「日本古典籍データセット」へと変更され、さらに、人文学オー
プンデータ共同利用センター準備室(CODH)のWebサイトからIIIF対応で画像公開さ
れるのみならず、日本古典籍字形データセットや江戸料理レシピデータセットも公
開されるなど、この1年間の発展ぶりが如実に現れたものであったと言っていいだろ
う。さらに、オープンデータの活用例として、画像に付与されたタグを活用したシ
ステムの紹介や、上記のCODHでの公開状況の紹介などが行われた。

 第2部は「歴史的典籍アイデアソン」が行われた。これは「古典籍データで何がで
きるか?」、「どういう新しい活用方法があるか?」という課題設定でアイデアを
出し合うという企画だ。前回のアイデアソンの成果は、「江戸料理レシピデータセ
ット」として結実し、クックパッドで公開されており、評判になっている公式プレ
スは以下のリンクを参照のこと( https://www.nijl.ac.jp/pages/cijproject/images/20161124_news.pdf
)。2016年度のアイデアソンも同じテーマで、筆者(佐藤)は初めて参加すること
となった。

 アイデアソンは、まず知らない人どうしで4、6名のグループをいくつか作るとこ
ろから始まった。各グループが着席している机上には、ポストイット、スケッチブ
ック、各種マジックペンなどアイデアを形にして共有するための道具が置いてあっ
た。グループ分けが終わると、65分間という制限時間や、グループの中の誰か一人
が国立国会図書館デジタルコレクションにアクセスできる状態があるかなどの確認
が行われた。それらの準備が終わると、アイデアソンが始まった。

 筆者のグループには、国語研の職員やIT企業勤めの社会人、日本史学の専門家が
集まった。アイデアソンの目標は、国立国会図書館デジタルコレクションの利用を
より活発に行なってもらうにはどうすればいいかなので、実現性よりも、突飛で自
由な発想が飛び交った。話が進み、国立国会図書館デジタルコレクションから当時
使われていた江戸時代の農具に詳しい古典籍が取り上げられて、この中で紹介され
ている農具の模型を作ることで江戸時代の文化の一側面を切り取ろうというアイデ
アが出て、ジオラマを作成するということになった。議論が終わる頃には1時間が経
っていた。

 発表の時間に移ると、各グループには2分間の発表時間が与えられた。個性的な発
表が多かった。以下に簡単に内容を紹介していく。

 あるグループは古典籍に登場する音に注目して、視覚障害者のための学習教材の
作成や、リアルな音を再現することで時代劇ドラマの臨場感をさらに高めていこう
という提案をした。

 同じような再現性を志向するものとして、源氏物語の世界の追体験ができる観光
アプリケーションの構想を発表するグループがあった。地図上に設定された各ポイ
ントにたどり着くと光源氏のセリフを聞くことができるといった内容が紹介された。

 このアプリはユーザの移動を前提としていた。それに対して、他のグループが提
案していたのは「地元と中央をつなぐ古典籍」というアイデアだった。つまり、古
典籍が持っているモノと人の移動の情報に注目するものであった。例として、自分
の地元の出身者がかつて江戸でどのような職についていたのかを知ることができる
古典籍の情報を簡単に読めるようにするサービスの提供といったアイデアが挙げら
れた。

 他のグループでは、ただ情報を閲覧するのではなくて目と耳で古典籍を楽しめる
ようにしようという案が出された。古典籍の朗読音源を公開して、くずし字の文章
を、音読を聞きながら読むことができるにしようといった意見が出された。

 こうしたメディアミックス志向の発表は他にもいくつかあった。あるグループか
らは、古典籍の図像からSNSで用いられるスタンプを作れるように、画像やくずし字
セットを利用できるようにしようというアイデアが発表された。また、判じ絵でフ
ォントを作れるようにしたり、古典籍の連綿をマスキングテープに印字して発売で
きるようにしたり、既存のアプリゲームのルールを参照して楽しく字母を学ぶこと
ができるようなアプリを作成する案が出された。

 以上のようにアイデアソンでは非常に活発な意見交換がなされ、興味深い発表が
なされた。筆者は古典籍にも明るくなく、今回が初めての参加であったものの、ア
イデアソンでは気軽に議論に参加でき、有意義な時間を過ごすことができた。次回
から時間のある読者の方には、ぜひ参加をお勧めしたい。

 今回のアイデアのうちのどれか一つでも実現すれば、日本古典籍データセットの
認知も少しずつ高まり、さらにはアーカイブスの電子化と公開の意義なども理解さ
れるかもしれない。今後とも、こうした活動が日本で広がっていくことが期待され
る。

Copyright(C) Sato, Masanao & NAGASAKI, Kiyonori 2016- All Rights Reserved.
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
◇イベントレポート(2)「じんもんこん2016」
 (小風尚樹:東京大学大学院人文社会系研究科博士課程1年)

(0)はじめに

 2016年12月9日~11日の3日間にわたり、国文学研究資料館(以下、国文研)およ
び国立国語研究所(以下、国語研)を会場に、人文科学とコンピュータシンポジウ
ム「じんもんこん2016」が開催された。参加者は3日間で推定150人、国文研と国語
研による共催イベントは初めての試みということであった。

 大会プログラムや個別の発表内容などについては、公式URLをご参照いただくとし
て[1]、本稿では、筆者が触れることのできた発表に言及しつつ(※発表者名「発
表タイトル」の形で表記する)、以下に挙げるトピックごとに論点を整理していき
たい。なお、初日に開催された国立歴史民俗博物館・じんもんこん共催企画セッシ
ョン「歴史情報データがどのように研究・教育で活用されるのか」(以下、歴博ワ
ークショップ)における発表内容も盛り込んでいくこととする。

・人文知のアルゴリズム化
・データ作成のコスト管理
・学際的な知的成果の発展段階

(1)人文知のアルゴリズム化

 本項では、特に人文学の知識に支えられるような暗黙知、すなわち必ずしも定量
的に表現しきれない分析対象の構造を明らかにしようとする試みについて考察して
いきたい。ここで言及する3つの分析対象は、テキスト読解、くずし字認識、動作の
再現である。

 我々人間は、いかにしてテキストを読んでいるのだろうか。じんもんこん2016で
は、最優秀ポスター賞として、村井源「主体語彙辞書を用いた物語テキスト中の主
体推定システムに向けて」が選ばれた。これは、物語中で意志をもって行動する主
体を特定することを目的とした自然言語処理研究である。村井氏がかねてより主張
してきたように、人間はテキストを読むにあたって、文法や単語といった語学の知
識だけでなく、社会的な人間関係や文化的背景といった情報を総合的に駆使してい
る[2]。そのため、コンピュータが自動的に物語を理解し、あるいは物語を生成す
ることを目指すのであれば、人間がいかにテキストを読んでいるのか、というプロ
セスを計量的に明らかにすることが必要であるという。つまり、我々がテキストを
読む際、どのような知識を、どのように総合しているのかということについて明ら
かにするために、計測可能な指標を設定しなくてはならない[3]、ということであ
る。

 村井氏の発表は、テキスト読解という行為のアルゴリズム解析として位置づけら
れるが、こうした自然言語処理研究を行うためには、分析対象となるテキストをデ
ータ化する必要がある。国文研による「日本語の歴史的典籍の国際共同研究ネット
ワーク構築計画」のように、前近代の日本語史資料を扱う際には、まずくずし字を
翻刻しなくてはならない。ただ近年、古典籍の画像データが公開されるにつれて、
くずし字の画像を切り出してコンピュータに認識・翻刻させる動きが盛んになって
きているのは周知の事実であろう[4]。じんもんこん2016でも、くずし字を扱った
研究発表は多く、注目度の高まりを感じさせるものであった[5]。

 これらのくずし字関連の発表に対し、共通して発せられた質問の中に、「くずし
字をコンピュータに認識させる時、何文字分の画像を切り出すべきか」というもの
があった。これまで、基本的に文字認識における画像切り出しは、1文字を単位とす
るのが一般的であったように思われるが、我々人間がくずし字や手書き文書を翻刻
する場合には、一連の文字をかたまりで把握して理解することも多い。変体仮名に
ついても、どのような文字とつながるかによって、異なる字母の仮名を用いること
があるように、くずし字を1文字だけで認識させることには限界もあるだろう。その
際、文字をかたまりで認識するためにNグラム解析を行うとしても、何文字分の情報
を取得するかという問題が残るが、例えば国文学研究者の読解方法を参考にしなが
ら、文字認識のアルゴリズム化が進むことが望まれる。

 これまで述べてきたようなテキストや文字といった媒体以外にも、我々人間は、
身体的活動を介してコミュニケーションをとってきた[6]。それは現代的なスポー
ツだけでなく、歴史的にも儀礼や祭事といったあらゆる場面で見られ、記述史料に
そうした動作の詳細が残されている。

 12月9日に開催された歴博ワークショップのうち、岡田義広「ICT活用による歴史
学教材開発」では、平安時代の宮中儀礼である官奏と除目を3Dアニメーションで再
現する対話型電子教材開発の試みが紹介された。古文書に残る動作の手順や建物の
構造といった情報を精査し、儀礼に登場する人物の振る舞いを再現するプロジェク
トであったが、興味深いのは、古文書の記述と記述の「間」をどのようにつなげる
か、という問題であった。

 アニメーションで宮中儀式をなめらかに再現する際に考慮しなければならなかっ
たのは、人間の身体的構造や当時の慣習からして自然な動作の流れ、儀礼に用いら
れる道具の物質的形状などであったようだ。3Dグラフィックスでこれらを再現する
にあたって、九州大学人文科学研究院の坂上康俊教授は、天皇に献上する巻物の向
きや腕の動かし方など、歴史学者の観点からして明らかであるとの判断に基づいて
監修に携わったという。

 ただし、こうした人文学の知識に支えられるような暗黙知こそ、明示的に表現さ
れないことには、コンピュータによる動作の復元はかなわない。人間の動作をデジ
タルデバイス上で再現しようとすることによって、紙面上の記録をつなぐために、
知識を総動員する必要性が生じたのである。このように岡田氏の発表は、技術的環
境が刻一刻と整備されていく現代において、人文学の研究成果をデジタルデバイス
上で発信する際に考察しなければならない問題を提示した[7]。

 以上、本項では、3つの分析対象における人文知のアルゴリズム化の試みについて
考察してきたが、その最終的な目標としては、必ずしも人間の思考・作業プロセス
を完全に再現することではなく、コンピュータの技術で実現可能なタスクに翻訳す
ることであろう[8]。ただしその際、本項で言及した発表のように、人文知の構造
解明のための定量的な指標を定義しようとする試みは、アルゴリズム化のヒントに
なると思われる。

(2)データ作成のコスト管理

 本項では、様々な形態の文化資源を管理する際のメタデータ作成について、学術
的な理想と運用コストとの間のジレンマを取り上げる。ここで取り上げる3つの文化
資源の体系は、テキストデータ、学術資源リポジトリ掲載データ、博物館資料であ
る。

 テキストデータについては、人文学史資料のマークアップに関する国際的デファ
クト標準TEI(the Text Encoding Initiative)などに見られるように、コンピュー
タ可読形式の規格に則って記述することが一般的である。しかし、そのマークアッ
プについては、研究分野ごとに重視したい情報が異なるため、タグが競合する場合
がある。例えば、漢文書き下し資料に記された訓点の流派やその解釈に関する情報
を重視する国語学研究者と、本文の漢文に現れる人物や場所に関する情報に重きを
置く歴史学研究者が共同プロジェクトを企画した場合などにそうした問題が表出す
る。これに対しTEIでは、解釈などに関する情報と本文に関する情報を分けて記述す
るスタンドオフマークアップを用いることがあるが[9]、田島孝治ほか「訓点資料
の加点情報に対する階層的データ化の試み:春秋経伝集解を事例として」では、本
文と加点情報を別々のデータフォーマットで作成し、重層的に管理する手法を採用
した。

 いずれにしろ、テキストデータの註釈を充実させながらマークアップを行うとい
うことは、学術資源としての有用性が向上するのと反比例して、データ作成にコス
トがかかる。その意味で、自動タグ付けの方法論の検討や、ソフトウェアがサポー
トしやすいデータフォーマットに依拠したデータ出力を基礎に置くことも念頭に置
く必要があるだろう。もちろん、データ出力のためのモデル設計の議論が重要であ
ることは言うまでもない[10]。

 発表順序は前後するが、歴博ワークショップのうち、高田良宏「研究資源の蓄積
と利活用を目指した学術資源リポジトリについて:ヴァーチャル・ミュージアムか
らサブジェクトリポジトリ、そして今後」では、金沢大学における学術リポジトリ
(以下、KURA: Kanazawa University Repository for Academic resources)の運用
について紹介があった。ほとんどの大学の学術リポジトリは、研究資源全般の保存
と公開を旨としているにも関わらず、掲載データのほとんどが論文であるという。
一方でKURAは、オープンサイエンスの潮流の中で、論文だけでなく、研究資源とな
りうる様々なデータ(※調査活動で撮影した写真、フィールドノート、ディスカッ
ションペーパーなど、研究成果として学術雑誌などに掲載されないにせよ、研究活
動にとって有用なリソースのこと)もリポジトリに掲載しているとのことであった。
図書館や文書館、博物館に所蔵される文化資源のメタデータ管理については、国際
標準のダブリンコアを基礎とすることが多いと思われるが[11]、KURAのように異
なる体系の学術資源を一括で管理する場合には、ダブリンコアの拡張データセット
を基礎とし、さらに独自のデータ項目の定義を行っているようだ。

 このメタデータ作成にかかるコストについては、博物館資料の統合的な管理を目
指す歴博の「総合資料学の創成」プロジェクトにおいても共通の懸案事項である。
じんもんこん2016での後藤真「総合資料学のための資料情報共有手法の構築にむけ
て」をはじめ、かねてから発信されてきたように、総合資料学は、多様な「モノ」
資料を時代・地域・分野などによって分類し、人文学・自然科学・情報学による融
合型プロジェクトとして学際的な分析を行い、新たな日本史像の構築を目指す学問
である[12]。ただし、タグ情報の競合に関する問題点で前述した通り、異なる研
究分野にまたがる共同プロジェクトでは、同じ資料を用いていたとしても、重視す
る情報が異なるため、多元的なデータ管理が必要とされる。

 学際的な視野から研究資源にアプローチするとき、詳細なメタデータの作成が理
想とされることは言うまでもないが、実際の運用コストとの兼ね合いで、データ構
築の深度をいかに調整するかが、学際的共同研究における現実的な課題であろう。

(3)学際的な知的成果の発展段階

 本論の最後では、じんもんこん2016のクロージング後に開催されたアンカファレ
ンス(※自由形式のグループディスカッション)で議論された問題を紹介すること
から始め、改めてシンポジウムにおける発表内容に言及することとしたい。

 今回のアンカンファレンスは、2つのグループに分かれて議論した後、最終的に相
互に成果を発表し合う形になった。一つは、「人文科学とコンピュータ」という関
係性のあり方を問い直すグループ、もう一つは、「人文学と情報学の連携をいかに
促進させるか」という点について考察するグループに分かれたが、ほぼ同様の内容
を議論し、類似した問題意識が共有されていたことが明らかになり、興味深い結果
となった。

 筆者が参加した後者のグループでは、人文学と情報学は基本的には連携しやすい
はずであるのに、両者の融合が見られる研究成果がなかなか広がりを見せていない
という問題点に対して、学術雑誌に掲載されるようなレベルでなくとも、双方の研
究者が日常的なレベルの交流を行い、学際的な研究成果の萌芽を育てることが重要
ではないかと考えた。つまり、人文学と情報学の連携および成果発信のハードルを
高く設定しすぎない、ゆるやかな交流の機会を設けることによって、本格的な融合
型の研究が生み出される土壌を整える必要性に言及したのである。

 その意味では、少なくとも人文科学とコンピュータ研究会の活動を振り返ってみ
ると、じんもんこんシンポジウムで開催される古典籍データセット活用のアイデア
ソンや、定期的に開催されるCH研究会における査読なしの研究発表といった機会は、
学際的な知的成果の発見と涵養を目的としていると考えられる。さらに、じんもん
こん2016では、企業展示セッションの枠内で人文情報学研究所の永崎研宣氏の企画
した「デジタル文化資料エンジニアの会」が、人文学に関するデータの利活用に日
々取り組んでいるエンジニアの交流の場を設け、「研究発表のレベルには至らない
ものの、共有する価値のあると思われる成果を提供する」ことを主旨としていた。
技術レベルも集客力も高く、こうしたゆるやかな交流の機会が今後も増えていくこ
とが望まれる。

 学際的研究成果の涵養という観点で最後に言及したいのは、昨年のじんもんこん
での古典籍データセット活用アイデアソンで生まれたアイデアを形にした試みであ
る。北本朝展・山本和明「人文学データのオープン化を開拓する超学際的データプ
ラットフォームの構築」で紹介されたのは、江戸時代の料理本をくずし字翻刻し、
レシピや料理手順を現代のものに修正した上で実際に調理し、江戸料理としてレシ
ピをクックパッドに掲載するという試みであった[13]。国立情報学研究所の
Twitterアカウント史上、最高のリツイート数を数えたというこの試みは、人文学の
知的資源を情報学の技術を用いてどのように活用できるかということについてのア
イデアに始まり、社会的に認知度の高いデータプラットフォームに掲載するという
目的を設定することで、研究協力者のモチベーションを向上させたという点で、人
文学と情報学の連携による研究成果について、種から育てて花を咲かせるまでの一
連のプロセスとして具体的に提示した点で、非常に示唆的であった。

(4)まとめに代えて

 本稿は、「人文知のアルゴリズム化」、「データ作成のコスト管理」、「学際的
な知的成果の発展段階」という3つのテーマを軸に、じんもんこん2016における研究
発表および議論の内容をまとめる試みであった。もとより、筆者の問題関心にかた
よったイベントレポートであるが、臨場感が伝われば幸いである。まずは身近なと
ころから、どのように人文学的資源が活用されるのかについて、夢物語を共有する
ゆるやかな交流の場が設けられることを願ってやまない(※まさに筆者も、歴史学
研究者によるアイデアソンを企画できればと画策しているところであり、ご興味の
ある方はぜひご一報いただければ幸いである)。

[1]「じんもんこん2016 人文学情報の継承と進化:ビッグデータとオープンデー
 タの潮流の中で」, http://jinmoncom.jp/sympo2016/
[2]徃住彰文監修・村井源編『量から質に迫る:人間の複雑な感性をいかに「計る」
 か』新曜社、2014年。
[3]この点では、増田勝也「言語情報と字形情報を用いた近代書籍に対するOCR誤
 り訂正」も、共起関係や文脈における位置づけなど、判断材料となる指標を複数
 導入して文字認識の精度向上を目指した発表であった。
[4]例えば、凸版印刷の以下のニュースリリースを参照のこと。
  http://www.toppan.co.jp/news/2015/07/newsrelease150703_2.html
[5]例えば、早坂太一ほか「ディープラーニングによる変体仮名の翻刻およびWWW
 アプリケーション開発の試み」、耒代誠仁ほか「木簡およびくずし字のデジタル
 アーカイブを文字画像で検索するサービスの実装」、橋本雄太「学習を動機付け
 に利用した前近代災害史料のクラウドソーシング翻刻」、齊藤鉄也「仮名字母出
 現率に基づく藤原定家書写資料の年代推定」などが挙げられる。
[6]じんもんこん2016における発表では、矢崎雄帆ほか「現代舞踊の創作支援を目
 的とした動作合成システム:振付フレーズの自動生成手法」、Takeshi Miura,
 et al., ‘Quantitative Analysis of Folk Customs and Motion
 Characteristics of Bon Odori Dances in Akita Prefecture’, などが該当する。
[7]デジタル・ヒューマニティーズのプロジェクトが、技術的進歩の影響を受けた
 人文学の成果発信のあり方を刷新し、広範な知識の連携を必要とするという指摘
 については、以下を参照のこと。Jeniffer Edmond, ‘Collaboration and
 Infrastructure’, in Susan Schreibman, Ray Siemens, and John Unsworth,
 eds., A New Companion to Digital Humanities, Wiley Blackwell, 2016, pp.
 54-65.
[8]プログラミング的思考法と言い換えることもできる。例えば、以下を参照のこ
 と。Subrata Dasgupta, Computer Science: A Very Short Introduction,
 Oxford University Press: Oxford, 2016, pp. 9-10.
[9]Elena Pierazzo, ‘Textual Scholarship and Text Encoding’, in Susan
 Schreibman, et al., eds., A New Companion to Digital Humanities, 2016,
 pp. 316-319.
[10]Julia Flanders and Fotis Jannidis, ‘Data Modeling’, in Ibid., pp.
 229-238.
[11]例えば、神崎正英氏によるダブリンコアの解説として、以下を参照のこと。
  http://www.kanzaki.com/docs/sw/dublin-core.html
[12]筆者自身も、歴博の総合資料学の一環として、日本古代史の『延喜式』を対
 象に、TEIに準拠する形でテキストマークアップを行い、情報基盤の構築に資する
 共同研究プロジェクトに参画している。
[13]発表内で紹介されたのは、「江戸時代のスイーツ 甘さスッキリ冷卵羊羹」
 である。 http://cookpad.com/recipe/4153357

Copyright(C) KOKAZE, Naoki 2016- All Rights Reserved.
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
◇イベントレポート(3)「Donald Sturgeon博士の ctext.org 関連講演レポート」
 (王一凡:東京大学人文社会系研究科修士課程)

 先日、ハーバード大学フェアバンク中国研究センター研究員の Donald Sturgeon
博士が来日し、2016年12月13日に東京大学で、15~16日にかけて筑波大学で講演を
行った。その内容は同氏が開発している Chinese Text Projectサイト( http://ctext.org/
)の現況、技術的仕様、活用事例、デジタル・ヒューマニティーズへの貢献といっ
た諸側面の紹介であった。

 Chinese Text Project(中國哲學書電子化計劃)は2005年から運営されているサ
イトで、中国思想を中心とした3万点を越える古典籍のテキスト・画像データベース
を提供している。サイトの管理は Sturgeon 氏単独で行っているが、現在は参加型
システムを導入し、本文のテキスト化や修正といった作業が多くのボランティアの
手によって行われている。

1."Digital Humanities and the Chinese Text Project"

 12月13日の講演は東京大学文学部において、人文社会系研究科次世代人文学セン
ター人文情報学拠点によって開催され、途中質疑応答を交えつつ約90分間にわたっ
て行われた。

 Sturgeon 氏はまず ctext.org の発展について述べた。同サイトは当初固定され
た少数の文献のテキストデータを扱うのみだったが、2013年に参加型サイトに転換
してからは、資料数は2桁、アクセス数は3倍程度増加したという。当初コレクショ
ンは思想書(経典など)に限られていたものが歴史書、文学書など多岐にわたる文
献を収録するようになり、氏は現在「前近代中国文献のオンラインデジタルライブ
ラリ」と位置づけている。

 次に同サイトの基幹であるOCRシステムと共同編集プラットフォームについて紹介
した。同氏によると、人力によるデジタル翻刻は必要な労力とコストが莫大であり、
成果がオープン化されることが少ない一方、OCR単独では大量のデータを処理するに
は好適だが十分な認識精度が得られないため、 ctext.org では誤りを含む生のOCR
データをサイトにアップロードし、参加者が必要な修正・句読点の追加などを施し
ながら徐々に精度を改善していく動的アプローチを取っている。利用者の参加を促
すため、昨年より画像と認識結果を並べて対照できる編集画面や、Wikipediaなどの
ようにユーザーの編集履歴を記録するシステムを導入した。これによってサイトへ
のコミット数が以前の20倍程度にまで急増したという。なお、現在のところ編集シ
ステムは有効に機能しており、スパムや悪意ある編集などはほぼないとのことであ
った。また、OCRシステムについては、ページ画像から列や割注を抽出するアルゴリ
ズムは自前で構築し、グリフから字種を認識する部分は学習させたTessaractを使用
しているとのことであった(詳細は次節を参照)。判読不能な文字や文字セットに
未収録の文字の処理に関する質問に対しては、前者は□などで代替し、後者は独自
のグリフ定義システムを実装しており、編集者が定義画面で文字データと出現位置
をアノテートすることで、テキストデータにマークアップが挿入される仕組みであ
ることを実演を交えて説明した。

 続いてデジタル・ヒューマニティーズへの ctext.org のデータの利活用について、
テキストデータの全文検索に基づくいわゆる「互見(parallel passages)」の分布
を題材に説明した。同サイトでは特定の段落について類似表現のある他書の部分を
色つきで視覚化することができ、人間の手では網羅しきれなかった相関関係に気づ
かせるツールとなる。互見箇所の割合に表すと、同時代の他の文献との関係の深さ
が表れ、『孔子家語』については全篇の80%が他書にも出現するという結果を得た。
また『儀禮』の60%の段落が内部で重複する(繰り返し述べられている)という結
果も示された。さらに漢代以前の文献をコーパスとして互見文献のネットワークグ
ラフを作成したところ、字書・兵法書・医学書などが明確にクラスタリングされ、
兵家と道家文献に比較的近しい関係が見られるといった現象が明らかになった。

 最後に、 ctext.org の提供するAPIとして、URNの付与、テキストやメタデータを
取得できるJSON API、Web UI上で動作するXMLプラグインが紹介された。プラグイン
は主に他サイトとの連携機能を本体から切り離して扱えるようにしたもので、ユー
ザー定義も可能とのことである。そのほかプログラミング言語Pythonのctextモジュ
ールを公式に提供しており、同言語上で ctext.org のデータを便利に扱うことがで
きると述べられた。

2."Optical Character Recognition for pre-Modern Chinese Texts"

 12月16日の講演は、筑波大学人文社会科学研究科国際公共政策専攻の主催するデ
ジタル・ヒューマニティーズワークショップの一環として行われた。

 冒頭ではOCRの意義について、ますます膨大になるデータ中から素早く目的の箇所
にアクセスすることであるとし、特に異本の多い歴史的文献では書籍中から特定の
箇所を探し出すのが難しく、デジタル画像を利用しても探索に数十分かかるところ
を、全文検索なら秒単位に短縮できると述べた。その上で、中国古典籍へのOCRの難
しさは主に文字自体の認識よりも、既存のOCRソフトウェアが現代的な版面構成しか
想定していないところにあるとした。

続いて ctext.org で現在利用されているOCRシステムについて紹介した。この設計
は手書きあるいは整版の中国語文献を対象としており、現在までに2500万ページの
処理に使われたと述べられた。以降、そのOCRのメカニズムと、訓練用データの自動
抽出アルゴリズムについて解説していった。

 まずページ画像を二値化し、画像処理に適した状態にするが、この時、蔵書印を
含むページがあるため、赤色を抜き取るという工夫をしている。さらに行を分割し
ている直線を検出し罫線・枠線・版心などを取り除き、本文を含む行だけが並ぶ状
態にすることで、一般の行検出アルゴリズムで処理できるようにする。

 次に行から文字を分割する。一文字の幅と高さの比の範囲を与えて分割しうる箇
所を探し、一文字ずつに区切る。区切った矩形をまたぐ線がある時は上限と下限を
計算し、上下それぞれの字に帰属する線だけを合成して一文字分の画像にしている。
割注で二文字が並んでいる可能性も考慮する。

 分割したグリフ画像を基に文字認識を行う。フォントなどからグリフデータを抽
出できる現代文献と異なり、古典籍の正確な文字認識のためにはサンプルを収集す
る必要があるが、字種が限られる欧文文献と異なり、漢字は字種が非常に多く全て
の種類が一つの文献に出現することは期待できない。そのため、一旦既存のOCRエン
ジン(Tessaract)で処理した結果を既存の翻刻と突き合わせたものを母データとす
る。認識結果と翻刻の概ね対応する部分を検出し、1ページあたりの字数を算出して
ページと行の対応を取る。翻刻とよく対応したページについて、行内の各文字の一
致箇所を探し、その前後にある誤った字を補正する。なお、ワークショップ後にい
ただいた資料によると、6000ページ余りから5500字種、34万グリフをサンプルとし
て抽出できたとのことである。

得られたグリフ画像のうち平均に近いものを選び出し、その文字の学習用データと
して新たな資料の認識に適用する。実用段階においては複数の認識候補があるグリ
フから結果を絞り込むために、言語モデルを援用している。認識精度は矩形分割に
問題がなければ100%に近く、誤りのあった部分は、前節に述べた通り編集画面で修
正できるようになっている。

3.感想

  ctext.org のような大規模なサイトを支えるシステムを一人で管理しているとい
う点で興味をひかれたが、講演を聞くと同サイトが想像以上に多様な機能を提供し
ていることがわかり驚くとともに、よりよい活用手法をめざし精力的に開発を継続
する姿勢に対し敬意を覚えた。 ctext.org は単に自動的に大量の情報をアーカイブ
するだけでなく、利用者の利便性と新たな知見を創出するプラットフォームとして
機能しており、デジタル・ヒューマニティーズの精神を体現したものと言えるので
はないだろうか。漢字文献という分野に取り組むにあたって、その特質を踏まえた
適切な設計を行っている点も重要である。

 また、研究の関係上、個人的にOCRの話題に関して特に関心があったが、講演後に
交流を深める機会があり、詳細についてさらに知ることができ、実りの多い経験で
あった。公開されたテキストには明らかに認識に失敗しているものも散見されるよ
うに、古典籍のOCRについてはまだ課題があるが、それらの多くはいかに資料のフォ
ーマットを正しく認識できるかにかかっているという。ますます拡大していくだろ
うコレクションに対し、さらなる研究の進展を待ち望むばかりである。

Copyright(C) WANG YIFAN 2016- All Rights Reserved.
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

 配信の解除・送信先の変更は、
    http://www.mag2.com/m/0001316391.html
                        からどうぞ。

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
◆編集後記(編集室:ふじたまさえ)
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

 今月の人文情報学月報はいかがでしたか?巻頭言からイベントレポートまで、
2016年の締めくくりに相応しい充実の内容だったと思います。ご寄稿いただいた皆
さま、ありがとうございました。

 巻頭言で、高岸さんがおっしゃっていることは、よく考えてみるとデジタルとア
ナログだけではない、あらゆるものに言えることだと感じました。ややもすると、
どちらが原本でどちらか複製かわからなくなってその価値が失われてしまうことを
考えると本当に重要な点だと感じます。

 先月の編集後記でふれた「じんもんこん2016」が開催され、運良く私も参加する
機会を得ました。普段、イベントレポートなどに書かれる現場に立ち会うことは、
なかなかかなわないので、ご寄稿いただいている皆さんにご挨拶できたことはとて
も嬉しかったです。残念ながらアイデアソンには参加できませんでしたが、アンカ
ンファレンスの様子をレポートしてくださった小風さんは、なかなか散漫になりが
ちだったグループの意見をうまくとりまとめてくださったように思います。

 今年1年間にご寄稿いただいた皆さまに御礼申し上げつつ、来年もさまざまな立場
からのご寄稿をお待ちしています。良いお年を!

次号もお楽しみに。

◆人文情報学月報編集室では、国内外を問わず各分野からの情報提供をお待ちして
います。
情報提供は人文情報学編集グループまで...
       DigitalHumanitiesMonthly[&]googlegroups.com
                  [&]を@に置き換えてください。

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
人文情報学月報 [DHM065]【後編】 2016年12月29日(月刊)
【発行者】"人文情報学月報"編集室
【編集者】人文情報学研究所&ACADEMIC RESOURCE GUIDE(ARG)
【 ISSN 】2189-1621
【E-mail】DigitalHumanitiesMonthly[&]googlegroups.com
                 [&]を@に置き換えてください。
【サイト】 http://www.dhii.jp/

Copyright (C) "人文情報学月報" 編集室 2011- All Rights Reserved.
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

Tweet: