ISSN 2189-1621

 

現在地

DHM 075 【前編】

2011-08-27創刊                       ISSN 2189-1621

人文情報学月報
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄Digital Humanities Monthly

             2017-10-31発行 No.075 第75号【前編】 693部発行

_____________________________________
 ◇ 目次 ◇
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

【前編】

◇《巻頭言》「クラウドソーシングによる図書の翻刻」
 (池田光雪:千葉大学アカデミック・リンク・センター)

◇《連載》「Digital Japanese Studies寸見」第31回「青空文庫20周年記念シンポジウム印象記」
 (岡田一祐:国文学研究資料館古典籍共同研究事業センター)

【後編】

◇《特別寄稿》「デジタルアーカイブ」の価値を測る:Europeanaにおける「インパクト評価」の現状
 (西川開:筑波大学大学院図書館情報メディア研究科博士後期課程1年)

◇人文情報学イベントカレンダー

◇イベントレポート「IIIF Japan東京ラウンドテーブル」(2017年10月16日)
 (永崎研宣:人文情報学研究所)

◇編集後記

◇奥付

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
【人文情報学/Digital Humanitiesに関する様々な話題をお届けします。】
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
◇《巻頭言》「クラウドソーシングによる図書の翻刻」
 (池田光雪:千葉大学アカデミック・リンク・センター)

 私の父親は根っからのビブリオフィリアで、仕事帰りにはほぼ毎日のように古本屋に寄り図書を買っていた。その結果、実家は図書の重みで立て付けが悪くなり母親の不興を買っていたが、図書に囲まれた生活をした影響か子供の頃から図書に親しみを持ち、図書≒図書館という素朴な発想から大学は筑波大学知識情報・図書館学類を選んだ。

 この学類において入学早々に開講される必須科目の1つとして、情報基礎実習という授業がある。この授業は大学において必要とされる基礎的な情報技術全般に加え、CiNii
Articlesや国立国会図書館サーチなどの各種サービスの使い方等に関する広範な内容を扱っている。その中でもサーチエンジンを利用するにあたっての勘所を磨くということで、Googlewhack[1]に取り組んだことを覚えている。GooglewhackはGoogleにおいて2つの単語からなり、かつ検索結果が1件であるクエリの作成を目指す、2000年代初頭に流行った遊びである。

 検索対象であるWeb資源が当時とは比較にならないほど増えたことに加え、Googleのアルゴリズムがだいぶ様変わりした今日において、全く同様の遊び方をすることは難しい。ただし、Googlewhackの基本的なコツはWeb上において殆ど使われていない単語の組み合わせを考えるか、造語も含めやはりWeb上では使われていない単語をクエリに用いることである。

 ここで着目したいのは、あくまでもWeb上にない単語はサーチエンジンで発見できないということであり、その単語が実際に使われている、あるいは使われていたかどうかとは無関係である点である。サーチエンジンは非常に有用だが、それで発見することができるのは人類が培ってきた知識や文化に対し、少なくとも現時点ではごく一部に過ぎない。

 例えば、サーチエンジンは過去の流行語、すなわちWebで言及されにくい用語を調べることをかなり不得手としている。一例として、図書館の除籍本として先日入手した『現代用語の基礎知識1965年版』には当時の流行語として「キンメシ」が挙げられている。キンメシは「近日中に一緒にご飯を食べよう」などと言いつつ、実際にはいつまで経っても実行しようとしない上司の社交辞令を揶揄した言葉とのことである。
おそらく、この用語は上司にご飯をご馳走になるという文化が根強く存在したという背景においてそれをしないことへの皮肉だと考えられ、時代の変遷という観点からも興味深い。しかし、本稿を執筆している2017年10月現在において、Googleでは高々300件程度の検索結果しか得ることができない。

 このような状況に対して、筆者は資料の翻刻によりその中身をWebに解き放つことに関心を抱いている。資料の翻刻を行うには、人手で一から文字を入力していくか、あるいはOCRで機械的に文字を読み取り、その後に人手で校正をかけるというアプローチが取られる。どちらのアプローチにおいても人手の作業に膨大なコストがかかることがボトルネックとなりがちだが、近年では人手の作業部分を関係者以外の不特定多数にも広く開放することにより進める、クラウドソーシングを活用したプロジェクトが盛んに行われている。
海外においてはreCAPTCHA[2]や米国国立公文書館のCitizen Archivist[3]、オーストラリア国立図書館のTrove[4]、フィンランド国立図書館のオンラインゲームDigitalkoot[5]などが有名である。日本においては先日20周年を迎えた青空文庫[6]や、アクセシブルな電子書籍の製作を行うみんなでデイジー[7]などの取り組みがある。また、くずし字で書かれた歴史地震史料を対象としたみんなで翻刻[8]の成功は記憶に新しい。

 このように国内外で多くの翻刻プロジェクトが存在するが、その一方で翻刻が可能な図書はまだ数多くある。例えば、国立国会図書館デジタルコレクションでは明治期以降の図書35万点がWeb上で公開されているが、それらは画像のみの公開に留まっている。筆者らは「インターネットでできる図書館ボランティア」をテーマとしたプロジェクトであるL-Crowd[9]の中で、クラウドソーシングを用いた国立国会図書館デジタルコレクション資料の翻刻に取り組んでいる。
一口にクラウドソーシングと言ってもいくつか種類が存在するが、L-Crowdでは、タスクと呼ばれる取り組む単位を数秒から数分まで分割するマイクロタスクベースのクラウドソーシングを採用していることに特徴がある。このアプローチの特徴は、特定のWebサイトに依存することなく、自由な応用が比較的容易になることである。
L-CrowdはCrowd4Uというプラットフォームを利用しているが、同プラットフォームにおけるユニークな取り組みとしては床にタスクを投影しその上を歩くことで回答したとみなす仕組みや、音楽ゲーム中にタスクを埋め込む試みなどがある。

 一方で、マイクロタスクベースはタスクの設計に全体の作業効率が大きく左右されるという問題がある。現在は従来のものに比べ効率のよりよいタスクにするべく研究に取り組んでいる最中である。将来的には、人々の力を借りることであらゆる資料の翻刻が容易になる世界を目指しつつ、なるべく早くよい成果を報告できるよう邁進していきたい。

[1]Googlewhack https://en.wikipedia.org/wiki/Googlewhack
[2]reCAPTCHA https://www.google.com/recaptcha/intro/android.html
[3]Citizen Archivist https://www.archives.gov/citizen-archivist
[4]Trove http://trove.nla.gov.au/
[5]Digitalkoot http://www.digitalkoot.fi/
[6]青空文庫http://www.aozora.gr.jp/
[7]みんなでデイジー https://mindeji.lab.ndl.go.jp/
[8]みんなで翻刻 https://honkoku.org/
[9]L-Crowd https://crowd4u.org/ja/projects/lcrowd

執筆者プロフィール
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
池田光雪(いけだ・こうせつ)筑波大学大学院図書館情報メディア研究科博士後期課程終了。博士(情報学)2016年4月より千葉大学アカデミック・リンク・センター特任助教。「インターネットでできる図書館ボランティア」をテーマとしたプロジェクトであるL-Crowdの運営に携わり、クラウドソーシングを用いた図書館領域の問題解決に取り組んでいる。所属学会は日本データベース学会、情報処理学会、日本図書館情報学会など。

Copyright(C) IKEDA, Kosetsu 2017- All Rights Reserved.
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
◇《連載》「Digital Japanese Studies寸見」第31回「青空文庫20周年記念シンポジウム印象記」
 (岡田一祐:国文学研究資料館古典籍共同研究事業センター)

 この10月より国文学研究資料館の古典籍共同研究事業センター特任助教となった。2年半前の本連載第1回は、国文学研究資料館のリポジトリでの『笠間索引叢刊』を取り上げたものであったが、それ以降も幾たびも論評の対象としてきたものが作られる場に属することになったというのも奇縁である。これまでに引き続き、組織としての意見を述べるわけではないが、世情に対する感じ方はいくばくか変わってゆくのであろう。

 さて、2017年7月7日に青空文庫が開始20周年を迎えたことを記念して、さる10月14日に、本の未来基金と青空文庫の主催によって「青空文庫20周年記念シンポジウム「青空文庫の今とこれから」」が開かれた[1](当日の雰囲気は[2]にくわしい)。今回は、その印象記としたい。

 青空文庫は、言わずと知れた日本語文学の一大リポジトリである[3]。しかしながら、1997年に開始したときは、わずかに5点を数えるばかりであったという。当初の呼びかけ人のひとりであった八巻美恵氏は、冒頭に行われた大久保ゆう氏との対談で、「いまの姿にもっとも驚いているのは自分である」と語っていたが、さぞあっという間であったことであろうと思う。それからの20年は大久保ゆう氏による[4]にくわしい。

 シンポジウムは、青空文庫の20年を振り返る第一部、多分野からの活用が語られた第二部、著作権と青空文庫の今後が再確認された第三部とに大分される。第一部では、まず八巻氏と大久保氏の対談があったほか、八巻・大久保対談でも司会として入っていた富田晶子氏と大久保氏から青空文庫の入力・点検・校正の実際を実演するチュートリアルセッションが行われた。
八巻氏は、そのなかで、当初は、設立宣言である[5]にもあるように、ボイジャー社のフォーマットである「エクスパンドブック」に載せたい素材として自発的に作りはじめたものが、さらなるボランティアを招き、閉じた体制を取らずに開いたままであり続けたことがここまで続いた理由であろうと語った。大久保氏は、青空文庫が長年取ってきた著作権保護期間延長反対運動について語りつつ、そこには「無料ということが大事なのではなく、共有する自由」があるのだと述べた。
また、青空文庫の品質を保つしくみである入力・点検・校正という過程では、どうしても入力に人が集まりがちで、校正と、とくに点検はなかなか人手が増えないのだという。

 [6]に一覧されるとおり、入力を終えて、点検・校正を待つ資料はかなりの数に上る。宮本百合子については、1000作品以上が10年以上まえに入力されて点検・校正を待ってそのまま非公開のままであるという。それを担う工作員の作業の実際を伝えるべく、大久保氏が入力と校正、富田氏が点検作業の実際を実演してみせた。おおくの人文系研究者は、一度くらい自分のテキストを作ったことがあると思うが、それをコンピューターで使うということを意識して打ち込むことはあまりないのではなかろうか。
青空文庫では、入力に際して厳密なルールを設定しており[7]、限られたグループによる点検作業でそれに合わせる作業をかなり行ったうえで、文字校正をさらに多くのボランティアに依頼するという体制を取ることで成立しているのだそうである。点検・校正作業そのものは、それ自体珍しい作業ではないと思うが、見慣れないひとからは驚嘆の声が上がっていたのが印象に残る。それは点検・校正という作業の実際への驚きでありつつ、また、それをボランティアとして続けていることへの驚きであっただろう。

 活用に関して、ひとつひとつを紹介するのは避けるが、活用したところからさらに広がるのだということである。それが広がるには、もちろん、時宜やコンテンツそのものの力が与るところ大きく、そうそう活用される機会に恵まれるものではないとはいえ、文学はただひとり文字を追って読むだけのものという蒙を幾度となく啓かれる。エンジニアからの発表が多かったのもおもしろかった。具体的には、昨年行われた青空hackathonを機縁に、エンジニアがかかわるようになったそうである[8]。
青空文庫は、98年ごろに確立した作業スキーマ・ルールを大枠維持している。それはサーバーやソフトウェアも同じで、高橋征義氏が「式年遷宮アーキテクチャ」と題して[9]、じぶんたちの次の次の世代にも青空文庫とそれを支える技術が継承されるためにも、式年遷宮のように動くものも作り直す必要があると述べていたのが印象的であった(動くように作り直すのはたいへんで、だからこそ難しいのだが、だからこそ大事なのである)。

 最後に、福井健策氏が著作権の今後の動向と著作権保護期間が延長されたばあいの問題点を手短に解説したうえで、大久保氏と富田氏から20年を迎えての改めての宣言文が述べられた。
これはいまだにウェブに公開されていないようだが(されないのだろうか?)、呼びかけ人のひとりであった故・富田倫生氏が芥川龍之介の「後世」という作品を読み上げるのを引きつつ、これからも青空を曇らせないようにと、ひとつは著作権保護期間延長問題への改めての反対を示し、もうひとつには、青空文庫を青空文庫の工作員だけでなく読み手やあるいはデータを利用する人々まで含めたコミュニティであると示しつつ、そのエコシステムが健全であるようにとさらなる参加を呼びかけ、自己変革の決意を示したもので、それをもって会が終えられた。

 今の時代は自由な時代だというが、いつの時代であっても、自由をうたうことは本当は難しかっただろう。それだからこそ、自由人たる学芸があって、それを不断に学ぶ必要がありもするのである。そんななか、青空文庫が自由をうたって二十年、そしてさらに未来へと向かっていくのは、じつに尊敬に値し、また、支えるべきものであることを再確認したシンポジウムだったのではなかろうか。

[1]青空文庫20周年記念シンポジウム「青空文庫の今とこれから」 Peatix http://aozorabunko20th.peatix.com/
[2]青空文庫20周年記念シンポジウム「青空文庫の今とこれから」 #aozora20th - Togetterまとめ https://togetter.com/li/1160941
[3]青空文庫 Aozora Bunko http://www.aozora.gr.jp/index.html
[4]青空文庫から.txtファイルの未来へ:パブリックドメインと電子テキストの20年 https://www.jstage.jst.go.jp/article/johokanri/59/12/59_829/_article/-ch...
[5]図書カード:青空文庫の提案 http://www.aozora.gr.jp/cards/001790/card56572.html
[6]青空文庫校正待ち作品検索 http://eunheui.sakura.ne.jp/aozora/koseimachi.html
[7]このルールは、視覚障碍者読書支援協会の原文入力ルールを下敷きに詳しくしていったものであるとのことである。形式化の由来としてなるほどと思わされる。残念ながら、時代の流れで、協会の現行のウェブサイトを見つけられなかった。
[8]aozorahack GitHub https://github.com/aozorahack/aozorahack
[9]青空文庫と式年遷宮アーキテクチャ: 青空文庫200周年に向けて https://www.slideshare.net/takahashim/aozora20th-2017

Copyright(C)OKADA, Kazuhiro 2015- All Rights Reserved.
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

 続きは【後編】をご覧ください。

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

 配信の解除・送信先の変更は、
    http://www.mag2.com/m/0001316391.html
                        からどうぞ。

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

◆人文情報学月報編集室では、国内外を問わず各分野からの情報提供をお待ちしています。
情報提供は人文情報学編集グループまで...
       DigitalHumanitiesMonthly[&]googlegroups.com
                  [&]を@に置き換えてください。

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
人文情報学月報 [DHM075]【前編】 2017年10月31日(月刊)
【発行者】"人文情報学月報"編集室
【編集者】人文情報学研究所&ACADEMIC RESOURCE GUIDE(ARG)
【 ISSN 】2189-1621
【E-mail】DigitalHumanitiesMonthly[&]googlegroups.com
                 [&]を@に置き換えてください。
【サイト】 http://www.dhii.jp/

Copyright (C) "人文情報学月報" 編集室 2011- All Rights Reserved.
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

Tweet: