公開シンポジウム+チュートリアル:
翻デジ2014:クラウドソーシングによる近デジ資料のデジタル翻刻

2014年2月19日(水 )13:30~17:30 京都大学人文科学研究所本館1階セミナー室1

主催

京都大学人文科学研究所共同研究班「人文学研究資料にとってのWebの可能性を再探する

登壇者

開催趣旨

 国立国会図書館(以下、NDL)の近代デジタルライブラリー(以下、近デジ)をはじめとするデジタル化資料の公開は、我国における知の共有を大きく促進しつつあり、さらに日本の知を世界に発信することについても多大な貢献となっている。画像での資料公開は、文字・字形・レイアウト・注記等といった版面に含まれる多様な姿をほぼそのまま伝えられるという点で大きな意義がある。 しかし一方で、画像のままの資料は検索性が低く、結果として、テクストとしての日本語は十分にデジタル世界には流通しないままであり、ここにデジタル化自体の遅れもあいまって、日本語資料はその膨大さの割にWebから見えにくいものとなっている。とりわけ古い資料であればあるほど、画像からOCRでテクストデータを自動抽出するのは困難なものとなっており、近デジの多くはそれに該当してしまっている。

海外に目を向けてみると、比較的容易にOCRができるはずの英語圏の資料であっても、クラウドソーシング等と称して皆でWeb上でテクスト起こしをするという動きが盛んになりつつある。さらに、それを実現するためのシステム自体も開発した上に無償公開している。これがデジタル・ヒューマニティーズの動向ともあいまって、そのような活動自体がデジタル・ヒューマニティーズの研究の一環ともなっているようである。

そのような流れを受けて、近デジの資料をクラウドソーシングでテキスト起こし(=デジタル翻刻)することにより日本語のテクストをWeb上に増やそうという試みが日本デジタル・ヒューマニティーズ学会の分科会、SIG Transcribe JPとして開始された。これは日本語資料のWeb上での検索性を高めるだけでなく、OCRの精度を高めるための素材の提供や、Web上で共同でデジタル翻刻できるシステムやその構築の仕方を広く提供することによるこの種の事業の低コスト化をも目指すものである。

この分科会が最初にリリースしようと試みているシステムを、ここでは「翻デジ2014」と呼ぶ。本シンポジウムでは、この翻デジ2014の背景やシステム自体の使い方などをご説明するとともに、参加された皆様にご試用いただき、コメント等をいただくことを大まかな目標とする。また、それにあたっては、まず、我国を代表するデジタル翻刻プロジェクト、青空文庫での活動を通じて深い経験を積んでこられた大久保氏と、CiNiiをはじめとする我国の学術情報流通を担う大向氏にそれぞれコメントをいただき、専門的な観点からの問題点を確認した上で、それを踏まえつつさらに議論を展開していきたい。

なお、今回取り扱うシステムは、米国においてデジタル・ヒューマニティーズを強力に牽引してきた研究機関の一つであるジョージ・メイソン大学の歴史とニューメディアセンターにおいて開発され現在も改良が続けているOmekaとそのプラグインScriptoを日本語用・近デジ用に改修したものである。本シンポジウムにてこのシステムに触ってみることで、米国デジタル・ヒューマニティーズの先端を多少なりとも垣間見ることができるかもしれない。

参加申込

 当日の準備のために、参加者数を把握する必要がございます。件名を「翻デジシンポジウム参加希望」としたメールにお名前とご所属等を記載して、前日までに daizokyo2014 _at- kanji.zinbun.kyoto-u.ac.jp (_at-を@に入れ替えてください)にお送り下さい。

当日持参するもの

チュートリアルを通じて本システムを試用してみたい方は、インターネット接続可能なノートパソコンをご持参ください。開催者側ではインターネット接続環境をご提供できない可能性が高いのでご承知置きください。