ISSN 2189-1621 / 2011年8月27日創刊
2018年8月9日、関西大学アジア・オープン・リサーチセンター(KU-ORCAS)は、「(東)アジア研究×図書館×デジタルヒューマニティーズ講演会」を開催した[1]。前号に続きイベント報告で恐縮だが、本号ではこの講演会の内容を報告したい。
この講演会を開催したきっかけは、講演者の一人であるマクヴェイ山田久仁子氏(ハーバード大学イェンチェン図書館)がKU-ORCASへ意見交換でお越しいただく機会があったことにある。マクヴェイ氏に対しKU-ORCASからは、ハーバード大の東アジア研究やDH、そしてイェンチェン図書館の現状等を尋ねたいと考えていたが、そのような内容であればKU-ORCASの関係者だけでなく、いっそ公開した方が日本の東アジア研究者や図書館関係者、DH研究者らのためになるだろうという考えから、講演会を企画した。 そして、アメリカの話が出れば日本の状況も気になるということで、「(東)アジア研究」「図書館」「DH」の3つのキーワードに関わる機関として、東京大学附属図書館アジア研究図書館上廣倫理財団寄付研究部門(U-PARL)と京都大学人文科学研究所附属東アジア人文情報学研究センターにもそれぞれ講演を依頼し、今回この講演会は実現した。ご講演をご快諾いただいた皆様に、この場を借りてお礼申し上げたい。
さて、最初の講演は、マクヴェイ山田久仁子氏から「ハーバード大学の東アジア研究におけるデジタル・ヒューマニティーズへの取り組みの現況と展望/DH Work in East Asian Studies at Harvard: Projects and Trends」と題し、ご報告をいただいた。アメリカにおける人文学の学位取得者が漸減傾向にあるという「人文学の危機」の紹介から始まり、一方で、東アジア研究はその状況にあっても比較的健闘しているが、中韓に比べ日本だけが減少傾向にある現状が示された。 次いで、ハーバード大学で2015年に結成されたDigital Scholarship Support Group[2]という、その名の通りデジタル学術研究の支援を行う組織とその中での東アジア研究に関わる取り組みが紹介された。ハーバード大学のデジタル資料を提供するDigital Repository Serviceに登録されている日中韓の資料群について、フルテキスト検索を可能とする計画が今年秋からスタートするとの情報は特筆すべきであろう。 また、East Asian Digital Humanities Lab[3]という、東アジア研究におけるDH研究の支援を行う組織がイェンチェン図書館には置かれており、このようなラボ設置は同大学内では初めてとのことであった。 East Asian Digital Humanities Labは院生中心に運営されており、2017年から各種のフォーラムを開催し、それらは主に中国関係の資料・データを使ったDHプロジェクトが多いようである。日本関係のDHについては、ライシャワー研究所にJapan Digital Research Centerがあり、昨年夏から日本デジタル研究ライブラリアンが、そして2018年の今年秋から日本研究デジタル・フェローが在籍するとのことである。 Japan Digital Research CenterではJapan Disasters ArchiveとConstitutional Revision Research Project(憲法改正研究プロジェクト)の2つが行われており、前者については日本の特に図書館関係者には比較的よく知られているだろう。 後者では、2005年以降、100を超す日本のサイトのウェブアーカイブを進めているという。講演の最後では、中国関係のDHプロジェクトとして、Donald Sturgeonによる前近代の中国語のテキストデータを提供するChinese Text Project[4]や中国学におけるDHの情報をまとめたDigital Sinology[5]、そしてPeter K. Bolによる中国伝記情報データベースプロジェクトChina Biographical Database等が紹介された。
次に、U-PARLの2人の副部門長に「東京大学附属図書館U-PARLの活動と研究図書館としての漢籍デジタル化の試み」というタイトルでご講演いただいた。まず、永井正勝特任准教授からは、東京大学のアジア研究図書館の構築支援事業と、U-PARLによる資料デジタル化事業について紹介をいただいた。アジア研究図書館では、学内にある30ほどの図書館に分散しているアジア関係資料を一か所で保存・提供することを目指しており、また、特にアメリカに倣ったサブジェクトライブラリアンとしての研究者を配した研究図書館を目指しているとのことであった。 資料デジタル化については、Flickrを使ったデジタルアーカイブ事業[6]について紹介があり、また、現在はIIIF対応のデジタルアーカイブの構築を進めているとのことである。もう一人のU-PARL副部門長である東京大学東洋文化研究所の上原究一准教授からは、東洋文化研究所をはじめ国内外の各機関における漢籍デジタル化のこれまでの流れや事例について紹介があり、その後、自身の研究対象である白話小説を対象にした資料比較の意義が論じられた。 その資料比較については、漢籍の多数ある版の違いで本文が微妙に異なることを『三国志演義』を題材に紹介され、また、例えば『西遊記』の同じ系統の本でもその修復の仕方から異なる内容が生じてしまっているケースがあることから、デジタル画像による比較の意義を強調された。そして、最後に、東京大学には『水滸伝』の珍しい版があることから、U-PARLではこれのデジタル化を行い、年内にも公開を予定しているとの紹介があった。
3つ目の講演枠として、筆者が「関西大学KU-ORCASによる東アジア文化研究のためのデジタルアーカイブ構築プロジェクト」と題し、KU-ORCASの紹介を行った。報告内容は、本誌第81号【後編】に寄せた「関西大学アジア・オープンリサーチ・センター(KU-ORCAS)とは」[7]とほぼ同じようなものである。それを踏まえ、筆者は、KU-ORCAS、そして関西大学の漢学/東アジア文化研究の特徴が、学問分野と学問対象地域に対する「越境性」にあることから、これを支援するような仕組みをデジタルアーカイブで志向していることを述べた。
最後に、京都大学人文科学研究所附属東アジア人文情報学研究センターの安岡孝一教授から「デジタル図書館としての東アジア人文情報学研究センター」のご講演をいただいた。東アジア人文情報学研究センターは、1965年に東洋学文献センターとして開設され、2000 年に漢字情報研究センターへと改組し、そして、2009 年に現在の東アジア人文情報学研究センターとなった組織である。東アジア人文情報学研究センターは、これまで東アジア資料を対象にしたデータベースやDHに関わる研究を長期にわたり続けてきており、講演では現在でも運用されている各種プロジェクトについて、それぞれ紹介された。 取り上げられたのは、「全国漢籍データベース[8]」「東方学デジタル図書館[9]」「拓本文字データベース[10]」「CHISE[11]」「kanripo[12]」「古典中国語 (Kanbun) コーパス[13]」である。ここでは各内容を詳述しないが、安岡教授によると、東アジア人文情報学研究センターでは、先述のプロジェクトを通じて、目録・画像・文字・テキストの4つの領域を扱うようになった、とまとめられたのが印象的であった。
講演の後は活発な質疑応答が行われ、講演会は終了した。企画者として、ハーバード大学の研究者層と支援体制の厚さ、東京大学のアジア研究図書館開設に向けた活発な活動、そして京都大学の地道で着実な研究活動の蓄積を知るよい機会となったと感じている。いずれの機関も特色ある研究活動を行われているなかで、KU-ORCASの立ち位置を意識せざるを得ず、また、KU-ORCASとしては各機関と積極的に連携し、東アジアDH研究を盛り上げていければと感じた。なお、講演会の資料は後日関西大学の機関リポジトリで公開を予定している。
この連載では、2018年4月15日にTokyo Digital Historyによって開催されたシンポジウムの登壇者が、それぞれの立場から歴史研究と人文情報学との関わりを論じる運びとなっている[1]。第4回は、日本経済史(近代日本における人的資本形成)を専門とする山崎翔平が担当する。本シンポジウムでは、歴史研究の作業過程を情報の入手・分析・表現・公開という4つに分類し、8人の報告者がそれぞれの作業過程に対応したデジタル技術を紹介した。筆者は、情報の入手と分析の過程の間で必要不可欠となる「データの前処理[2]」について担当し、この過程をプログラミング言語により、記述し公開することの重要性について論じた。以下、報告の内容を簡潔に紹介するとともに、参加者と議論となった部分について補足を行いたい。
本報告では、明治期県境変更の補正を事例にデータの整備・加工作業におけるプログラミング言語を用いたバッチ処理(あらかじめ処理に必要な指示と要素を与えておきデータを一括して処理する手法)の有用性を示した。データの整備・加工作業は、データを入手した後、分析の前準備として不可欠な過程であり、複数の統計書から様々な変数を組み合わせてデータセットを構築するなど、しばしば煩雑なものとなる。手順が複雑になれば、間違いが発生する可能性が高くなり、自身が加工過程を再現できないばかりか、第三者が加工の妥当性を検証することも困難となる。また論文内における記述も長大となり、手順を書き漏らすこともありうる。
そこで、作業手順をプログラミング言語のコードとして記述し、それを用いてバッチ処理を行うことが重要となる。それにより、作業が省力化されるだけでなく、コードを公開することによって、第三者にも加工過程の検証がしやすくなり、再現性が担保される。
筆者は、長期府県パネルデータを用いる分析の前処理として、合併・分割が相次いだ明治前期の県域を現在の47都道府県のそれと一致させるためのバッチ処理を行うプログラムを開発した[3]。具体的には、Fukao et al. (2015, A2.6.1)の手法を用い、「郡」の所属変化を追跡し、郡ごとの人口情報を用いて値を按分することにより補正を行う[4]。こうして得られた値は、県民一人頭の変数として使用する分には、それなりに十分な精度であると考えられる。現在のところ、全国統計が刊行され始める明治6(1873)年から、三多摩郡が神奈川県から東京府に移管され県境が現在のそれとほぼ一致した明治26(1893)年までの、県域の変遷に対応しており、処理速度も実用に耐えうるものとなっている。このプログラムにより、県域変更により接続が困難であった統計データを用いた長期的な視角による分析が容易に可能となった。
本月報の読者層を考えれば、前処理の過程をコードで記述しておくことは、当然の作業であり、目新しさなど微塵の欠片もないと思われる。しかしながら、こうした前処理の過程がコードとして公開されている事例は、経済史分野において管見の限り希少と言わざるを得ない。特に数量経済史においては、経済統計の推計が主たる貢献になる研究であるにもかかわらず、推計方法が文章で説明されるのみで、再現が困難な研究もたびたび見受けられる[5]。
ここで国際雑誌の動向についても確認しておきたい。経済学の一流誌の多くで、使用したデータ及びコードを含む加工過程を雑誌Webページで公開し、論文が完全に再現できることを義務付けている[6]一方、経済史の三大誌のうち2つ(The Journal of Economic History、The Economic History Review)には、そのような義務付けが存在しないどころか投稿規定にデータの取扱に関する項目すらない[7]。 Explorations in Economic HistoryのGuide for AuthorsにはResearch dataの項が存在するものの、公開をencourageするにとどまっている[8]。
このように経済史分野において国内外でデータ及びコードの公開が進んでいないという現状が確認できた。国内の経済史研究では、大量のデータを用いる研究が少なく、学会がそうした状況に対応できていないことも要因の一つであろうが、数量経済史が一般的な海外の経済史学会においても進んでいない状況を踏まえれば、別の要因もありそうだ。
例えば、データの入手費用の違いである。すでに電子化されているデータを用いる同時代的な経済分析に対し、電子化から始めなくてはならない歴史分析では生データの入手費用が高いため、それを公開することに対する抵抗感が拭えない、というのは肌で感じるところである。近い将来、OCR技術やデジタル・アーカイブのさらなる発展により、生データの入手費用が下がり、誰もが同じデータを使えるような状況になってくれば、学会の要請も変わってくると信じたい。
プログラミング言語の互換性の問題により、コード自体の再現性が失われることに対する懸念が指摘された。確かに、Python 2.x系で書かれたコードが、Python 3.x系で動作しないという経験は、Pythonを触ったことがある方ならば、誰もが持っているであろうし、10年後にそのコードが正常に動作する環境が手軽に揃うかどうかの保証はどこにもない。しかしながら、Dockerなどのコンテナ技術の発達により環境の再現は容易になってきているし、需要が高い処理であるならば、移植されたり保守管理され続けるであろう。
もう一つの懸念は、コードの可読性の問題である。数ヶ月前に自分で書いたコードの処理を読み解けないという方は、案外多いのではないか。自分ですら読めないのに第三者が読み解くのは困難であり、結局ブラックボックス化してしまう恐れがある。これについては、可読性の高いコードを書くように心がけるしかないが、自分のためにもなるのだから手間を厭わず書くようにしたい[9]。
作業手順の記述に際し、従来の文章に加えコードも用いることによって、二つの経路により再現性がより強固に担保されることになる。分かりづらい文章を書く人が読みやすいコードを書けるという事例は稀だと思われるので、再現性が直ちに向上するとは限らないことには留保する必要があるものの、双方を行き来することで、これまでは諦められていた検証が可能になるかもしれない。周知の通り、科学という思想体系の根幹をなすものが再現性であり、それをいかに担保するかということに対して情報技術が貢献できる部分は大きいように思われる。
データ前処理におけるプログラミング言語によるバッチ処理の有用性は、本月報の読者からすれば今更なことかもしれないが、こうした作業をExcelシート上でGUI操作により行ってきた身からすれば、バッチ処理によって実行操作だけで作業を再現できることは、大きな進歩であった。データ前処理の手法やコツについては、体系的な知識は存在せず、現場に蓄積されるものであり、実践やRAを通じて学ぶしかないが[10]、ToDHとして講習会や共同作業を通じて学ぶ機会を提供したいと考えている。
https://www.ninjal.ac.jp/event/specialists/project-meeting/m-2018/20180907-sympo/
https://www.ninjal.ac.jp/event/specialists/symposium/20180908_intlsympo/
2018年6月24〜29日、メキシコシティの独立記念塔の前に位置するMaria Isabel Sheraton Hotelにおいて、2018 Digital Humanities Conferenceが開催された。世界各国から人文情報学の研究者が集まる国際学会であり、南米および南半球で開催された初のDigital Humanities Conferenceである。 最大で8セッションが並行して行われ、発表も多岐にわたる会議の全体像を伝えることは難しい。そこで今回は報告者が特に注目した2つの切り口について紹介を行いたい。詳細な発表内容とおよび全体像については、アブストラクトおよびセッション構成がサイト上で公開されているので、参照いただければと思う。
1つ目の切り口は、人文情報学を巡る人材とキャリアの問題である。日本においても、第117回人文科学とコンピュータ研究会発表会でのアイディアソン、Japan Open Science Summit 2018(JOSS2018)でのセッション「人文学研究のデジタル化とオープン化」などでも重要な議論となったことは記憶に新しい。“Precarious Labor in the Digital Humanities”というインパクトの強いタイトルが付けられたセッションでは、実際に人文情報学のプロジェクトに関わる人材が登壇し議論が行われた。ここで中心となったキーワードは“Miracle Worker”である。 なんと6名の登壇者のうち実に4名がこのキーワードを軸に発表を行っている。“Miracle Worker”(優れた人材を示す一方で、状況に若干の皮肉を込めた呼び方である)は、その名の通り奇跡のように人文情報学のプロジェクトを支える人材であり、有能な研究者であるばかりか、頼れる技術面でのサポーターであり、辛抱強いプロジェクトマネジャーであり、さらに他にも様々な役割を果たすことを期待される。 人文情報学の仕事に就くことによって“Miracle Worker”であることを期待され、その結果としてキャンパス全体に関わるあらゆる問題に関係することとなり、様々な時間とのトレードオフが発生し、場合によっては本人のバーンアウトにつながってしまう可能性もある。また、プロジェクトそのものが一時的なもので学部組織などから切り離されている場合は、奇跡的な仕事を果たしても、仕事の環境そのものが不安定であるという問題が常に付きまとう。また多くの場合図書館がこういったプロジェクトのハブとなることが多いが、その結果として人文学そのものの部門とのつながりが希薄になるという問題もある。 具体的な解決策が提示される種類の問題ではないが、人的支援や資金的な支援、人文情報学を勧めるプロジェクトセンターや図書館と従来型の人文系学部組織とのコミュニケーション、実態的なコラボレーションなどが提案されていた。
なお、セッション内でもしきりと引用されていたAlexander Gilによって企画され、様々な人々が人文情報学の“Miracle Worker”の名前・所属を記入したGoogle Spread Sheet “Open Directory of Miracle Workers”は現在も閲覧可能である。個人情報が掲載されているのでURLなどは掲載しないが、興味のある方はご覧になっていただきたい。
執筆者はこのセッションを聞いていて、実はいかんともしがたい感情に囚われた。議論されている内容は深刻であり、人文情報学に関わる研究者の仕事環境をいかにして安定化させていくかという問題は大きい。しかし、人文学関係の資料のデータ公開などのプロジェクトを行う際には、ライブラリアンの背景を保つ場合が多いにせよ人文情報学に関わる人材が参入する、またはその仕事に関わる人材が人文情報学に関わっているという感覚を持つという前提はすでに共有されているように感じたからだ。日本においても、東大・京大の図書館や、国文学研究資料館を始めとして人文情報学に関わる人材が活躍している。 しかし、共通の仕事環境に関する問題意識を持って議論を行うほどに一般的に定着した状況なのかと問われると、“Precarious Labor”の前段階なのかもしれないと個人的に感じてしまった。
もう一つの切り口は人文情報学と「教育」の関係である。“Pedagogy”を題するセッションは全体の中で2回組まれており、9時から17時までという終日のワークショップ“Innovations in Digital Humanities Pedagogy: Local, National, and International Training”も行われた。特に注目すべきと思われる点は、専門的な人文学の基礎を身につけた後に行われる大学院教育のみにとどまらず、学部教育などより早期の基礎的な教育に人文情報学が関わっていくという姿勢がはっきりと見られた点である。実際に高校において人文情報学教育を実施している教員と人文情報学研究者が報告を行う“Digital Humanities in Middle and High School: Case Studies and Pedagogical Approaches”というセッションも行われている。
“Pedagogy”セッションで発表されたTaylor Elyse Millsによる“Next Generation Digital Humanities”が、早期教育への姿勢を示す最も良い例であったといえる。彼女は学部において人文情報学教育を行う際の障壁を認めながらも、次世代の人文情報学を担うであろう学生に対する投資(Invest)としての重要性を主張している。学部教育は、学際的なコラボレーションの経験を得るだけでなく、コラボレーションにおける自身の役割の明確化や、個人研究の重要性への理解へとつながるという。さらに、“Digital Humanities in Middle and High School”セッションで、より基礎的な教育においても同様の可能性が拓かれていた。 人文情報学教育によって、個別の技術や知識の習得以上に、知識と技術両方との付き合い方を身につけられることが述べられていた。(前述した“Open Directory of Miracle Workers”の)Alexander Gilもこのセッションで発表を行ったのだが、彼の“Designing Digital Humanities Pedagogy Infrastructures for Teachers”によれば、生徒のみならず教師にとっても大きな効果を持つものになる可能性も持っている。
人文情報学は何かしらの専門分野を持った上で、その専門分野にどのようなプラスを与えるかを考えて学ぶべきだという考えを持っていた執筆者にとって、DH2018の教育を巡る議論は大きな衝撃であった。専門知識習得と並行して、またはそれに先立って知識や技術へのアプローチを学ぶ段階で人文情報学を学ぶことは確かに有用であろう。何よりも学生への投資として教育を行い未来の研究者を育てるという観点は、人文情報学の発展のために欠くべからざる視点である。
最後に、すでにTwitterなどで情報が流れているが、この会議中にDH2021の東京開催が決定した。未来に対する投資も含め、3年後に向けてさらに日本の人文情報学を盛り上げて行きたい。
さらに余談ながら、この夏開催のJADH2018(https://conf2018.jadh.org/)は執筆者の所属機関がCo-organizerを務める。ぜひご参加いただきたい。
巻頭言で言及される「コンテクスト」は、過去の資料、言説、人の活動の痕跡等から何かを編み出そうとする人文学の営みにおいて、 その編み目に戻ってそれを問い直し、皆に見えるようにすることで、さらに新しい何かを編み出すための基礎になるものだろう。 情報工学の立場からそこに関心を持っていただけるのはとてもありがたいことである。
イベントレポートで紹介されているDH2018は、デジタル・ヒューマニティーズの国際学会連合による最大の年次学術大会である。人文学の有りようの違いがデジタル・ヒューマニティーズに端的に表れてくるところもこの国際学会の大変面白いところである。2019年はユトレヒトで開催され、 発表申し込み締切りは例年通りであれば10月末である。そろそろデジタル・ヒューマニティーズの国際学会でも 発表してみようと思っている方はぜひ挑戦されたい。
また、同じくイベントレポートで紹介されている日本デジタル・ヒューマニティーズ学会の年次国際学術大会JADH2018 は、今回はTEIカンファレンスと共催であり、TEIの様々な活用例やワークショップなども開催され、 ガイドライン策定の会議も一部オープンにされる。欧米以外で開催されるのは30年の歴史のなかで初めての ことであり、世界中からTEIのスペシャリストが集結する非常に貴重な機会である。 人文学のデジタル資料の構造的記述や効果的な共有手法に関心をお持ちの方はぜひご参加されたい。
(永崎研宣)