◇《巻頭言》
「人文学を『分かる』」
(美馬秀樹:東京大学工学系研究科/知の構造化センター)
「分かる」とはどういうことか?語源としては「分ける」と同じとのことである。
つまり、「分ける」(分類する)ことが、「分かる」ことにつながる。通常、分類
するためには、特徴の抽出と比較(類を見つける)、加えて、抽象化(同類のグルー
プに対する命名)の過程が必須となる。
古典的な動物分類は、その形態を特徴としたもので、例えば、ほ乳類は毛が生え
ている、鳥類は翼を持つなど、生物の表現系の比較により分類が行われてきた。言
わば、アナログな情報から、生物を「分かろう」としたわけである。曖昧さを含む
がゆえに、コウモリのような毛の生えた翼のある動物の分類を決めようとすると破
綻を来す。
一方、現在の分子生物学(分子系統学)においては遺伝子の比較から、ほぼ決定
的にその分類を行うことが可能となっている。つまり、DNAの配列という、デジタル
な情報により個々の生物の特徴を捉えるのである。これにより、マンモスが、従来
考えられていたアフリカ象の類よりもアジア象の類に近いと決定されたのは有名な
話である。最近では、数万円で個人のDNA分析を行うサービスも出現しており、唾液
さえ送付すれば2ヶ月程度で自分のDNA配列の情報を得ることができる。倫理的には
問題があるが、病気の発現の可能性のあるグループ等、膨大で多様な人の特徴に対
して、その分類を短時間に決定することができる。
では、人文学はと言うと、通常の人文学では多くが実験による実証が難しいため、
その中心が文献の読み込み、つまり、表現系からその本質を推することにある。し
かしながら、個人が、網羅的に関連する領域全ての文献を読み込むことは不可能に
近いために、その理解には主観が入る余地がある。これは、従来の動物分類同様ア
ナログに近い。他方、現在では、近年のコンピュータ科学の発展により、大量のテ
キストを短時間で分析し、特徴を比較することが可能となっている[1][2]。こ
れは、生物におけるDNAと同様、膨大な論文や書籍を短時間で分類可能なことを示し
ている。さらには、自然言語処理の高度化により、言葉の深い理解を自動で行うこ
とも実用の視野に入ってきた[3]。まさしくコンピュータを利用することで、「広
く」、「深く」、人文学を分かることができる状況にあると言える。
注目すべきは、このようなデジタル化とICTを駆使することで、既存の全ての関連
文献を一気に読み込むことも原理的には可能であることだ。現に国立国会図書館で
は、近代デジタルライブラリーとして、既に30万件以上の文献がデジタル公開[4]
され、一部は全文テキスト化の実験[5]をしている。人の限界を超えて文献を読み
込むことは、人のみでは発見できなかった分類を、新たに発見できる可能性がある
ことを示している[6][7]。つまり、人以上に人文学を「分かる」可能性がある
のだ。これは、もちろん、新たな科学の領域へとつながる。抽象化の過程までをコ
ンピュータ処理のみで行うには、まだまだ時間がかかるであろうから、人が直感的
には理解できない分類となる可能性もあるが、人が「分かる」ために、このような
デジタル化による支援をいかに介するかに、当面の研究としての重要性がある。
東京大学知の構造化センターでは、上記のような人文学に係る知の構造化を目指
し、文化的、公共的知識資源のデジタル化、高度な利活用技術の確立を目標とした、
文理融合による文化的価値創出の研究を推進している[8]。そこでのパイロットプ
ロジェクトである岩波書店『思想』の構造化プロジェクト[9][10]では、1921年
に創刊された岩波書店『思想』90年分(約1000号、約8600論文、約16万ページ)を
対象とし、電子化・構造化を行うことで、
a)『思想』という知の集積、分析により20世紀日本の哲学・思想史を明らかにする
こと
b)分析結果の学部・大学院教育での活用の方法論構築を進めること、
及び
c)歴史的文献テキストの電子化に関する方法論を確立すること、
を目的とした研究を進めている。最新の研究成果では、高度なOCR技術と文献構造化
技術、及び最新の分析技術の統合により、家庭用のパソコンで、90年に及ぶ論文を2
週間ほどで「読み込む」ことが可能となっている。MIMAサーチ[11][12]による
構造化、可視化を駆使することで、一世紀に渡る膨大な著書や著者の自動分類によ
り新たな『思想』の理解が、日々、進められている。
[1]Hideki Mima, Sophia Ananiadou, An application and evaluation of the
C/NC-value approach for the automatic term recognition of multi-word units
in Japanese, Int. J. on Terminology 6/2, pp. 175-194, 2001.
[2]Hideki Mima, Sophia Ananiadou, Katsumori Matsushima, Terminology-based
Knowledge Mining for New Knowledge Discovery, ACM Transactions on Asian
Language Information Processing (TALIP), Vol.5 (1), pp. 74-88, March 2006.
[3]Sumire Uematsuy, Takuya Matsuzakiz, Hiroki Hanaokay, Yusuke Miyaoz,
Hideki Mima, “Integrating Multiple Dependency Corpora for Inducing
Wide-coverage Japanese CCG Resources”, In Proceedings of The 51st Annual
Meeting of the Association for Computational Linguistics(ACL 2013),
National Palace of Culture, Sofia, Bulgaria, 2013.
[4]国立国会図書館近代デジタルライブラリー
http://kindai.ndl.go.jp/ja/aboutKDL.html#aboutKDL1_1
[5]国立国会図書館全文テキスト化実証実験
http://www.ndl.go.jp/jp/aboutus/digitization_fulltextreport.html
[6]美馬秀樹,“知の構造化による工学教育の可視化・構造化と教育社会学への適
用”,日本教育社会学会第64回大会 課題研究II「教育社会学教育のあり方を問う」
,2012.
[7]中村雄祐,鈴木親彦,“文化資源学の射程-人文情報学のアプローチによる分
析”, http://www.l.u-tokyo.ac.jp/CR/acr/kenkyukai/kenkyukai24.html
[8]東京大学 知の構造化センター
http://www.cks.u-tokyo.ac.jp/
[9]美馬秀樹,丹治信,増田勝也,太田晋,“近代文献のデジタルアーカイブ化と
テキストマイニング―岩波書店「思想」を題材に”,情報処理学会第95回 人文科学
とコンピュータ研究会発表会,2012年8月.
[10]「思想」の構造化プロジェクト
http://www.cks.u-tokyo.ac.jp/p1.html
[11]東京大学工学部・工学系研究科シラバス構造化システム(MIMAサーチ)
http://mimasearch.t.u-tokyo.ac.jp/
[12] 東京大学授業カタログ
http://catalog.he.u-tokyo.ac.jp/
執筆者プロフィール
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
美馬秀樹(みま・ひでき) 徳島大学工学研究科システム工学専攻修了。博士(工学
)。(株)ジャストシステム研究員、ATR音声翻訳通信研究所 研究員、英国マンチ
ェスターメトロポリタン大学講師、東京大学大学院理学系研究員、同工学系助手を
経て同工学系特任准教授。IPA未踏ソフトウェア天才プログラマ認定、The
international Daiwa Adrian
Copyright(C)MIMA, Hideki 2014- All Rights Reserved.
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄