DHM 062 【前編】

dhmadmin が 2016/11/09(水) - 15:53 に投稿

2011-08-27創刊　　　　　　　　　　　　　　　　　　　　　　　ISSN 2189-1621

人文情報学月報
￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣Digital Humanities Monthly

　　　　　　　　　　　　　2016-09-30発行　No.062　第62号【前編】 646部発行

＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿
　◇　目次　◇
￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣

【前編】
◇《巻頭言》「日本語テキストの計量分析の現状と課題」
　（上阪彩香：同志社大学）

◇《連載》「Digital Japanese Studies寸見」第18回
「ビジュアライゼーションとデータ：「近代書物流通マップ」に寄せて」
　（岡田一祐：東京外国語大学アジア・アフリカ言語文化研究所）

【後編】
◇《特別寄稿》国際的な画像共有のための枠組みIIIFについて
　（永崎研宣：人文情報学研究所）

◇人文情報学イベントカレンダー

◇イベントレポート（1）
第一回国際ワークショップ：日本語テクストのモデルとTEI開催報告
　（永崎研宣：人文情報学研究所）

◇イベントレポート（2）
日本デジタル・ヒューマニティーズ学会2016年次国際学術大会（JADH2016）
参加報告
　（永崎研宣：人文情報学研究所）

◇編集後記

◇奥付

￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣
【人文情報学／Digital Humanitiesに関する様々な話題をお届けします。】
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣
◇《巻頭言》「日本語テキストの計量分析の現状と課題」
　（上阪彩香：同志社大学）

◆テキストの計量分析について
　テキストの研究に統計的手法を用いる試みは19世紀に欧米で始まりました。数学
者Augustes de Morgan（1882）は、新約聖書のthe Epistle to the Hebrews（ヘブ
ライ人への手紙）が聖パウロの書いたものであるのかを判定するために聖パウロの
手紙とヘブライ人への手紙に用いられている単語の長さの平均値を比較検討するこ
とを提案しました［1］。この考えに触発されたT.C. Mendenhallは、1887年、
Science誌に単語の長さの分布に関する研究を発表し［2］、1901年にこの手法を
William Shakespeare（1564～1616）作品の著者の検討に適応しました［3］。
MendenhallはShakespeare作とされる戯曲が哲学者のFrancis Bacon（1561～1626）
の著作ではないかという疑問について、単語の長さの分布を用いて検討し、2人が用
いた単語の長さの分布のモード（最頻値）が異なることから、Shakespeare作品の著
者はBaconでないと結論付けました。Mendenhallの研究は、文章に統計的手法を用い
た初期の研究として広く知られています。

　対して、日本語のテキストに関する計量的研究は、単語認識の困難さ等が原因で
欧米に遅れをとり、20世紀にはじまりました。

　哲学者の梅原（1985）は、「文体は思想の表現である。m なる文体をAの人が使う
ことは、その人間の内的思想がm なる文体によって表されることを意味している。
したがって、文体を統計的手法によって研究することにより、その文章m の著者、
およびそのできた年代をほぼ決定することができる。」［4］と、文章の統計分析の
重要性を指摘しました。また国語学者の波多野（1935）は、「作家が如何なる表現
手段を多く使用するかわからないとき、我々は統計を使用するものである。作家は
多く反無意識に自己の言語を駆使している。従って、どんな言語手段によって自分
がある表現価値を創造し得たかは作家に聞いてもわからない場合がある。このよう
なときに手掛かりになるものが統計的調査なのである。」［5］と、文章の統計分析
の有用性について述べています。一見、文章研究と関わりのないように思われる統
計分析ですが、統計分析を用いることで著者の同定や成立年の推定などが可能とな
ることが指摘されています。

　日本語における計量的な初期の研究として、波多野（1935）の『文章心理学』が
挙げられます。波多野は谷崎潤一郎（1886～1965）と志賀直哉（1883～1971）の文
章を文の長さ、句読点、品詞の頻度等を項目ごとに比較検討し［6］、志賀の文章を
体言型の文章、谷崎の文章を用言型の文章であるとしました。大野（1956）は『万
葉集』、『土佐日記』、『竹取物語』、『枕草子』、『源氏物語』、『紫式部日記』、
『讃岐典侍日記』、『方丈記』、『徒然草』の9作品を調査し、動詞、形容詞、形容
動詞の構成比が、名詞の構成比の大小と逆順で並ぶ傾向があることを示し、水谷
（1965）はこの大野の語彙法則を定式化しました［7］。日本語のテキストの著者問
題に統計分析を試みた研究の嚆矢としては、安本（1957）が知られています。安本
は、紫式部が著したとされる『源氏物語』の「宇治十帖」の作者が源氏物語の他の
44帖の作者と同一人物であるかを、名詞、用言、助詞、助動詞、品詞数を数え、統
計的仮説検定法を用いて検討し、宇治十帖は紫式部の作品ではないと結論づけまし
た［8］。

　初期の研究では、単語あたりの文字数や文の長さに着目するというシンプルな方
法が使用されていますが、現在では助詞や単語の組み合わせ（bigram）の出現率な
ど多様な情報を用いた研究がすすめられています。この背景には、情報処理技術の
急速な発展があります。

◆情報処理技術の発達
　近年、情報処理技術の発展を受け、電子テキストを簡易に操作するためのツール
の開発が急速に進められており、日本語の現代文を対象とした研究は比較的容易に
行えるようになりました。青空文庫（ http://www.aozora.gr.jp/ ）には、著作権
の消滅した作品が無料で公開されており、テキスト形式で入手することが可能です。

　日本語は分かち書きされていないため、文章の計量分析を行う際には、単語の認
定作業が必要ですが、文章を自動的に単語に分割し、品詞情報を付与するツールも
公開されています。形態素解析を行うソフトウェアとしてはJUMAN、Mecab、ChaSen
が広く知られています。

　日本語は時代によって変遷していますが、この変遷に合わせた形態素解析を行う
ための辞書の開発も進められています。Web茶まめ（ http://chamame.ninjal.ac.jp/ ）
では、Unidic辞書を使用したMecabでの形態素解析をWEB環境で行うことが可能です。
現代語、近代文語、中世文語等の幅広い時代の文章に対応しています。

　分析ツールも開発されています。例えば、日本語のテキストに対応しているテキ
スト分析ツールとして、
（1）MTMiner（ http://mjin.doshisha.ac.jp/MTMineR/ ）
（2）KH Coder（ http://khc.sourceforge.net/ ）
（3）CasualConc（ https://sites.google.com/site/casualconcj/ ）
が挙げられます。これらはテキストマイニングを行うためのフリーソフトウェアで、
テキストに出現する単語の集計や統計分析を行うことが可能です。GUIで実装されて
いるので、操作が容易なことも特徴として挙げられます。

　ほかにも、簡易的なテキスト解析ツールとしてVoyant Tools（ https://voyant-tools.org/
）が挙げられます。Voyant ToolsはWeb環境で操作でき、テキストを入力することで、
簡単な解析と視覚化を行うことが可能です。

　これらのツールを使用することで、以前に増して多くの人々がテキストに統計分
析を用いた検討を行う環境が整いつつあるといえるでしょう。

◆日本語の古典文を対象とした研究
　しかしながら、日本語の古典文に統計分析を適用した研究事例は多いとはいえな
いのが現状です。この原因は何でしょうか。筆者は近世文学作品、特に井原西鶴の
浮世草子を対象とした研究を行っていますが、実際に研究を進めるうえで難しいと
感じるのは

（1）電子テキスト化された近世文学作品の資料が少ない
（2）浮世草子作品に対応した形態素解析辞書が存在しない

の二点です。近世文学作品を対象とした研究をはじめようと考えた場合、テキスト
の電子化からはじめなければなりませんし、電子化しても、浮世草子に対応した形
態素辞書は公開されていないので、形態素解析を人手で行わなければなりません。
このような状況では、問題解明までかなりの時間を要することが予想されます。

◆学際的研究の重要性
　このような問題を打破するためには、人文情報学の研究者と国文学の研究者が協
同する体制、学際的研究が重要であると考えています。作業量を考慮すると、ひと
りの研究者が行うよりも、複数の研究者が協同して研究を進めることが現実的でし
ょう。問題点として挙げた（2）に関して、筆者は現在使用している辞書をベースと
した浮世草子に対応した形態素辞書構築の準備を、国文学研究者と共同で進めてい
ます。

　現存している文化資源（テキスト）に、文章の計量分析という新たな切り口を活
用することで、文章の意味内容や書誌情報を用いた研究では得られなかった知見が
得られる可能性があります。しかしながら、村上（2016）は、「客観的なデータを
用いた分析というだけで、分析結果を過大に評価することは慎まなければならない。
」と述べています［9］。これは、文章の計量分析で得られた結果は、計量可能な側
面を数値化し、分析を行っているため、物事の一面のみを切り取っている可能性が
あるからです。

　これまで、国文学研究の領域で積み重ねられてきた、意味内容、書誌情報等から
得られた知見と計量的研究で新たに得られる知見の積み重ね、もしくは、計量的研
究で得られた知見を国文学的観点から再検討されることによって、真実に近づくこ
とができるでしょう。このような意味においても学際的な研究が今後、大きな力と
なっていくと考えています。

［1］De Morgan, S.E. (1882). Memoir of Augustus De Morgan by his wife
Sophia Elizabeth De Morgan; with selections from his letters. London :
Longmans, Green.
［2］Mendenhall, T.C.(1887). Science.IX(214). pp.237～246. The
Characteristic Curves of Composition.
［3]Mendenhall, T.C. (1901). Popular Science Monthly. 60(7). pp.97～105. A
mechanical Solution of a Literary problem. New York: The Science press.
［4］梅原猛. (1985). 『神々の流竄』.　集英社文庫.
［5］波多野完治.(1935). 『文章心理学』. 三省堂.
［6］大野晋.(1956).『国文学』24.「基本語彙に関する二三の研究－日本の古典文
　学作品に於ける－」. pp.34～46.日本語学会.
［7］水谷静夫.(1965).『計量国語学』35.「大野の語彙法則について」. pp.1～
　13.
［8］安本美典.(1957).『文学・語学』. 「宇治十帖の作者－文章心理学による作者
　推定－」. pp.27～33. 三省堂書店.
［9］村上征勝・金明哲・土山玄・上阪彩香.(2016). 『計量文献学の射程』.勉誠出
　版株式会社.

執筆者プロフィール
￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣
上阪彩香（うえさか・あやか）同志社大学大学院文化情報学研究科博士課程（後期）
を2016年3月に修了。博士（文化情報学）。日本学術振興会特別研究員DC2を経て、
2016年4月より同志社大学研究開発推進機構特別任用助教（任期は2019年3月まで）。
浮世草子作品を中心としたテキストデータを構築し、統計的手法により、著者問題
の解明等の研究をしている。所属学会は、情報処理学会、Alliance of Digital
Humanities、西鶴研究会など。

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣
◇《連載》「Digital Japanese Studies寸見」第18回
「ビジュアライゼーションとデータ：「近代書物流通マップ」に寄せて」
　（岡田一祐：東京外国語大学アジア・アフリカ言語文化研究所）

　2016年8月1日、国文学研究資料館の青田寿美氏らによって「近代書物流通マップ」
（ベータ版）が公開された［1］。これは、国文学研究資料館の「近代書誌・近代画
像データベース」［2］に掲載されたもののうち、「明治17～21年発行の書籍747点」
について発行者・印刷者・売捌所の情報をあらたに採録し、Google Map上にプロッ
トしたものである。データの総数は3,552件という。

　これは、明治期日本の出版の実態をビジュアライズする試みということになるの
だろう。ビジュアライゼーションは、データの特徴をあきらかにするものとして、
人文情報学において好まれるアプローチのひとつであるが、デジタル日本研究にお
いては、まだ流行にもなっていないように思われる。シカゴ大学のHoyt Long氏は、
人文情報学における取り組み方として、「1．デジタルコレクションを作成・維持す
る道の模索、2．小規模・大規模データ分析の手法の開発、3．データ探索のための
人文的データのビジュアライゼーション」（p.2）を挙げ、デジタル日本研究におい
てはまだ1．が多く、2．と3．は徐々に始まってきているとしている［3］。また、
一般に書物の流通は、知の形成を捉えるためにも重要であるにもかかわらず、基礎
的なデータも揃っていない。また、書籍の現物を生産する印刷者や、出版者と読者
をつなぐ売捌所（いまでいう取次）の役割は、重要であったことは疑いがないが、
質的には捉えられることはあっても、量的に捉える試みがどれだけあっただろうか。
それだけに、この試みはデジタルの強みを活かしつつ、人文学的にも高い貢献をな
すものであるだろう。

　冒頭に述べたように、本マップは、Google MapのMy Maps機能を利用しており、レ
イヤー機能を使って多面的な見せ方を工夫している。レイヤーは、作成可能である
最大の10枚まで活用し、明治17～19年と20～21年の書籍に基づくレイヤー、売捌所
の多い（50か所以上ある）書籍のレイヤー、印刷所・発行所それぞれのレイヤーが
ある。デフォルトでは明治17～19年と20～21年のレイヤーが表示されるようになっ
ている。売捌所の多い書籍としては、『檜垣山名誉碑文』（1884、東京：法木徳兵
衛）・『三英双美／政海の情波第一巻』（1886、東京：丸善書店、博聞社）・『現
今の政事社会』（1887、大阪：朧曦堂）・『世界進歩／第二十世紀』（1887、大阪：
岡島宝文館）・『世界進歩／第二十世紀第三篇』（1888、大阪：岡島宝文館、鶴声
社）・『滑稽／変挺演説会』（1888、東京：鶴声社）の6冊から地図が作られている。
表示するレイヤーは複数選択可能なので、重複を見たり、あるいは表示を外して重
ならない部分を見たりすることも可能である。選ばれた書籍は、一点一点売捌所が
異っておもしろい。最後のレイヤーは、くわしい説明を見いだせなかったが、採録
した発行者・印刷者のなかでとりわけ多かったものを特別な色で、それ以外は同色
のラベルでまとめたもののようである。よくよく工夫されたものであるといえよう。

　さまざまな可能性を持つデータだけに、利用しやすい形で公開されていないのは
気掛かりである。そのような予定はあるのだろうか。Google My Mapsはたしかに優
れものであり、本マップでもその可能性を最大限引き出しているように思われるが、
それだけに、このままではこれ以上の展開が難しい。ビジュアライゼーションは、
データを目で捉えやすくしてあらたな発見をもたらすことにその意義がある（その
点でいえば、うまく表を作るのもビジュアライゼーションと言ってしまってもよい
のかもしれないが、脱線は避ける）。そうであるならば、プロットされたデータの
絞り込み（年代、業種、地域、レイヤー間の重なりその他）をこまかに可能にする
ことへの要望、すなわち、青田氏らのデータから自分で地図を再編する慾というも
のも出てくるのではなかろうかと思うが、Google My Mapsでは叶えたくてもそのよ
うな要望には応えにくい。たとえば、個々の売捌所の個性は、どのような発行者の
どのような内容の書籍を扱っているかによってからしか明らかにならないことも多
かろうが、発行者と売捌所（印刷者でもよいが）を限った地図を見たいと思っても、
現状ではできないのである。Google My Mapsにデータをプロットするのに作られた
もともとのデータベースを利用する道を開いていただければ、腕に覚えのあるひと
であれば勝手に地図を作ってしまうだろうし、勝手な言い分とは承知しているが、
それもまた人文情報学的展開なのではなかろうか。

　また、青田氏らの試みはたいへんな労作でありかつ先進的であるが、このような
基本的なデータは、一研究グループが維持していくよりは、たとえば国文研の「近
代書誌・近代画像データベース」という大元において体系的に提供されるようにな
ると、データの規模もあがって、ビジュアライゼーションなりデータ分析なりの人
文情報学的手法から実像に迫っていく研究に深みが出てくるのではなかろうか。冒
頭に述べたLong氏の議論に述べられた枠組みで、デジタル日本研究において「デジ
タルコレクションを作成・維持する道の模索」が多いというのは、ゆえなきことで
はなく、これがそのようなコレクションを持つ機関がデータを作成する途上にある
ということであり、また「2．と3．は徐々に始まってきている」というのは、それ
もまだ量的にデジタルの強みを活かしたものとするにはそこまで十分でない可能性
を示唆する（研究者の側の技術力の問題もすくなからぬ影響を及ぼしているのだろ
うが、ここでは問わないこととする）。そうなのだとすると、これは、コレクショ
ンを保持する、あるいはデジタル日本研究を推進する機関における今後の取り組み
として、どうすればデータ分析やビジュアライゼーションをしやすいデータを作る
ことができるかという課題があるのを示しているのだと思う。

［1］ https://www.google.com/maps/d/viewer?mid=16pCB6dIC_4fgtPwds7Wuduf2ed4
　情報に関しては、
　 https://twitter.com/NIJL_collectors/status/759959454968258560
　 https://twitter.com/NIJL_collectors/status/759959910763208704
　 https://twitter.com/NIJL_collectors/status/759968192693362688
　ただし、執筆時において「案内」にはアクセスできなかったので、詳細について
　は、青田氏のTweetにもっぱら拠っており、不正確な点が含まれることを諒とされ
　たい。
［2］ http://base1.nijl.ac.jp/~kindai/
［3］ Hoyt Long. Digital Humanities in Japanese Studies、 Paper presented
　at AAS / CEAL 2015, Chicago, Mar 2015 http://www.eastasianlib.org/cjm/meetings/2015/cjm2015_digitalHumanities…

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

　続きは【後編】をご覧ください。

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

　配信の解除・送信先の変更は、
　　　　http://www.mag2.com/m/0001316391.html
　　　　　　　　　　　　　　　　　　　　　　　　からどうぞ。

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

◆人文情報学月報編集室では、国内外を問わず各分野からの情報提供をお待ちして
います。
情報提供は人文情報学編集グループまで...
　　　　　　 DigitalHumanitiesMonthly[&]googlegroups.com
　　　　　　　　　　　　　　　　　　[&]を@に置き換えてください。

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
人文情報学月報 [DHM062]【前編】　2016年09月30日（月刊）
【発行者】"人文情報学月報"編集室
【編集者】人文情報学研究所＆ACADEMIC RESOURCE GUIDE（ARG）
【 ISSN 】2189-1621
【E-mail】DigitalHumanitiesMonthly[&]googlegroups.com
　　　　　　　　　　　　　　　　　[&]を@に置き換えてください。
【サイト】 http://www.dhii.jp/

コメントを投稿するにはログインしてください

ISSN 2189-1621 Published by: