ISSN 2189-1621

 

現在地

DHM 042 【前編】

2011-08-27創刊                       ISSN 2189-1621

人文情報学月報
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄Digital Humanities Monthly

             2015-01-28発行 No.042 第42号【前編】 544部発行

_____________________________________
 ◇ 目次 ◇
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

【前編】
◇《巻頭言》「分類と階層化」
 (松森智彦:同志社大学 高等研究教育機構・文化情報学部 特別任用助教)

◇《連載》「Digital Humanities/Digital Historyの動向
      ~2014年12月中旬から2015年1月中旬まで~」
 (菊池信彦:国立国会図書館関西館)

【後編】
◇《特集》「デジタル学術資料の現況から」第10回
CADAL(China Academic Digital Associative Library)利用レポート
 (王一凡:東京大学大学院人文社会系研究科修士課程)

◇人文情報学イベントカレンダー

◇イベントレポート
国際シンポジウム「デジタル文化資源の情報基盤を目指して:Europeanaと国立国会
図書館サーチ」
 (永崎研宣:人文情報学研究所)

◇編集後記

◇奥付

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
【人文情報学/Digital Humanitiesに関する様々な話題をお届けします。】
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
◇《巻頭言》「分類と階層化」
 (松森智彦:同志社大学 高等研究教育機構・文化情報学部 特別任用助教)

 分類とは、対象を理解するために行う最も基礎的な操作の一つである。しかし、
いざ分類を行ったあとに途方に暮れることがある。「分けたけど、どうすれば良い
のか」。最初から分類そのものをゴールにしておけば、何の問題も起きない。しか
し私達は欲張りなので、分類だけでは満足しない。対象の理解をゴールに設定し、
しばしば分類をその一過程とする。そうすると、分けたあとの処理が必要になる。
どうしたら、対象をより理解できるのか。この部分は分類とは別の操作であって、
「総合」や「関係」など、色々な名前で呼ばれている。正直、とても難しい処理で
ある。分類と対象の(本当の)理解との間には、深いギャップがあるのだ。

 分類のほかに、対象を理解するための方法として、階層化が挙げられる。階層化
とは、類似の対象を集めて共通部分を取り出し、グループとしてまとめる操作であ
る。分類と異なるのは、階層化が入れ子を認めている点である。対象またグループ
を入れ子として、階層構造を作ることができる。コンピュータのディレクトリシス
テムが典型的な階層構造の例である。ユーザーはいくつかのファイルをまとめてフ
ォルダAに入れる。ファイル(1)、(2)としよう。そしてそのフォルダを別のフォ
ルダBに入れる。さらにフォルダAと同じ階層に、ファイル(3)を入れることができ
る(下図)。このように、対象およびそのグループを、入れ子にしてまとめること
ができる。これを階層構造という。そして階層構造を作ることを、階層化という。

フォルダB┳フォルダA┳ファイル(1)
     ┃     ┗ファイル(2)
     ┗ファイル(3)

 本稿では、統計解析ソフトウェアのRを用いて、上記の分類と階層化について考え
てみる。対象とするデータは、Rの基本的なサンプルデータであるパッケージ
datasetsに含まれているmtcarsを用いる。これは1974年のMotor Trend US magazine
に掲載されていた1973、1974年モデルの自動車のデータである。自動車のデザイン
と性能について11の属性を持つ32件のデータセットである。11の属性よりmpg(燃費)
、disp(排気量)、hp(馬力)、drat(リアアクスル比)、wt(重量)、qsec(ゼ
ロヨン)の6属性を取り出し、これを利用する[1]。また話を単純にするために、
対象とする自動車の数を絞り込む。ゼロヨン、つまり1/4 mileのタイムが17秒未満
の、加速力のある車種を対象とする。Porsche 914-2、Lotus Europa、Mazda RX4、
Ferrari Dino、Ford Pantera L、Maserati Bora、Camaro Z28、Duster 360、Dodge
Challengerの9種である。それぞれの車種名の2番目の単語の頭文字を取り、省略形
とする。すなわち先より9、E、R、D、P、B、Z、3、Cである。

  mpg disp hp drat wt qsec
(9) Porsche 914-2 26 120.3 91 4.43 2.14 16.7
(E) Lotus Europa 30.4 95.1 113 3.77 1.513 16.9
(R) Mazda RX4 21 160 110 3.9 2.62 16.46
(D) Ferrari Dino 19.7 145 175 3.62 2.77 15.5
(P) Ford Pantera L 15.8 351 264 4.22 3.17 14.5
(B) Maserati Bora 15 301 335 3.54 3.57 14.6
(Z) Camaro Z28 13.3 350 245 3.73 3.84 15.41
(3) Duster 360 14.3 360 245 3.21 3.57 15.84
(C) Dodge Challenger 15.5 318 150 2.76 3.52 16.87

 それでは早速、代表的分類方法であるクラスター分析[2]を行う。自動車の6つ
の属性は単位など性質の異なる数量であるため、標準化を行う[3]。距離は一般的
なユークリッド距離を用い、クラスター併合の方法は広く使われているWard法を用
いる。結果を下図に示す[4]。

9┓
 ┣━━┓
E┛  ┃
R┓  ┣━┓
 ┣━━┛ ┃
D┛    ┃
P┓    ┃
 ┣━┓  ┃
B┛ ┃  ┃
Z┓ ┣━┓┃
 ┣━┛ ┃┛
3┛   ┃
C━━━━┛

 テキストでは次のように表現することができる。(((9E)(RD))(((PB)
(Z3))C))。すなわち、9E、RD、PB、Z3の4つの群がまとまり、さらに先より2群
と後の2群がグループとなる。そして後者のグループがCとまとまる。9ERDのグルー
プは排気量、馬力が小さく、重量も小さいことが特徴である。PBZ3は排気量、馬力
が大きく、重量も大きいことが特徴である。ゼロヨンは後者のほうが速い。Cはリア
アクスル比が最小で、独立した群となっている。これが、クラスター分析より得ら
れる結果である。

 次に、階層化を行ってみよう。生物系統学において広く利用されてきた
Neighbor-Joining(NJ)法を用いる[5]。距離行列はクラスター分析と同じものを
用いる。すなわち、入力は同一である。またクラスター分析の結果で、全体から一
番外れているものはCである。これを外群に指定する[6]。結果を下図に示す。

9┓
 ┣━┓
E┛ ┣━┓
R━━┛ ┣━┓
D━━━━┛ ┃
       ┃
P┓     ┣━┓
 ┣━┓   ┃ ┃
B┛ ┣━┓ ┃ ┣━ root
Z━━┛ ┣━┛ ┃
3━━━━┛   ┃
C━━━━━━━━┛

 テキストでは次のように表現することができる。(((((9E)R)D)(((PB)
Z)3))C)。すなわち、9EとPBの2つの群がまとまり、そして前者とR、後者とZが
まとまる。次に前者とD、後者と3がまとまり、さらにこの2者が一つになる。最後に
Cが加わる。クラスター分析との相違は、R、D、Z、3の位置である。9ERDは軽量ロー
パワー型で、9ERはDに比べ馬力が小さく、9EはRDに比べ排気量が小さい。PBZ3は重
量ハイパワー型で、PBZは3に比べゼロヨンが速く、PBはさらに速い。ほかPBZは3に
比べてリアアクスル比が大きい。またPBは馬力が大きい。外群に指定したCは、燃費、
排気量、重量がPBZ3に近く、馬力、ゼロヨンは9ERDに近い。両群の特徴をあわせ持
ち、リアアクスル比が最小という個性も持っている。これらがNJ法により得られる
結果である。

 同じ距離行列をもとにしているのに、なぜこのような違いが出るのであろうか。
それは、クラスター分析が分類、分けることを目的としているのに対し、系統学的
方法であるNJ法は、樹長を最小化する階層化を目的としているためである [7]。
いうなれば、前者は近いもの同士を手当たり次第くっつけて階層化、のち分類して
いるのに対し、後者は入力の距離行列を最も良く表現するツリーを作り、階層化を
行っているのである。目的が異なるため、両者の結果を単純に比較して、良し悪し
を論じることはできない。しかし複数の手法を併用し、多角的視点から対象の理解
を試みる発見的アプローチは、建設的な研究態度である。分類のあと、先に進まな
い。そんな時は、系統学的方法による階層化も試すと良いかもしれない。

分析に用いたRのコード(R version 2.15.3)
(c<-mtcars[mtcars[,7]<17, c(1, 3:7)])
d<-dist(scale(c))
plot(hclust(d^2, method="ward"), hang=-1)
library(ape)
plot(root(nj(d), outgroup=3))
# FastMEの場合は以下を実行。
# f<-fastme.bal(d)
# plot(root(f, outgroup=which(f$tip.label==rownames(c)[3])))

参考文献
Gascuel, O. and Steel, M. 2006. Neighbor-Joining Revealed. Mol Biol Evol
23, pp.1997-2000.
Nei Masatoshi・Sudhir Kumar著,大田竜也・竹崎直子訳 2006『分子進化と分子系
統学』培風館
三中信宏 2006『系統樹思考の世界』講談社

[1]残りの属性はカテゴリーデータであるため、除外した。
[2]ここでは、階層的クラスター分析を指す。
[3]すなわち平均が0、標準偏差が1となるように基準化する。個々の値より平均を
  引き(偏差)、標準偏差で割る。
[4]テキストで図を表現しているため、クラスター併合の高さの情報は、図中に含
  めていない。高さについては、Rでデンドログラムを描画し確認して欲しい。
[5]現在はより改良されたFastMEの利用が推奨される。しかし本稿では、広く利用
  され、アルゴリズムが単純なNJ法を例として挙げた。なお本稿の例では、結果
  として得られる両者の樹形は同一である。NJ法とFastMEの関係については
  Gascuel and Steel 2006を参照。
[6]NJ法より得られる結果は無根系統樹である。クラスター分析の結果と比較する
  ために、これを有根系統樹とする。外群の指定が必要であるが、本稿では簡易
  的な方法として、全体から一番外れているものを外群に指定した。
[7]ここでの系統学的方法とは、距離行列をもとにした、最小進化基準によるもの
  である。系統学的方法には、ほかに最節約法や最尤法などがある。

執筆者プロフィール
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
松森智彦(まつもり・ともひこ)同志社大学 高等研究教育機構・文化情報学部 特
別任用助教。博士(文化情報学)。専門は文化情報学・地理情報学・考古学。SEの
職歴(3年)があり、プログラミングが趣味。総合地球環境学研究所研究推進支援員、
日本学術振興会特別研究員を経て現職。現在の研究テーマは近世・近代の物産誌、
遺跡立地論、高性能計算。

Copyright (C) MATSUMORI, Tomohiko 2015- All Rights Reserved.
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
《連載》「Digital Humanities/Digital Historyの動向
      ~2014年12月中旬から2015年1月中旬まで~」
 (菊池信彦:国立国会図書館関西館)

前号に引き続き、2014年12月中旬から2015年1月中旬までのDigital Humanities/
Digital Historyに関する動向をまとめた。

○新聞・ブログ記事
12月17日、Europeanaのブログで、2014年1年間における検索語トップ20が紹介され
た。1位は“Vincent van Gogh”、2位“Mucha”、3位“Hieronymus Bosch”であり、
20位に“Japan”がランクインしている。
http://blog.europeana.eu/2014/12/2014-top-20-searches-on-europeana/
また、1月13日にはフランスでの新聞社銃撃事件に関し、遺憾の意を表明する記事を
公開している。その中では次のようにある。「デジタル化の時代にあっては、我々
博物館・図書館・アーカイブ機関は、表現の自由の持つ力を広め、例えばヴォルテ
ールやロック、バーク、ジョン・スチュワート・ミル等の作品をあらゆる人にオン
ラインで提供しうる特権的な位置を占めている」。
http://blog.europeana.eu/2015/01/freedom-of-expression-the-heart-of-our-...

12月22日、米国議会図書館のブログで、“Unlocking the Imagery of 500 Years
of Books”と題し、Internet Archiveによる過去500年間の図書の挿絵画像のデジタ
ル化公開について、その取り組みを紹介した記事が掲載されている。
http://blogs.loc.gov/digitalpreservation/2014/12/unlocking-the-imagery-o...

12月29日、Slateのブログに“Five of 2014’s Most Compelling Digital History
Exhibits and Archives”という記事が掲載されている。英国図書館の“
Discovering Literature: Romantics and Victorians”や、イェール大学の
Photogrammar等、5つのデジタルヒストリーに関わるプロジェクトが紹介されている。
http://www.slate.com/blogs/the_vault/2014/12/29/historical_documents_onl...

1月5日、ニューヨーク公共図書館のDHラボNYPL Labsのブログで、フリーのオンライ
ンマッピングツールを利用し、地図資料からデジタルマップを作成するチュートリ
アル記事が公開された。
http://www.nypl.org/blog/2015/01/05/web-maps-primer

1月6日、スタンフォード大学のニュースサイトに、同大学のDH教育を紹介する記事
が掲載されている。講義では、人文系と情報学系それぞれの学生を含むグループを
作り、文学研究に関するウェブサイトやアプリ等の企画立案から作成までをさせる
という。記事では、講義で作成された成果物が複数紹介されている。
http://news.stanford.edu/news/2015/january/humanities-cs-class-010515.html

○イベント・出来事
12月18日、一般社団法人日本電子出版協会は、日本の電子出版物の育成と普及を目
的とした「JEPA電子出版アワード」の大賞選考会とジャンル賞表彰式を開催した。
この中で、選考委員特別賞として、国立国会図書館の近代デジタルライブラリーが
選ばれている。
http://info.jepa.or.jp/pr/award2014

1月7日、Digital Public Library of Americaは2017年までの今後3年間の新戦略計
画を発表した。
http://dp.la/info/2015/01/07/whats-ahead-for-dpla-our-new-strategic-plan/
http://current.ndl.go.jp/node/27764

1月8日、情報処理学会と株式会社ドワンゴ、および株式会社ニワンゴは、情報処理
学会の学術コンテンツをドワンゴのniconico(ニコニコ動画など)を活用して配信
することで提携した。日本学術会議協力学術研究団体と動画共有サイト運営企業が
提携するのは初めて。最初の取組として、2015年3月17日(火)~19日(木)に京都
大学で開催される「情報処理学会第77回全国大会」をニコニコ生放送で生中継する
としている。
http://internet.watch.impress.co.jp/docs/news/20150108_682941.html

Digital Humanities Awards 2014のノミネートの受付が1月18日まで行われた。その
後、投票が行われる予定とのこと。
http://dhawards.org/dhawards2014/nominations/nominations-japanese/

○プロジェクト・ツール・リソース
12月9日、株式会社あわえは、各家庭や行政・企業等が保持する古写真を収集してデ
ジタル化する“GOEN”というサービスを開始した。GOENは地域住民に対する行政サ
ービスとして全国の地方自治体への導入を推進する計画であり、第1弾として美波町
(徳島県)での導入が決定している。
http://japan.cnet.com/news/service/35057725/
http://www.awae.co.jp/20141209.html
http://goen.photo/

12月12日、コロンビア大学図書館のDHセンターCenter for Digital Research and
Scholarshipが、同大学のイタリア語学研究科等と共同で、“Digital Dante”をリ
ニューアル公開した。『神曲』を中心に、ダンテに関する研究リソースを提供する
ものというもので、もともと1990年代に作成されていたものであった。
http://cdrs.columbia.edu/cdrsmain/2014/12/center-for-digital-research-an...
http://digitaldante.columbia.edu/

12月17日、スイスのベルンにあるtext & bytesという企業が公開しているiOSアプリ
“e-codices”がver.2.0となった。同アプリは、同名のe-codicesというスイス国内
のデジタル化マニュスクリプトを集めたデジタルアーカイブの資料を閲覧できると
いうもの。
http://e-codices.textandbytes.com/
http://www.textandbytes.com/en
http://www.e-codices.unifr.ch/en

12月17日、St. Edward's UniversityのRebecca Frost Davisらによる、DHをベース
にした人文学教育資料収集プロジェクト“Digital Pedagogy in the Humanities:
Concepts, Models, and Experiments”がスタートした。
https://github.com/curateteaching/digitalpedagogy/blob/master/announceme...
http://acrl.ala.org/dh/2014/12/18/resource-digital-pedagogy-in-the-human...

1月9日、東京糸井重里事務所は、ウェブサイト「ほぼ日刊イトイ新聞」上で吉本隆
明の講演アーカイブの公開を開始した。1週間ごとに、テーマに沿った講演を順次公
開し、最終的には1960年代から2008年までの183講演を提供する予定とのこと。
http://www.47news.jp/CN/201501/CN2015010901001649.html
http://www.1101.com/yoshimoto_voice/index.html

1月15日、全米人文科学基金は、優れた著作でありながら、現在絶版となっている人
文系の書籍を、電子書籍化してオープンアクセスで提供する助成プログラム“
Humanities Open Book”を発表した。
http://www.neh.gov/news/press-release/2015-01-15/humanities-open-book

1月15日、イギリスのInstitute of Historical Researchのブログに、人文系研究者
向けオンライン研修プラットフォームPORTの紹介記事が掲載されている。 PORTはか
つてHistory SPOTという名で、若手歴史研究者向けのトレーニングサイトだったが、
人文系全般を対象にしたものにリニューアルされたとのことである。
http://blog.history.ac.uk/2015/01/welcome-to-port/
http://port.sas.ac.uk/

○学術雑誌・研究書等刊行物
Digital Humanities Now(DHNow)を提供するジョージメイソン大学歴史とニューメ
ディアセンターのプロジェクトPressForwardが、12月18日、“Best Practices in
Curated Publication: A Guide”を公開した。このレポートでは、DHNowの3年間の
成果を基に作成されたもので、灰色文献であるウェブ情報源を共同でキュレーショ
ンし、発信するためのベストプラクティスが論じられている。
http://pressforward.org/best-practices-in-curated-publication-a-guide/
http://pressforward.org/wp-content/uploads/2014/12/BestPracticesPressFor...

12月19日、UNESCOは、研究者と図書館員向けそれぞれに、オープンアクセスの意義
や手続き等を解説したテキストを刊行した。研究者向けのものには、学術コミュニ
ケーション、オープンであること(openness)やOAのコンセプト、知的財産権、研
究評価指標などを取り扱っているとのこと。
http://www.unesco.org/new/en/communication-and-information/resources/new...
http://current.ndl.go.jp/node/27729

12月29日、Journal of Text Encoding Initiativeの最新号である第8号のうち、プ
レビュー版として2本の論文が公開された。TEIカンファレンス2013の報告論文との
こと。
http://www.tei-c.org/News/#2014-12-29-jtei_publishes_the_first_two_artic...
http://jtei.revues.org/1025
また、雑誌Digital Humanities Quarterlyの8(4)も刊行されている。
http://www.digitalhumanities.org/dhq/vol/8/4/index.html

2012年に紙媒体で、そして2013年にオンラインで刊行されたDebates in the
Digital Humanitiesが、今後はミネソタ大学出版局からシリーズ著作物として毎年
刊行される。1月8日にDebates in the Digital Humanitiesのオンライン版ウェブサ
イトで発表されている。また、最初に予定されているDebates in the Digital
Humanities 2015は、Modern Language Association(MLA)2016の開催にあわせて刊
行予定で、その他の同シリーズの論文も投稿が受付中となっている。
http://dhdebates.gc.cuny.edu/news

ギリシア・ローマの碑文をEuropeanaに提供するプロジェクトEAGLE(Europeana
network of Ancient Greek and Latin Epigraphy)が、2014年10月に開催した初の
国際カンファレンスの予稿集を、1月13日に公開した。約30本の古代史・西洋古典に
関わるDHの論文が収録されている。
http://www.eagle-network.eu/eagle-first-international-conference-proceed...

ご挨拶

これまで続けてきた、いわゆる“カレントアウェアネス-R”のようなDHum/DHisの動
向記事は今号で終了となります。これまでご愛読いただきまして、誠にありがとう
ございました。

次号からは、筆者の専門領域である西洋史学に重心を置きながら、それに密接に関
わるようなDHum/DHisの動向について、これまでよりも掘り下げた形で記事を連載し
て参ります。これからもご愛顧のほど、どうぞよろしくお願いいたします。

Copyright(C)KIKUCHI, Nobuhiko 2013- All Rights Reserved.
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

 続きは【後編】をご覧ください。

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

 配信の解除・送信先の変更は、
    http://www.mag2.com/m/0001316391.html
                        からどうぞ。

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

◆人文情報学月報編集室では、国内外を問わず各分野からの情報提供をお待ちして
います。
情報提供は人文情報学編集グループまで...
       DigitalHumanitiesMonthly[&]googlegroups.com
                  [&]を@に置き換えてください。

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
人文情報学月報 [DHM042]【前編】 2015年01月28日(月刊)
【発行者】"人文情報学月報"編集室
【編集者】人文情報学研究所&ACADEMIC RESOURCE GUIDE(ARG)
【 ISSN 】2189-1621
【E-mail】DigitalHumanitiesMonthly[&]googlegroups.com
                 [&]を@に置き換えてください。
【サイト】 http://www.dhii.jp/

Copyright (C) "人文情報学月報" 編集室 2011- All Rights Reserved.
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

Tweet: