ISSN 2189-1621

 

現在地

《巻頭言》「分類と階層化」

◇《巻頭言》「分類と階層化」
 (松森智彦:同志社大学 高等研究教育機構・文化情報学部 特別任用助教)

 分類とは、対象を理解するために行う最も基礎的な操作の一つである。しかし、
いざ分類を行ったあとに途方に暮れることがある。「分けたけど、どうすれば良い
のか」。最初から分類そのものをゴールにしておけば、何の問題も起きない。しか
し私達は欲張りなので、分類だけでは満足しない。対象の理解をゴールに設定し、
しばしば分類をその一過程とする。そうすると、分けたあとの処理が必要になる。
どうしたら、対象をより理解できるのか。この部分は分類とは別の操作であって、
「総合」や「関係」など、色々な名前で呼ばれている。正直、とても難しい処理で
ある。分類と対象の(本当の)理解との間には、深いギャップがあるのだ。

 分類のほかに、対象を理解するための方法として、階層化が挙げられる。階層化
とは、類似の対象を集めて共通部分を取り出し、グループとしてまとめる操作であ
る。分類と異なるのは、階層化が入れ子を認めている点である。対象またグループ
を入れ子として、階層構造を作ることができる。コンピュータのディレクトリシス
テムが典型的な階層構造の例である。ユーザーはいくつかのファイルをまとめてフ
ォルダAに入れる。ファイル(1)、(2)としよう。そしてそのフォルダを別のフォ
ルダBに入れる。さらにフォルダAと同じ階層に、ファイル(3)を入れることができ
る(下図)。このように、対象およびそのグループを、入れ子にしてまとめること
ができる。これを階層構造という。そして階層構造を作ることを、階層化という。

フォルダB┳フォルダA┳ファイル(1)
     ┃     ┗ファイル(2)
     ┗ファイル(3)

 本稿では、統計解析ソフトウェアのRを用いて、上記の分類と階層化について考え
てみる。対象とするデータは、Rの基本的なサンプルデータであるパッケージ
datasetsに含まれているmtcarsを用いる。これは1974年のMotor Trend US magazine
に掲載されていた1973、1974年モデルの自動車のデータである。自動車のデザイン
と性能について11の属性を持つ32件のデータセットである。11の属性よりmpg(燃費)
、disp(排気量)、hp(馬力)、drat(リアアクスル比)、wt(重量)、qsec(ゼ
ロヨン)の6属性を取り出し、これを利用する[1]。また話を単純にするために、
対象とする自動車の数を絞り込む。ゼロヨン、つまり1/4 mileのタイムが17秒未満
の、加速力のある車種を対象とする。Porsche 914-2、Lotus Europa、Mazda RX4、
Ferrari Dino、Ford Pantera L、Maserati Bora、Camaro Z28、Duster 360、Dodge
Challengerの9種である。それぞれの車種名の2番目の単語の頭文字を取り、省略形
とする。すなわち先より9、E、R、D、P、B、Z、3、Cである。
  mpg disp hp drat wt qsec
(9) Porsche 914-2 26 120.3 91 4.43 2.14 16.7
(E) Lotus Europa 30.4 95.1 113 3.77 1.513 16.9
(R) Mazda RX4 21 160 110 3.9 2.62 16.46
(D) Ferrari Dino 19.7 145 175 3.62 2.77 15.5
(P) Ford Pantera L 15.8 351 264 4.22 3.17 14.5
(B) Maserati Bora 15 301 335 3.54 3.57 14.6
(Z) Camaro Z28 13.3 350 245 3.73 3.84 15.41
(3) Duster 360 14.3 360 245 3.21 3.57 15.84
(C) Dodge Challenger 15.5 318 150 2.76 3.52 16.87

 それでは早速、代表的分類方法であるクラスター分析[2]を行う。自動車の6つ
の属性は単位など性質の異なる数量であるため、標準化を行う[3]。距離は一般的
なユークリッド距離を用い、クラスター併合の方法は広く使われているWard法を用
いる。結果を下図に示す[4]。

9┓
 ┣━━┓
E┛  ┃
R┓  ┣━┓
 ┣━━┛ ┃
D┛    ┃
P┓    ┃
 ┣━┓  ┃
B┛ ┃  ┃
Z┓ ┣━┓┃
 ┣━┛ ┃┛
3┛   ┃
C━━━━┛

 テキストでは次のように表現することができる。(((9E)(RD))(((PB)
(Z3))C))。すなわち、9E、RD、PB、Z3の4つの群がまとまり、さらに先より2群
と後の2群がグループとなる。そして後者のグループがCとまとまる。9ERDのグルー
プは排気量、馬力が小さく、重量も小さいことが特徴である。PBZ3は排気量、馬力
が大きく、重量も大きいことが特徴である。ゼロヨンは後者のほうが速い。Cはリア
アクスル比が最小で、独立した群となっている。これが、クラスター分析より得ら
れる結果である。

 次に、階層化を行ってみよう。生物系統学において広く利用されてきた
Neighbor-Joining(NJ)法を用いる[5]。距離行列はクラスター分析と同じものを
用いる。すなわち、入力は同一である。またクラスター分析の結果で、全体から一
番外れているものはCである。これを外群に指定する[6]。結果を下図に示す。

9┓
 ┣━┓
E┛ ┣━┓
R━━┛ ┣━┓
D━━━━┛ ┃
       ┃
P┓     ┣━┓
 ┣━┓   ┃ ┃
B┛ ┣━┓ ┃ ┣━ root
Z━━┛ ┣━┛ ┃
3━━━━┛   ┃
C━━━━━━━━┛

 テキストでは次のように表現することができる。(((((9E)R)D)(((PB)
Z)3))C)。すなわち、9EとPBの2つの群がまとまり、そして前者とR、後者とZが
まとまる。次に前者とD、後者と3がまとまり、さらにこの2者が一つになる。最後に
Cが加わる。クラスター分析との相違は、R、D、Z、3の位置である。9ERDは軽量ロー
パワー型で、9ERはDに比べ馬力が小さく、9EはRDに比べ排気量が小さい。PBZ3は重
量ハイパワー型で、PBZは3に比べゼロヨンが速く、PBはさらに速い。ほかPBZは3に
比べてリアアクスル比が大きい。またPBは馬力が大きい。外群に指定したCは、燃費、
排気量、重量がPBZ3に近く、馬力、ゼロヨンは9ERDに近い。両群の特徴をあわせ持
ち、リアアクスル比が最小という個性も持っている。これらがNJ法により得られる
結果である。

 同じ距離行列をもとにしているのに、なぜこのような違いが出るのであろうか。
それは、クラスター分析が分類、分けることを目的としているのに対し、系統学的
方法であるNJ法は、樹長を最小化する階層化を目的としているためである [7]。
いうなれば、前者は近いもの同士を手当たり次第くっつけて階層化、のち分類して
いるのに対し、後者は入力の距離行列を最も良く表現するツリーを作り、階層化を
行っているのである。目的が異なるため、両者の結果を単純に比較して、良し悪し
を論じることはできない。しかし複数の手法を併用し、多角的視点から対象の理解
を試みる発見的アプローチは、建設的な研究態度である。分類のあと、先に進まな
い。そんな時は、系統学的方法による階層化も試すと良いかもしれない。

分析に用いたRのコード(R version 2.15.3)
(c d plot(hclust(d^2, method="ward"), hang=-1)
library(ape)
plot(root(nj(d), outgroup=3))
# FastMEの場合は以下を実行。
# f # plot(root(f, outgroup=which(f$tip.label==rownames(c)[3])))

参考文献
Gascuel, O. and Steel, M. 2006. Neighbor-Joining Revealed. Mol Biol Evol
23, pp.1997-2000.
Nei Masatoshi・Sudhir Kumar著,大田竜也・竹崎直子訳 2006『分子進化と分子系
統学』培風館
三中信宏 2006『系統樹思考の世界』講談社

[1]残りの属性はカテゴリーデータであるため、除外した。
[2]ここでは、階層的クラスター分析を指す。
[3]すなわち平均が0、標準偏差が1となるように基準化する。個々の値より平均を
  引き(偏差)、標準偏差で割る。
[4]テキストで図を表現しているため、クラスター併合の高さの情報は、図中に含
  めていない。高さについては、Rでデンドログラムを描画し確認して欲しい。
[5]現在はより改良されたFastMEの利用が推奨される。しかし本稿では、広く利用
  され、アルゴリズムが単純なNJ法を例として挙げた。なお本稿の例では、結果
  として得られる両者の樹形は同一である。NJ法とFastMEの関係については
  Gascuel and Steel 2006を参照。
[6]NJ法より得られる結果は無根系統樹である。クラスター分析の結果と比較する
  ために、これを有根系統樹とする。外群の指定が必要であるが、本稿では簡易
  的な方法として、全体から一番外れているものを外群に指定した。
[7]ここでの系統学的方法とは、距離行列をもとにした、最小進化基準によるもの
  である。系統学的方法には、ほかに最節約法や最尤法などがある。

執筆者プロフィール
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
松森智彦(まつもり・ともひこ)同志社大学 高等研究教育機構・文化情報学部 特
別任用助教。博士(文化情報学)。専門は文化情報学・地理情報学・考古学。SEの
職歴(3年)があり、プログラミングが趣味。総合地球環境学研究所研究推進支援員、
日本学術振興会特別研究員を経て現職。現在の研究テーマは近世・近代の物産誌、
遺跡立地論、高性能計算。

Copyright (C) MATSUMORI, Tomohiko 2015- All Rights Reserved.

DHM 042 【前編】

Tweet: