ISSN 2189-1621

 

現在地

DHM 056 【前編】

2011-08-27創刊                       ISSN 2189-1621

人文情報学月報
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄Digital Humanities Monthly

             2016-03-29発行 No.056 第56号【前編】 624部発行

_____________________________________
 ◇ 目次 ◇
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

【前編】
◇《巻頭言》「言語データから見えてくることばの機微」
 (内田 諭:九州大学大学院言語文化研究院)

◇《連載》「Digital Japanese Studies寸見」第12回「住所不定と参照性」
 (岡田一祐:東京外国語大学アジア・アフリカ言語文化研究所)

【後編】
◇人文情報学イベントカレンダー

◇イベントレポート(1)
国際シンポジウム「HathiTrustとデジタルアーカイブの未来」<後編>
 (永崎研宣:人文情報学研究所)

◇イベントレポート(2)
「第109回人文科学とコンピュータ研究会発表会」参加報告
 (北崎勇帆:東京大学大学院人文社会系研究科日本文化研究専攻 修士課程二年)

◇イベントレポート(3)
シンポジウム「テキストマイニングとデジタル・ヒューマニティーズ」(九州大学)
 (大賀 哲:九州大学)

◇編集後記

◇奥付

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
【人文情報学/Digital Humanitiesに関する様々な話題をお届けします。】
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
◇《巻頭言》「言語データから見えてくることばの機微」
 (内田 諭:九州大学大学院言語文化研究院)

「bigとlargeの意味はどう違うのですか」

 これは私が大学時代に塾で講師をしていた時に中学生から受けた質問である。英
語学を専攻していた身としては華麗に回答したかったが、思わず答えに窮してしま
った。この2つの単語の意味の違いは、辞書を調べると明確になるとは限らない。例
えば、LDOCE online[1]ではbigの第一語義として「of more than average size
or amount」、またlargeの第一語義として「big in size, amount, or number」を
挙げているが、一読してその違いはわからないだろう[2]。

 「デジタル化された言語データ」があれば、この質問に対する妥当な解答を具体
的な形で得ることが可能である。研究を目的として体系的に収集された言語データ
のまとまりは「コーパス」(corpus)と呼ばれる。分野やテーマを限定した特殊コ
ーパスも存在するが、ランダムかつ均等なサンプリングを経て作成された汎用コー
パスも多く存在する。英語の汎用コーパスではBritish National Corpus(BNC)[3]
やCorpus of Contemporary American English (COCA)[4][5]などがその代表
例である。

 コーパスを用いることで単語や構文などの頻度を数量化することが可能となる。
類義語の比較をする場合、対象となる単語の前後にくる語句(コロケーション)を
集計して比べれば、その違いが見えてくる。意味がほとんど同じで交換可能性が高
い場合は共起語も似ていることが推測される。一方、意味が違っていれば、共起語
が異なるはずで、その違いから対象の語の違いをあぶり出そうという寸法である。

 ではCOCAを用いてbigとlargeの比較を行ってみよう。これらは形容詞なので、
「直後にくる名詞」を見出し語形(lemma)で集計する。ここでは上位20語を比べて
みよう[6]。

・bigの直後にくる名詞(上位20語)
deal, problem, thing, question, difference, issue, city, picture, man,
part, business, bang, challenge, brother, story, mistake, change, game,
hit, fan

・largeの直後にくる名詞(上位20語)
number, part, bowl, amount, group, city, egg, scale, company, percentage,
quantity, skillet, area, portion, pot, population, family, proportion,
extent, sample,

 一見して単語の顔ぶれが全く異なることが見て取れる。どちらの単語も日本語に
してみれば「大きい」となり、似ているように思えるが、このように比べてみると、
意味の差異が浮き彫りになる。

 共起語を仔細に見てみると、largeはnumber, amount, scale, percentage,
quantity, portionなどの数量的な単語が多いのに対して、bigはdeal, problem,
question, issue, challenge, story, mistakeなど数量化することが難しいような
単語が並んでいる。このことから、largeはある基準によって数量化できる大きさを
表し(客観的に測れる大きさとも言えるだろう)、bigは数量化し難い、ある意味で
主観的な大きさを表す傾向がある、と読み取れるだろう(この他にも語義の違いや
慣用性の違いなどもあるがここでは議論を割愛する)。

 大規模コーパスを用いれば、普段何気なく使っている日本語の類義語の違いを明
確にすることも可能である。母語話者であれば、似ている単語の意味の違いは直感
的には理解できるが、それを人に対して説明するとなると途端難易度が上がる。例
えば日本語の学習者に「重要な」と「重大な」の意味の違いを聞かれたらどのよう
に答えるのがよいだろうか。

 日本語の大規模汎用コーパスとして国立国語研究所が中心に構築した『現代日本
語書き言葉均衡コーパス』(BCCWJ)がある。このデータを利用して「重要な」と
「重大な」の意味の違いを考えてみよう。これらの単語は、『広辞苑』第6版では
「重要:大事なこと。大切なこと」、「重大:事柄が容易でないこと。また、非常に大
切なこと」と定義されている。bigとlargeの場合と同様、定義だけではその違いは
判然としない。BCCWJの検索システム[7]を用いて直後にくる名詞を集計すると次
のような語が目立つ(「こと」、「もの」などの形式名詞を除き、頻度上位語から
10語を任意に抽出)。

重要な:役割、課題、問題、意味、要素、ポイント、点、位置、部分、情報
重大な:問題、影響、関心、意味、過失、違反、事態、事故、犯罪、事由

 まず「問題」、「意味」が共通した共起語であることがわかる。これはこの2つの
単語の意味が似ていると感じることの証左でもあるが、例えば「重要な問題」と
「重大な問題」が同じ意味かというと、そうではないだろう。共起語の違いに着目
すると、「重要な」は「要素」や「ポイント」、「位置」などから「欠くことので
きない、中心的な」という意味で用いられることが多いと読み取れる。一方、「重
大な」は「影響」、「過失」、「事故」などの共起語から「深刻な、影響の大きい」
というニュアンスで、ネガティブな意味も含んでいることがわかる。従って、「重
要な問題」とは「課題解決のために避けては通れない中心的な問題」という意味で
あるのに対し、「重大な問題」とは「深刻な影響を引き起こす可能性のある問題」
であると読み解くことができるだろう。

 言語データの大規模な蓄積によって、このようにことばの微妙な違いを具体的に
示すことが可能となった。これは人間の「言語直感」(内省)を裏付けることがで
きるようになったことを示しており、言語研究において重要な意味合いを持つ。ま
た、ことばの意味の違いを具体的な共起語のリストで示すことは、言語教育的にも
大いに効果のあることだと思われる。

 言語データの蓄積は研究者だけではなく企業によっても今後も継続的に行われて
いくだろう[8]。言語研究で扱うデータのサイズもさらに大規模化し、いわば
big-data linguisticsが言語学の1つの方向性となっていくのかもしれない。

[1] http://www.ldoceonline.com/
[2] bigの項のWord Choiceというコラムでbig, large, greatの使い分けについて
記述がある。
[3] http://www.natcorp.ox.ac.uk/
[4] http://corpus.byu.edu/coca/
[5] 操作方法については次のサイトで詳しく説明している。
http://www.kenkyusha.co.jp/uploads/lingua/prt/13/UchidaSatoru1408.html
[6] COCAでは類語比較の機能が提供されており、より詳細な分析が可能である。
使い方については次を参照。
http://www.kenkyusha.co.jp/uploads/lingua/prt/13/UchidaSatoru1409.html
[7] http://nlb.ninjal.ac.jp/
[8] ただし、ただデータを蓄積すればよいというわけではなく、適切に分類し体
系化して管理する必要がある。前述のBNC、COCA、BCCWJ等の利用が可能になるまで
には研究者の地道な努力があったことは忘れてはならない。

執筆者プロフィール
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
内田 諭(うちだ・さとる)九州大学大学院言語文化研究院准教授。東京外国語大学
講師を経て現職。認知意味論(特にフレーム意味論)に足場を置きつつ、コーパス
を使った意味分析や英語教育への応用研究も行っている。

Copyright (C) UCHIDA, Satoru 2016- All Rights Reserved.
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
◇《連載》「Digital Japanese Studies寸見」第12回「住所不定と参照性」
 (岡田一祐:東京外国語大学アジア・アフリカ言語文化研究所)

 さいきんはLinked(Open)Data(以下LD)が注目の的である。LDは、URI
(Uniform Resource Identifier;統一資源識別子)を用いてデータの関係性を示す
枠組みであるが、URIによって他の情報資源を参照することもでき、個々のデータを
超えた活用を可能とするものである。LDの例としては、ウィキペディアの情報ボッ
クスなどをもとにしたDBpediaがあり、リンクされたほかのLDの情報なども頼りに、
属性に基づいた処理をすることを容易にしている[1]。たとえば、ある作家につい
て調べるときに、その作家と同時代の作家を探すこともできる。さきに触れたURIと
は、ごくかんたんにはURL(Uniform Resource Locator;統一資源位置指定子)、い
わゆる「ホームページアドレス」のことと考えてもよいが、LDにおけるURIはウェブ・
ブラウザーで開ける必要があるわけではなく、その意味においてURLでないことも多
い[2]。LDの利活用を盛んにするために、LODチャレンジ[3]などの活用促進策も
取られているが、これはそのようなLDのしくみあってこそのものであろう。

 さて、ここで取り上げたいのはこのように抽象的なURIの世界ではなくて、ウェブ・
ブラウザーで開けるようなURLの世界のことである。さきに、LDにおいてデータの利
活用を可能にするのは、URIによってであると述べたが、これはウェブ・ブラウザー
でいうところの青く下線の引かれたリンクによってべつのページを開くようなもの
である。そして、リンクを張るには、情報にURLがなければならない。本月報の創刊
号のアドレスはつぎのものである:
  http://www.dhii.jp/DHM/dhm01

 こういうリンクを受け取ったとき、ブラウザーは概略つぎのように理解する。ま
ず、アクセス方法はhttpという方法で、www.dhii.jpというサーバーにアクセスし、
情報の場所はそのなかのDHMというフォルダのdhm01というファイルにあるというこ
とである[4]。サーバーにアクセスして、あるフォルダのあるファイルを取り出す
ことは、ある図書館において、ある請求番号の振られた棚に目的の資料を探しにい
くことと似ている。アクセス方法とは情報のやりとりに関する取り決めであって、
あまり現実社会に比較できるものはないかもしれない。強いて例えれば、閉架の資
料を使いたいときに、使いたい資料の種類(書籍であるか、CDであるか、はたまた
映像であるか……)によって請求書類の様式が異るとすれば、そういうものにあた
る。ここでは、図書館の棚の配置は変わることがときにあるが、図書館での棚の探
し方、棚のなかでの資料の探し方が変わらないことは、長期的には重要であること
を述べておきたい。書籍は日本十進分類法などがあるからよいが、それ以外のもの
では統一されたしくみがなく、管理方法が変ると請求番号が変ってしまうことがあ
る。そのため、古典籍を扱った昔の論文にある請求番号を数十年後伝えるとそのよ
うなものはいまないと言われる(変更の記録があればまだ探しようもあるが)。ま
た、そもそも資料番号が振られていない資料は、利用できないということもこれま
た重要である。

 さて、データベースを設計するとき、個々のデータの住所、すなわちURIはどのよ
うに決定されているだろうか。ひとつには、(1)個々のデータに直接住所を割り当
てるという形式がある。この例としては、CiNiiにおけるひとつひとつの論文の書誌
データが挙げられる。ある論文について書誌的な詳細を知りたければ、この住所に
いけばいつでも引き出すことができる[5]。つぎに、(2)窓口に取得したいデー
タを問い合わせる形式がある。この例には、おなじくCiNiiの検索画面が挙げられる
[6]。(2)には、URIに問い合わせるデータを明記する形式(2-1)と明記しない
形式(2-2)とがあり、前者であれば直接リンクができて情報が引き出せるが、後者
ではそのシステムの専用の入り口を通らなければ情報を入手できない。

 LDにおける個々のデータはURIによって参照可能になることは冒頭に述べたが、そ
れはURIがウェブにおける参照のしくみであるということと無縁ではない。(2-2)
の形式は、利用規約に利用の都度同意させる必要があるばあいなど、直接参照させ
ることが難しい例では不可避である。しかしながら、そのような壁を意図していな
いのであれば、たとえば、提供者がみずからのデータをLDにすることもやぶさかで
はないと考えているのだとしたら、それは再考すべきであろう。(2-2)の形式は、
資料番号を隠していることと同じであり、利用者・提供者の両方の手を煩わせるも
のである。いざLDにしようとしたとき、はじめてじぶんたちの公開していたものが
住所不定であったことに気付くのではなく、データベースを作る段階で利用者がど
う参照できるか意識して作ってゆくことは、ディジタル日本学の今後とも無縁では
ないものと思う。

[1] http://wiki.dbpedia.org/ 日本語版は http://ja.dbpedia.org/
[2] LDの解説も含め、武田英明「動向レビュー:Linked Dataの動向」(カレント
アウェアネス308、2011 < http://current.ndl.go.jp/ca1746 >)なども参照。現在
は、正式には、文字領域をUnicodeに拡張したIRI(Internationalized resource
identifier;国際化資源識別子)を用いる。
[3] http://lodc.jp/2015/concrete5/blog/2016-02-19
[4] たとえばなしなので、正確な仕組みを知りたければ専門書にあたっていただ
きたい。稿者に見ることはできないので分からないが、おそらく、www.dhii.jpとい
う名前のサーバーのDHMというフォルダにdhm01というファイルが実際にあるという
わけではなかろう。ただ、そこにそういうファイルがあろうがなかろうがかまわな
いのではなく、そこにそれがあるかのようにアクセスできるようになっているとい
うことは言ってよい。
[5] http://ci.nii.ac.jp/naid/40020736408 これは、CiNiiでLODで検索していち
ばん最初に見つかった論文である(2016年3月17日)。
[6] http://ci.nii.ac.jp/search?q=LOD&range=0&count=20&sortorder=1&type=0
searchというファイルに?以下の情報を問い合わせるという形式である。動的な情報
はこの形式になることが多い。なお(1)と(2)の中間の例として国会図書館の
OPACがある: http://id.ndl.go.jp/bib/027143359 。このURIは、
https://ndlopac.ndl.go.jp/F/?func=find-c&amp=&amp=&amp=&amp=&amp=&amp=&c...
へと転送される(同前)。

Copyright(C)OKADA, Kazuhiro 2015- All Rights Reserved.
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

 続きは【後編】をご覧ください。

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

 配信の解除・送信先の変更は、
    http://www.mag2.com/m/0001316391.html
                        からどうぞ。

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

◆人文情報学月報編集室では、国内外を問わず各分野からの情報提供をお待ちして
います。
情報提供は人文情報学編集グループまで...
       DigitalHumanitiesMonthly[&]googlegroups.com
                  [&]を@に置き換えてください。

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
人文情報学月報 [DHM056]【前編】 2016年03月29日(月刊)
【発行者】"人文情報学月報"編集室
【編集者】人文情報学研究所&ACADEMIC RESOURCE GUIDE(ARG)
【 ISSN 】2189-1621
【E-mail】DigitalHumanitiesMonthly[&]googlegroups.com
                 [&]を@に置き換えてください。
【サイト】 http://www.dhii.jp/

Copyright (C) "人文情報学月報" 編集室 2011- All Rights Reserved.
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

Tweet: