[1] 言語情報の統計分析


  [1.1] この授業の目標
  [1.2] 学習事項
  [1.3] この授業について
  [1.4] 参考図書
  [1.5] 対象資料と調査項目

[1.1] この授業の目標

 この授業の目的は、「コンピュータを活用した言語資料の分析と統計的データ解析を通して、言語変異と社会的要因の関係を探求する」ことです。

1.1.1 言語変異と社会的要因の関係

 言語の使われ方は、社会的環境に応じて変異が見られます。たとえば、話し手の年齢や性別、相手の社会的地位、地域的変異や時間的変異が観察されます。言語変異と社会的関係について、科学的に探求する態度を身につけることが大切です。

1.1.2 データの統計的処理

 個人的、主観的にただ漫然と判断するのは、科学的態度ではありません。科学的アプローチを遂行するには、対象となるデータを集め、データ分析の結果に基づいて、客観的に判断することが必要です。そのためには、統計学の基本を理解し、データ解析の技法を身につけることが必須です。さらに、分析結果を考察し、それを的確に報告する技法が求められます。

[1.2] 授業の展開と学習事項

第1回 イントロダクション
   言語使用上の変異と統計処理
   分析対象資料と調査項目

第2回 度数分布とヒストグラム
   変数の種類、Excel操作の基本、
   度数分布表の作成、ヒストグラム

第3回 中心傾向と散布度
   中心傾向の代表値、散布度の代表値

第4回 2変量の関係
   相関と相関係数、散布図

第5回 標本抽出分布
   標本抽出、標準誤差

第6回 2標本の平均値差の検定
   統計的推定・検定の考え方、t検定

第7回 統計的検定
   母平均の推定、母平均の検定、2標本の母平均差の検定、練習問題カテゴリーデータの差、適合度の検定、独立性の検定

第8回 分散分析
   分散分析、多重比較

第9回 カテゴリーデータの検定
   カイ2乗検定、連関係数

第10回 ノンパラメトリック検定
   マン・ホイットニー検定、クラスカル・ウォリス検定、ウィルコクソン検定、フリードマン検定

第11回 相関の検定
   無相関検定

第12回 課題
   課題研究

[1.3] この授業について

[1.4] 参考図書

社会言語学関係
* 真田 信治、他 1992 『社会言語学』、東京:おうふう。
* 中尾 俊夫、他 1997 『社会言語学概論』、東京:くろしお出版
* 東 照二 1997 『社会言語学入門』、東京:研究社出版

統計処理ツール R 関係
* 山田剛史・杉澤武俊・村井潤一郎 2008『Rによるやさしい統計学』、東京:オーム社。

統計学関係
* 山内 光哉 1998『心理・教育のための統計法 第2版』、東京:サイエンス社
* 田畑 吉雄 1986『やさしい統計学』、東京:現代数学社
* 東京大学教養学部統計学教室(編) 1991『統計学入門』、東京:東京大学出版会
* 東京大学教養学部統計学教室(編) 1994『人文・社会科学の統計学』、東京:東京大学出版会
* 青木 繁信 「統計学自習ノート」(http://aoki2.si.gunma-u.ac.jp/lecture)

言語の情報・統計処理関係
* 樺島忠夫・寿岳章子 1965 『文体の科学』、東京:綜芸舎
* 長尾 真、他 『岩波講座言語の科学9 言語情報処理』、東京:岩波書店
* 安本美典・本多正久 『現代数学レクチャーズD-2 因子分析法』、東京:培風館
* 前川 守 『1000万人のコンピュータ科学3 文学編:文章を科学する』、東京:岩波書店

[1.5] 対象資料と調査項目

 現代日本語の書きことばにおいて、書き手の性別や年齢といった要因が文体にどのようなに関わるかを調査することにする。

1.5.1 対象資料

 対象の言語資料は、1998 年1月〜12月までの1年間に『朝日新聞』の「声」欄に掲載された一般読者からの投書記事である。各年の『朝日新聞』の全記事を収録した CD-ROM がに日外アソシエーツから市販されており、図書館などで CD-ROM 検索を行うことができる。

 上記CD-ROM から「声」欄の記事を検索し、ファイルに保存する。さらに、テキストファイルを加工して、必要な情報を抽出しやすい形式に統一しておく。(voice.txt) voice.txt の書式

980107 鎌倉市 山田悠 ? 高校生 16  今年三月に、五年前からの夢だったアフリカへ行きます。その夢をくれたのは父の友人で、私の大切な友人でもあり、三年前に亡くなった春田さんというおじ さんです。...(略)...空の上から見ていて下さい。私に夢をありがとうございます。 980110 東京都 鈴木瑠 1 中学三年 14  僕は、星新一さんのおかげで本を読むことが好きになった者です。...

1.5.2 調査項目

 先行研究を参考にして、次のような14項目の文体特性を調査することにしよう。これらの調査項目は、文字レベル、語彙レベル、品詞レベル、統語・談話レベルにわたる。

(1)漢字使用率

 投書記事中の総文字数に占める漢字文字数の割合。投書中の文字を文字種(ひらがな、カタカナ、漢字、英字、数字、記号)ごとに集計し、漢字の使用率を計算する。

(2) 名詞率

 自立語の総数に対する名詞の数の割合。各投書記事の日本文を品詞解析した後、自立語(助詞、助動詞以外)の総数、および各品詞の総数を求め、各品詞の占める割合を算出する。波多野、安本などの先行研究から、名詞の使用率が高いと凝縮的、要約的な文章となるという。

(3) MVR

 動詞の総数に対する、修飾語(形容詞、副詞、連体詞)の総数の割合。動詞率の高い文章は動きのある物語的な文章となるのに対し、修飾語が多い文章は記述的、描写的な文章となる。

 樺島・寿岳(1965)は「名詞率とMVRの間に負の相関がある」と指摘。

(4) VNR

 名詞の総数に対する動詞の総数の割合。動詞率が高いとダイナミックな、事件展開型の文章となる。

(5) 指示詞率

 全自立語に対する、指示詞の割合を算出する。「これ、それ、あれ」などの指示詞は、先行文中の何かを指し示し、文章が論理的に構成されていることを示す。多用されると、文脈依存度が高くなり、読みにくい文章となる。

(6) 文末過去形出現率

 品詞解析を行って、文末が活用形かどうかを調べる。文末が活用形である場合、過去の助動詞「た」が生じている割合を計算する。過去形が多いと、出来事を固定した事実と捕らえていることになり、客観性が高まる。

(7) 直喩表現

 明示的な指標「〜みたいな(に)」、「〜のような(に)」、「〜のごとき(く)」を伴う直喩表現を検索し、1文当たりに使用されている割合。「氷のように冷たい」、「墨のように黒い」、「鬼のように酷い」など、感覚的な表現が多い。「ごとく」は文語的でやや古風な表現。

(8) 色彩語彙

 色彩を表す語彙 (209 語) を検索し、使用される割合を1文当たりに換算する。ただし、「青島知事」「白馬村」など、固有名詞中の色彩語彙は除外する。色彩語使用率は、視覚的感覚性の尺度となる。

(9) 声喩(擬音語・擬態語)

 投書記事1文当たりに使用される擬音語類の数。日本語には擬音語類がきわめて豊富に存在する。擬音語類は「声喩」であり、聴覚に訴える感覚的表現である。

 浅野(1978) の『擬音語・擬態語辞典』(角川書店)に収録されている擬音語、擬声語、擬態語、擬情語 3,004 語をその形態に応じて5つ(「り、リ」で終わる、「ん、ン」で終わる、「っ、ッ」で終わる、長音「ー」で終わる、同一音節の繰り返しからなる)に分類し、 それぞれ参照ファイルを用意する。ひらがなとカタカナによる表記上の変異形もリストに含めることにした。

(10) 慣用句
  投書中に使用されている慣用句やことわざの数を1文当たりに換算。『広辞苑 第4版』に見出し語として収録されている慣用表現(合計 7229 表現)を検索する。その際、たとえば、「棚に上げる」から「棚上げ」、「顔が利く」から「顔の利く」のような派生的慣用句も含めることにする。身体語彙を はじめとして、形式ばらない、日常的口語的な土着の語彙(和語)が多く含まれる。

(11) 4字熟語

 「一石二鳥」「大同小異」などの漢字4字熟語が使用される1文当たりの平均値。漢字熟語 727 語のリストファイルを読み込んで検索する。4字熟語は漢語系が多く、厳しくフォーマルな感じになる。

(12) 文の長さ

 投書の各文の平均文字数。句読点、記号類も1文字としてカウントする。

(13) 引用

 全文字数に対する引用部分の文字数の割合。引用符「」も引用部分に含める。「A氏は「...」と言った。」のように、直接話法で表現すると、その場の雰囲気をいきいきと伝える。

(14) カタカナ語

 かたかなで表記された語が、1文当たりに使用される回数。ただし、「1ヶ月」の「ヶ」は除外する。かたかなは、外来語や動植物名の表記のほか、「ごみ」→「ゴミ」のように一種の強調にも用いられる。

(15) 基本語彙

 投書中で使用されている動詞、形容詞、副詞、接続詞の総数に対して、玉村(1992) においてリストアップされている基本動詞、形容詞、副詞、接続詞 202 語が使用されている割合。

1.5.3 結果データ

 上記の調査の結果は、datahyou.datというファイルに納められています。このデータを使って、どのように統計解析を行なうのかを学習していきます。

[予告]
 次回は、度数分布表とヒストグラムの作成を学習します。統計学の教科書から、次の項目を調べておいてください。
・記述統計と推測統計
・変数(独立変数と依存変数、質的変数と量的変数)
・測定の尺度(名義尺度、順序尺度、間隔尺度、比例尺度とその例)
・度数分布表(級間、頻度、相対頻度、累積頻度、累積相対頻度)
・級間(名目上の限界、真の限界)
・ヒストグラム、棒グラフ、箱ひげ図、折れ線グラフ、散布図