[4] 2変量間の関係


  [4.1] 相関と相関係数
  [4.2] 相関と散布図

[4.1] 相関と相関係数

4.1.1 相関と回帰

相関:一対の変数 X と Y の間の直線的な関係。X が大になれば Y も大になるか、逆に、X が大になれば Y が小になるという関係。  相関があるからといって、ただちに、それらの間に因果関係が成り立つことを意味するわけではない。
(例:成人男性の身長と体重の関係、英語の成績と数学の成績の関係)

回帰:2つの変数間の線型的相関関係に基づいて、一方の変数の値から 他方の変数の値が予測できる。その関係を記述する直線を回帰直線という。

4.1.2 ピアスンの積率相関係数

相関係数:2つの変数 X, Y の相関の直線的な強さを表す指標。

 ピアスンの積率相関係数 r = XとYの共分散 / Xの標準偏差 * Yの標準偏差
 (標本の相関係数は r, 母集団の相関係数はρで表す。)

 共分散:Xの偏差とYの偏差の積を総和し、データ数 (N - 1) で割った値。

   共分散 Sxy =Σ (Xi - X)(Yi - Y) / ( N - 1 )

  A… Xの偏差、Yの偏差が2つとも正ならば、その積は正となる。
  B… Xの偏差、Yの偏差が2つとも負ならば、その積は正となる。
  C… Xの偏差が正、Yの偏差が負ならば、その積は負となる。
  D… Xの偏差が負、Yの偏差が正ならば、その積は負となる。
   A, B のデータが多いと、2つの偏差の積の総和(共分散)は正となる。→正の相関
   C, D のデータが多いと、2つの偏差の積の総和(共分散)は負となる。→負の相関
   A, B, C, D に平均して分布していると、共分散は0に近づく。→相関なし。

共分散

4.1.3 相関係数rの解釈

rは、 -1 <= r <= 1 の値をとりうる。r=|1| のとき、完全な線型関数。
r > 0 のとき、正の相関、 r < 0 のとき負の相関。

|r| の値 rの(一般的な)解釈
12変量間に完全な線型相関がある
0.9 以上2変量間に非常に高い相関がある
0.7 以上 0.9 未満2変量間に高い相関がある
0.3 以上 0.7 未満2変量間に中くらいの相関がある
0.3 未満2変量間に低い相関がある
02変量間に全く線型相関がない

相関と因果関係 … 相関関係は因果関係を必ずしも含意しない。
見かけの相関 … 第3の変数Zの存在によって、XとYの表面上の相 関が高くなることもあり得る。
決定係数 r2 … Xの分散によって説明さ れるYの分散の比率=相関係数の2乗。比例尺度として比較が可能。
         説明できない比率=非決定係数 k2 = 1 - r2

4.1.4 r に影響する要因

・範囲の効果 … 全体の母集団からの標本ではなく、一部分だけの標本に基づいて算出すると偏った相関が得られる。(切断の効果)
         一般に、一部分の下位標本についての相関は、全範囲の標本の相関よりも低くなる。
・群合併の効果 … 平均値において異なる2つの群を合併して計算すると誤って高い相関が得られる。
・2次的関係 … 半円形に分布するX, Y は2次的関係があるが、直線的相関係数は0に近い。

4.1.5 ファイ係数

ファイ係数:変数の取りうる値が2種類だけ(たとえば性別、病歴・喫煙の有無など)変数(2値変数)のデータから2×2分割表(クロス集計表)を作り、計算される特殊な相関係数。

    φ = sqrt( χ2 / N )

      ここで、χ2 = 倍(Oj−Ej)2 / Ej}

このファイ係数は、0から1までの間の値を取り、2つの2値変数の連関の強さを表します。(第10回参照)

[4.2] 相関と散布図

 新聞投書データにおける名詞率と漢字率の相関を調べよう。

4.2.1 相関係数

■ 数量データの準備
 新しいブックを開き、Sheet1に「漢字率・名詞率相関」とタイトルを入力する。
 データ表シートの漢字率データを新しいワークシートA列に、名詞率データをB列にコピーアンドペーストする。
■ 相関係数を計算する
F列に「漢字率の平均」、「名詞率の平均」と入力、G列にそれぞれの値を計算する。
C列に「漢字率の偏差」、D列に「名詞率の偏差」を計算し、C列とD列の散布図を図示する。
E列に「偏差の積」と入力し、(漢字率の偏差*名詞率の偏差)を計算する。
E列下に「共分散」と入力し、E列の総和/(データ数−1)を計算する。
E列下に「相関係数」と入力し、共分散/(漢字率の標準偏差*名詞率の標準偏差)を計算する。
 相関係数: =correl( data1, data2 )

4.2.2 散布図を描く

■ 散布図を描く
グラフウィザードから、「散布図」を選択。
データ範囲を指定(「先頭をラベルとして使用」にチェック)。
「目盛」タブで、最大値、最小値を調節。(グラフ領域全体にわたって表示するように。)
タイトル、X軸ラベル、Y軸ラベルを入力(凡例は不要)。
「データ系列の書式設定」で、データ表示のスタイル、サイズを調整。

■ 回帰直線と相関係数を追加
グラフ中の任意の点を右クリックし、「近似曲線の追加」を選択するとダイアログが開く。
ダイアログパネルで、「線形近似」を選択し、「回帰式」と「R-2乗値」の表示にチェックを入れる。
表示されたテキストの位置を適切な場所に配置する。
(注)マウスをドラッグしてテキストボックスを作り、テキストをキー入力して、適当な場所に移動してもよい。

■ 回帰直線 … 2つの変数間の関係を記述する直線。
 回帰直線 Yyx = ayx + byxX
       (Y:Xにより予測されるYの値、a, b :回帰定数)
 最小2乗法 … 実際のYと予測されるYとの誤差(予測誤差)の2乗和をもっとも小さくするような a, b の値を求める。

4.2.3 相関行列

■ データの準備
「データ表」ワークシート全体を選択し、新規ワークシート「数量データ」に複写する。
複写したデータのうち、質的データ(性別、声喩、慣用句など)を削除し、数量データのみを残す。

■ 相関行列
 「分析ツール」メニューから「相関」を選択。
 データ範囲を(マウスで)選択(「先頭をラベルとして使用」にチェック)。
 出力先を「次のワークシート」にして、出力させる。
 出力された相関係数の行列を観察する。

[課題] 漢字率データと名詞率データに関して、次のように指定された部分データを準備しなさい。各部分データについて相関係数を求め、散布図を図示しなさい。「切断の効果」「部分の効果」「合併の効果」が観察されるかどうかを検討しなさい。
データデータ数(N)名詞率との相関係数
(1)全体データ24720.721
(2)漢字率25%未満のデータ  
(3)漢字率45%以上のデータ  
(4)漢字率30%以上35%未満のデータ  
(2)と(4)を併せたデータ  

[予告]
 次回は、標本抽出分布の特性を学習します。
次の用語を予め調べておいてください。
・正規分布       ・相対的位置の測度
・標準化とz得点    ・偏差値
・パーセンタイル順位とパーセンタイル点