[8] t−検定:2つの平均値差の検定


  [8.1] 独立した標本
  [8.2] 等分散性と正規性
  [8.3] 関連した標本

 2つの母集団の平均値 μ1, μ2 の間に差があるかどうかを検定する。2つの母集団に対応する2つの標本から得られた平均値 X~1 と X~2 の差を手がかりとし、その差(を変換した値)がある値(臨界値)と比較して、差が有意かどうかを判定する。

[8.1] 独立した標本

8.1.1 独立

独立:2つの集団に属する要素同士に関係がないこと。
処理と水準:被験者に対する操作(特定の学習法の施行など)とその種類。
2つの群(標本)の平均値の差は、それぞれの母集団の差(ある処理水準の効果)と判定できるか?

8.1.2 検定の手順

2つの独立した平均値の差の検定とその手順:
  1. 仮定:
       1. 両群は独立であり、各群の被験者は独立かつ無作為に抽出されたものである。
       2. 母分散は等質であり、(X~1 - X~2) の母集団の分布は正規である。
  2. 仮説:
       H0:μ1 = μ2
       H1:μ1 ≠ μ2(⇒両側検定)
       またはμ1 > μ2(⇒右片側検定)
       またはμ1 < μ2(⇒左片側検定)
  3. 決定のルール:
       有意水準αを定め、自由度 n1+n2-2 に対応する t の値(臨界値)を t 分布表から読み取る。(両側検定のときは、α/2 に対応する t 値。)
       (Excelでは、両側検定のときtinv(α, df)、片側検定のときtinv(2*α, df)で求める)
  4. 検定量の計算:
      2母集団の分散が未知なので、2つの標本の分散で代用する。

      検定量 t0 = (X~1 - X~2) / SX~1-X~2

      大標本(n>30)で、母分散が等しいとき、t0 =    (X~1 - X~2)    
                           sqrt(( S21 / n1 + S22 / n2 )
  5. 結論:
     標本から得られる検定量(の絶対値)が臨界値よりも大きければ帰無仮説を棄却、そうでなければ帰無仮説を採択する。

[8.2] 正規性と等分散性

 2つの母集団の平均値差を検定する際に、「2つの母集団は正規分布をする」ことが前提されている。また、2つの母分散が等しいかどうかを、前もってチェックしておく必要がある。

8.2.1 正規性

 2つの母集団の分布が正規であれば、(X~1-X~2) の標本分布も正規となる。 たとえ、2つの母集団が正規でなくても、標本のサイズが十分に大であれば、正規性は保障される。(中心極限定理)

8.2.2 等分散性の検定(F検定)

 平均値差検定の前検定として、等分散性の検定(F 検定)を行う。
 母集団の分散は標本の分散に反映される。→2つの標本分散の比(F 値)を求める。

  1. 仮説
    H021=σ22(分散が等し い)
         H121≠σ22(分 散が等しくない)
  2. 決定のルール
    有意水準 α=0.25 くらいに設定し、分子(分散の大きい標本)・分母(分散の小さい標本)となる標本の自由度に基づき、F分布から臨界値を読み取る。
  3. 検定量の計算
       F0 = S21 / S22
  4. 結論
    検定量 F0が臨界値よりも大きければ、有意水準αレベルにおいて帰無仮説(分散は等しい)を棄却する。


 F検定の結果、母分散が等しい⇒「等分散を仮定したt検定」
        母分散が等しくない⇒「非等分散を仮定したt検定(ウェルチの検定)
 ただし、nが十分大であり、しかも、n1 と n2が近ければ、t検定の結果にあまり影響しない。したがって、両群のサイズをできるだけ大きくし、サイズを等しくすることが望ましい。

[8.3] 関連した標本

8.3.1 関連した標本

関連した標本とは:

8.3.2 検定量

 平均値の差が0である(平均値の等しい)2つの母集団から1対を抽出し、その差を D = X1-X2とする。n対からなる標本から、
         D~
  検定量T = ----------   〜N(0, 12)
       SD / √n

[8.4] 男女の平均値差の検定

 新聞投書データの漢字率に関して、男女別データを用意して、それぞれの平均値に有意差があるかどうか、検定してみよう。

8.4.1 男女別漢字率データ準備

  1. datahyou.dat 全体を選択して、「データ」メニューの「フィルタ」から「オートフィルタ」を選択。
    各列ラベルにフィルタ項目が設定される。

    オートフィルタ

  2. 「性別」データの▼をクリックすると、フィルタすべき項目が表示される。
    「男」を選択すると「男」性のデータだけが表示される。
  3. 漢字率データ全体を選択して、新ブックの新シート(「性別漢字率」)のA列にペーストする。
  4. 同様に、オートフィルタを使って女性データだけを表示させる。
    漢字率データを選択コピーして、「性別漢字率」シートのB列にペーストする。
  5. A列、B列に「男性漢字率」、「女性漢字率」というラベルをつける。

8.4.2 男女2標本の等分散性を検定する

  1. 2標本の分散を計算
  2. 2標本の自由度を算出(データ数-1)
  3. 検定量F0を算出(分散の大きい方を分子にする)
  4. 有意確率を計算(=fdist(F, df1, df2) )
 ※ExcelでF値の上側確率=finv(F0,分子自由度, 分母自由度)
  1. 「ツール」メニューから「分析ツール」を選択し、「F検定:2標本を使った分散の検定」を選択する。
  2. ダイアログの「入力元」において、「変数1」と「変数2」を指定する。(「ラベ ル」欄にチェック。)
  3. 有意水準αを大きめ(α=0.05)に設定する。(等分散の採択域を狭く設定するために、α=0.25に設定することもある)
  4. 出力先を指定する。
  5. 検定量、臨界値、P値を読み取り、結論を出す。
  6. 分析結果を報告する。(注:Excelの分析結果をそのまま流用してはならない。)

8.4.3 等分散を仮定しないt検定を行う

  1. 「ツール」メニューから「分析ツール」を選択し、「t検定:分散が等しくないと仮定した2標本による検定」を選択する。
  2. 表示されるダイアログにおいて、「入力先」の「変数1」と「変数2」を指定する。(ラベル欄にチェック)
  3. 「2標本の平均値の差」として0を指定する。(μ1−μ2=0)
  4. 有意水準αとして0.05を指定する。
  5. 「出力先」を指定する。
  6. 検定量、臨界値、P値を読み取り、結論を出す。
  7. 分析結果を報告する。(注:Excelの分析結果をそのまま流用してはならない。)

8.4.4 平均値差の信頼区間を計算する

検定の結果、有意差があるときは、平均値差の信頼区間も算出してみよう。
大標本(2標本の合計が100以上)であれば、次のようにして下限値、上限値を求めます。

  1. 平均値差=X~1−X~2
  2. 境界値=z(α)またはtinv(α, 自由度)
    (自由度=n1+n2-2)
  3. 標準誤差SE=sqrt(S12/n1 + S22/n2)
  4. 下限値=平均値差 − 境界値*SE
    上限値=平均値差 + 境界値*SE
    (注:得られた区間が 0 を含まないことを確認する。)

[課題]
(1) 新聞投書データのうち、投稿者の年齢に関して男性と女性の平均値を求めなさい。男女の平均値に差があるかどうかを、手順に従って検定しなさい。 有意差があれば、平均値差の95%信頼区間を求めなさい。
(2) 年齢が30歳未満なら「若者」、年齢が60歳以上なら「老人」とします。新聞投書データに関して、「若者」と「老人」の間で、文末過去形率の平均に差があるかどうか有意水準5%で検定しなさい。もし、有意差があれば、差の95%信頼区間を求めなさい。
(3) (2)と同じデータに対して、若者の基本語使用率が老人よりも高いと言えるか、検定しなさい。有意差があれば、95%信頼区間を算出しなさい。
 統計的検定および推定の練習問題
 課題用データ


[予告]
 次回は、分散分析の方法を学習します。 次の事項を予め、調べておくこと。
・分散分析
・3群以上の平均値差の検定で、分散分析を用いる理由
・全体の分散(SST)=群間の分散(SSA)+群内の分散(SSw)
・群間の自由度(dfAと群内の自由度w
・平均平方(MSA, MSw)
・F値
・分散分析の際の仮定(等分散性、正規性)
・事後比較
・多重比較
・テューキー法(Tukey method)