[8] t−検定:2つの平均値差の検定
2つの母集団の平均値 μ1, μ2
の間に差があるかどうかを検定する。2つの母集団に対応する2つの標本から得られた平均値 X~1 と X~2
の差を手がかりとし、その差(を変換した値)がある値(臨界値)と比較して、差が有意かどうかを判定する。
8.1.1 独立
独立:2つの集団に属する要素同士に関係がないこと。
処理と水準:被験者に対する操作(特定の学習法の施行など)とその種類。
2つの群(標本)の平均値の差は、それぞれの母集団の差(ある処理水準の効果)と判定できるか?
8.1.2 検定の手順
2つの独立した平均値の差の検定とその手順:
- 仮定:
1. 両群は独立であり、各群の被験者は独立かつ無作為に抽出されたものである。
2. 母分散は等質であり、(X~1 - X~2) の母集団の分布は正規である。
- 仮説:
H0:μ1 = μ2
H1:μ1 ≠ μ2(⇒両側検定)
またはμ1 > μ2(⇒右片側検定)
またはμ1 < μ2(⇒左片側検定)
- 決定のルール:
有意水準αを定め、自由度 n1+n2-2 に対応する t の値(臨界値)を
t 分布表から読み取る。(両側検定のときは、α/2 に対応する t 値。)
(Excelでは、両側検定のときtinv(α, df)、片側検定のときtinv(2*α, df)で求める)
- 検定量の計算:
2母集団の分散が未知なので、2つの標本の分散で代用する。
検定量 t0 =
(X~1 - X~2) / SX~1-X~2
大標本(n>30)で、母分散が等しいとき、t0 = (X~1 - X~2)
sqrt(( S21 / n1 + S22
/ n2 )
- 結論:
標本から得られる検定量(の絶対値)が臨界値よりも大きければ帰無仮説を棄却、そうでなければ帰無仮説を採択する。
2つの母集団の平均値差を検定する際に、「2つの母集団は正規分布をする」ことが前提されている。また、2つの母分散が等しいかどうかを、前もってチェックしておく必要がある。
8.2.1 正規性
2つの母集団の分布が正規であれば、(X~1-X~2)
の標本分布も正規となる。 たとえ、2つの母集団が正規でなくても、標本のサイズが十分に大であれば、正規性は保障される。(中心極限定理)
8.2.2 等分散性の検定(F検定)
平均値差検定の前検定として、等分散性の検定(F 検定)を行う。
母集団の分散は標本の分散に反映される。→2つの標本分散の比(F 値)を求める。
- 仮説
H0:σ21=σ22(分散が等し
い)
H1:σ21≠σ22(分
散が等しくない)
- 決定のルール
有意水準 α=0.25
くらいに設定し、分子(分散の大きい標本)・分母(分散の小さい標本)となる標本の自由度に基づき、F分布から臨界値を読み取る。
- 検定量の計算
F0 = S21 / S22
- 結論
検定量 F0が臨界値よりも大きければ、有意水準αレベルにおいて帰無仮説(分散は等しい)を棄却する。
F検定の結果、母分散が等しい⇒「等分散を仮定したt検定」
母分散が等しくない⇒「非等分散を仮定したt検定(ウェルチの検定)
ただし、nが十分大であり、しかも、n1 と n2が近ければ、t検定の結果にあまり影響しない。したがって、両群のサイズをできるだけ大きくし、サイズを等しくすることが望ましい。
8.3.1 関連した標本
関連した標本とは:
- 同一の被験者を、実験と統制の両条件下で観測する。実験順序による持ち越し効果に注意。
- 同一の被験者を、繰り返し観測し、ある処理の効果による時間的変化を観察する。
- 1対の被験者が、調べようとする変数に関して同一であるようにする。ある調査項目に関して同レベルの被験者でグループを構成する。
8.3.2 検定量
平均値の差が0である(平均値の等しい)2つの母集団から1対を抽出し、その差を D = X1-X2とする。n対からなる標本から、
D~
検定量T = ---------- 〜N(0, 12)
SD / √n
新聞投書データの漢字率に関して、男女別データを用意して、それぞれの平均値に有意差があるかどうか、検定してみよう。
8.4.1 男女別漢字率データ準備
- datahyou.dat 全体を選択して、「データ」メニューの「フィルタ」から「オートフィルタ」を選択。
各列ラベルにフィルタ項目が設定される。
- 「性別」データの▼をクリックすると、フィルタすべき項目が表示される。
「男」を選択すると「男」性のデータだけが表示される。
- 漢字率データ全体を選択して、新ブックの新シート(「性別漢字率」)のA列にペーストする。
- 同様に、オートフィルタを使って女性データだけを表示させる。
漢字率データを選択コピーして、「性別漢字率」シートのB列にペーストする。
- A列、B列に「男性漢字率」、「女性漢字率」というラベルをつける。
8.4.2 男女2標本の等分散性を検定する
- 2標本の分散を計算
- 2標本の自由度を算出(データ数-1)
- 検定量F0を算出(分散の大きい方を分子にする)
- 有意確率を計算(=fdist(F, df1, df2) )
※ExcelでF値の上側確率=finv(F0,分子自由度, 分母自由度)
- 「ツール」メニューから「分析ツール」を選択し、「F検定:2標本を使った分散の検定」を選択する。
- ダイアログの「入力元」において、「変数1」と「変数2」を指定する。(「ラベ
ル」欄にチェック。)
- 有意水準αを大きめ(α=0.05)に設定する。(等分散の採択域を狭く設定するために、α=0.25に設定することもある)
- 出力先を指定する。
- 検定量、臨界値、P値を読み取り、結論を出す。
- 分析結果を報告する。(注:Excelの分析結果をそのまま流用してはならない。)
8.4.3 等分散を仮定しないt検定を行う
- 「ツール」メニューから「分析ツール」を選択し、「t検定:分散が等しくないと仮定した2標本による検定」を選択する。
- 表示されるダイアログにおいて、「入力先」の「変数1」と「変数2」を指定する。(ラベル欄にチェック)
- 「2標本の平均値の差」として0を指定する。(μ1−μ2=0)
- 有意水準αとして0.05を指定する。
- 「出力先」を指定する。
- 検定量、臨界値、P値を読み取り、結論を出す。
- 分析結果を報告する。(注:Excelの分析結果をそのまま流用してはならない。)
8.4.4 平均値差の信頼区間を計算する
検定の結果、有意差があるときは、平均値差の信頼区間も算出してみよう。
大標本(2標本の合計が100以上)であれば、次のようにして下限値、上限値を求めます。
- 平均値差=X~1−X~2
- 境界値=z(α)またはtinv(α, 自由度)
(自由度=n1+n2-2)
- 標準誤差SE=sqrt(S12/n1 + S22/n2)
- 下限値=平均値差 − 境界値*SE
上限値=平均値差 + 境界値*SE
(注:得られた区間が 0 を含まないことを確認する。)
[課題]
(1) 新聞投書データのうち、投稿者の年齢に関して男性と女性の平均値を求めなさい。男女の平均値に差があるかどうかを、手順に従って検定しなさい。 有意差があれば、平均値差の95%信頼区間を求めなさい。
(2) 年齢が30歳未満なら「若者」、年齢が60歳以上なら「老人」とします。新聞投書データに関して、「若者」と「老人」の間で、文末過去形率の平均に差があるかどうか有意水準5%で検定しなさい。もし、有意差があれば、差の95%信頼区間を求めなさい。
(3) (2)と同じデータに対して、若者の基本語使用率が老人よりも高いと言えるか、検定しなさい。有意差があれば、95%信頼区間を算出しなさい。
統計的検定および推定の練習問題
課題用データ
[予告]
次回は、分散分析の方法を学習します。 次の事項を予め、調べておくこと。
・分散分析
・3群以上の平均値差の検定で、分散分析を用いる理由
・全体の分散(SS
T)=群間の分散(SS
A)+群内の分散(SS
w)
・群間の自由度(df
Aと群内の自由度
w
・平均平方(MSA, MSw)
・F値
・分散分析の際の仮定(等分散性、正規性)
・事後比較
・多重比較
・テューキー法(Tukey method)