[7] 統計的仮説の検定


  [7.1] 統計的仮説検定の考え方
  [7.2] 統計的検定の手順
  [7.3] 第1種と第2種の誤り
  [7.4] 平均値の区間推定
  [7.5] 母比率の検定と推定

[7.1] 統計的仮説検定の考え方

 標本での変数間の「差や関連性」に基づいて、母集団での「差や関連性」を予測する
 →母集団においても「差や関連性」が本当に(有意に)あると判断できるかを決定する。

 標本に見られる差異や関連性が、母集団においても有意な差や関連性と認められるか、どうかを決定する。
偶然(=要素の抽出)による誤差程度の差なのか、意味のある、実質的なものなのか?
 母集団と標本抽出分布の間の統計数理的(確率)な関係に基づいて、「客観的」に判断する。

[7.2] 統計的検定の手順

  1. 観察された差は本質的な差ではない(誤差に過ぎない)と仮定する。(帰無仮説)
  2. 差はないとする仮説の下での標本抽出分布を考える。
    (例) 平均μ、標準偏差σの母集団から標本を抽出すると、抽出標本の平均値の分布は、平均μ、標準偏差 σ/√nの正規分布に従う。
  3. (研究者が得た)ある標本の値(検定量)が標本抽出分布においてどのような位置を占めるかを見る。
  4. 検定量(以上)の値が得られる確率が極端に低ければ、帰無仮説を棄てて、対立仮説を採用する。
    (仮説を棄却・採択するかどうかの基準(有意水準)は、予め決めておく。)

7.2.1 統計的仮説

 帰無仮説 H0:母集団の値と標本の値には、差がない。(通常、研究者が否定したい仮説)
  X~ - μ = 0
 対立仮説 H1:帰無仮説を否定する形式の仮説。(=研究者が主張したい仮説)

 検定の方向性
  (i) X~ - μ ≠ 0  (X~>μ か X~<μ かは推測できない → 両側検定)
  (ii) X~ - μ < 0     (X~>μ と考える根拠あり → 右片側検定)
 (iii) X~ - μ > 0     (X~<μ と考える根拠あり → 左片側検定)

7.2.2 有意水準

 有意水準 α:帰無仮説を棄却するかどうかを決める、境界的な確率の値。
  慣例的にα= 0.05, 0.01 などに設定することが多い。
 決定のルール:検定量が棄却域に入るなら帰無仮説を棄却する。そう でないなら帰無仮説を採択する。

7.2.3 検定量の計算

 目的や条件(標本サイズの大きさ、母分散が未知など)に応じて、検定量 z, t, F, χ2を決める。
 標本の平均値が母平均と異なるか?
  ケース1:σが既知なら、この標本平均値 X~ のz検定量 z0を求める。
    z0 = (X~-μ) / σ/√n
    
⇒ zは標準正規分布に従う。
  ケース2:σが未知なら、標本標準偏差 S で代用して、この標本平均値の t 検定量 t0 を求める。
    t0 = (X~-μ) / S/√n
    
⇒ t は自由度 n - 1 の t 分布に従う。

7.2.4 判定と結論

 臨界値:設定した有意水準に対応する z や t の値。
  z 分布表、 t 分布表から値を読み取る。
 (注)1. 両側検定のとき、α/2 の値を見ること
    2. 臨界値の t 値は、有意水準と自由度により、分布表から読み取る。
 有意確率:標本から得られた値(検定量)以上の値が得られる確率。
   例:P = Pr{ z >= z0 } = 0.021 < 0.05

 
結論
:「有意水準αにおいて」「n%レベルで」と、第1種の誤りの確率を明示する。
   |検定量| > 臨界値(つまり、有意確率 < 有意水準)なら、帰無仮説を棄却する。
    ⇒ すなわち、「差があると言える」=「有意である」
   |検定量| < 臨界値(つまり、有意確率 > 有意水準)なら、帰無仮説を採択する(棄却できない)。
    ⇒ すなわち、「差がないことを否定できない」

[7.3] 第1種と第2種の誤り

第1種の誤り:本当は真であるH0を 誤って棄却する危険率。有意水準αに等しい。
第2種の誤り:本当は偽であるH0を誤って棄 却しない確率β。
 2種類の誤りは、一方を小さくしようとすると他方が必ず大きくなり、両方を同時に小さくすることはできない。
検出力:偽であるH0を正しく棄却する確率 で、1−βに等しい。


検出力を高めるには、

  1. 有意水準αを大きくする。(⇒第1種の誤りの危険率も高くなる。)
  2. 標本サイズを大きくする。(⇒H0と H1を区別しやすくなる。)
  3. 0とH1の平均値が離れていること。
  4. 両側検定よりも、片側検定。

[7.4] 平均値の区間推定

 標本の平均値X~に基づいて、母平均μの範囲を推定する。
 平均μの母集団から、標本サイズNで標本抽出するときの分布の平均はX~=μ、標準偏差(標準誤差SE)はσ/√Nの正規分布となる。今、σが未知なので標本標準偏差Sで代用すると、標本抽出分布はt分布となる。このt分布の平均はX~=μ、標準偏差はS/√n、自由度n−1 のt分布となる。
 このt分布の95%信頼区間(あるいは99%信頼区間)を計算する。
  下限値:X~−tα/2, df * S/√N
  上限値:X~ + tα/2, df * S/√n
 (注意:Excelでtα/2, dfを求めるとき、tinv(0.05, df)またはtinv(0.01, df)とする。αの値を2で割らない。)

[7.5] 母比率(母割合)の検定と推定

7.5.1 母比率の検定

標本の割合に基づいて、母集団での割合が特定の値と等しいかどうかを検定する方法
標本サイズが30以上のときは、正規近似法で検定
標本での割合をp、特定の比較値をP0 、標本サイズをnとするとき、次の検定量 T が近似的に標準正規分布に従うことを利用します。
      ( p - P0)
  T = ---------------------   〜 N(0, 12)
    sqrt( P0*(1-P0)/n)

検定の手順は、1平均の検定とまったく同じです。

7.5.2 母比率の推定

 標本で得られた割合に基づいて、信頼係数95%(あるいは99%で)母集団での割合を推定することができます。標本サイズが30以上のときは、標準正規分布を利用して、信頼区間を求めます。pは標本割合、nは標本サイズとすると、
  下限値:p - zα/2 * sqrt( p * ( 1-p ) / n )
  上限値:p + zα/2 * sqrt( p * ( 1-p ) / n )

[課題]
 統計的検定および推定の練習問題
 統計的検定および推定の練習問題

[予告]
 次回は、検定と推定の問題の解答をします。次次回は、2つの平均値の差を検定する方法を学習します。以下の事項を予め調べておいてください。
・独立した標本、対応のある(関連した)標本
・処理と水準
・独立2標本の平均値の差の検定(t検定)の手順
・等分散性の検定(F検定)
・平均値の差の推定(信頼区間)