[9] 分散分析


  [9.1] 分散分析の基礎
  [9.2] 分散分析の仮定
  [9.3] 多重比較

[9.1] 分散分析の基礎

 母集団の数が3つ以上ある場合に、それらの平均値の間に差があるかどうかを検定するには分散分析を用いる。

9.1.1 3個以上の平均値の差の検定

 2標本対に対して t 検定を繰り返すことの問題点

9.1.2 分散分析 ANOVA の基礎概念

  1. 「全体の分散」を、「群間の分散」と「群内の分散」に分ける。
    「全体の分散(平方和)SST」:各得点と総平均との偏差を2乗した値の総和。
           SSTji(Xij - T~)2
    「群間の分散(平方和)SSA」:各群の平均値 A~jから総平均値 T~ を引いた値の2乗に、各群の個数 n に重みづけして、総和した値。
           SSAjni( A~j - T~ )2
    「群内の分散(平方和)SSw」:個々の値と群平均値との偏差の平方を総和し、全部の群の値を総和。
           SSwji(Xij - A~j)2
  2. 各平方和の値をその自由度で割って、平均平方を求める。
  3. 群間の自由度 dfA = 群の数 − 1
    群間の平均平方 MSA = SSA / dfA
    群内の自由度 dfw = 全データ数 − 群の数
    群内の平均平方 MSw = SSw / dfw
  4. 群間と群内の平 均平方の比( F 値)を求める。
       F0 = MSA / MSw
    MSA:誤差と処理の効果(各群の平均値の差)の成分からなる。
    MSw:誤差(各群内の平均値まわりの個人差変動)の成分のみからなる。
    したがって、F 値が大きいほど処理の効果は大きい、といえる。逆に、各群の平均値差がなければ、F値は1となる。
  5. 帰無仮説を検定する。
    H0: μ1=μ2=μ3 (各群の平均値はすべて等しい)
    H1: 帰無仮説は成立しない(各群の平均値のどこかに差がある)
    特定の有意水準での F 値(境界値)を求める。
    標本から F0を算出して、境界値と比較する。もし F0 の値が特定の値以上であれば、帰無仮説を棄却し、そうでなければ棄却しない。
    帰無仮説が棄却されたとき、3つ以上の群の平均値のどこかに差があることになる。しかし、どの群とどの群の間に差があるのかは明らかではない。

[9.2] 分散分析の仮定

 各群の属する母集団の分散は等しい(σ123)との 仮定が必要。ただし、各群のサイズが十分に大きく、かつ、サイズが相互に等しければ、分析結果に影響しない。

9.2.1 分散分析の仮定

ハートレーのFmax:等分散性の検定(3標本以上の場合)

  1. 各群のうち、もっとも大きい分散と、もっとも小さい分散の比 Fmax を求める。
          Fmax = S2max / S2min
  2. 水準数(群数)と自由度( n-1 )に基づき、Fmax の表から臨界値を読み取り、計算で得られた F 値と比較する。
    F 値が臨界値より大きければ、等分散という帰無仮説を棄却する。
      (注)母分散が正規でないとき、Fmax は好ましくない。

9.2.2 母分散の正規性

 各群の母分散が正規であることが仮定されている。母分散が正規なら、標本分散も正規となり、F 検定を利用できるようになる。
 ただし、十分な大きさの n が抽出され、正規から極端に離れていなければ、分析結果には影響しない。

 母分散が正規でないときは、ノンパラメトリック検定を使用する。

[9.3] 多重比較

包括的検定:一括して複数の平均値の差を分散分析すること。
包括的検定は、全体として平均値に差があるかどうかを問題にする。事後比較により、どの群の間に差があるかを調べる。

9.3.1 事後比較

事後比較:実験が行われた後で、(包括的な分散分析が有意であったのを受けて)比較を行う。
2回以上複数回の比較を行う場合、「1回またはそれ以上第1種の誤りを犯す確率」は比較回数が増すほど高まっていく。
   ↓
αFW がαの値を超えないように工夫されている検定法を利用する。

9.3.2 テューキー法

  1. 各群の n は等しく、各群の母分散も等しいと仮定する。
  2. q = | A~i - A~j | / sqrt( MSw / n )の値を算出する。
  3. 「スチューデント化された範囲の表」から、特定の有意水準、平均値の数(r)、自由度(df)によって臨界値を読み取る。
  4. 算出した q の値が臨界値以上であれば、帰無仮説を棄却し、平均値の差が有意と判定する。
    (cf.) 全ての群について対検定する際は、各群間の平均値差が次のHSD より大きいなら有意差ありと判定する。
      HSD = qα,r,df * sqrt( MSw / n )  (nが等しいとき)

      HSD = qα,r,df * sqrt( MSw * ( 1 / Ni + 1 / Nj ) / 2 )  (nが等しくないとき)

9.3.3 シェフェー法

a 個の平均値のあらゆる比較が可能な事後検定法。
多くの対を比較するため「控えめ」(有意差が出にくい)である。
各群の母分散の等質性、正規性が侵されても成り立つ「頑健な」検定法。

  1. 次の式で F 値を求める。w は線型比較における係数。
        F = t2 = ( j wjX~j )2 / MSw * ( j (w2j / nj))
  2. 臨界値 FS を求める。
     2.1. 有意水準α、分子の自由度 a-1、誤差項の自由度 df に対応する F 値を F 分布表から読み取る。
     2.2. 臨界値 FS = (a-1) * Fα、a-1, df を算出する。
  3. F0値が臨界値 FS以上なら、帰無仮説を棄却し、有意差ありと判定する。

[9.4] 3個以上の平均値差の検定

 新聞投書データを投稿者の年齢に応じて、若年(25歳未満)、壮年(45歳未満)、熟年(65歳未満)、老年(65歳以上)という4つのグループ に分割する。文長データに関して、各年齢層の平均値に差があるかどうかを検定してみよう。

9.4.1 データを4つの年齢層に分割する

  1. 新しいExcelファイルを開き、新シートのタイトルを「年齢別文長」とする。
  2. もとのdatahyou データ全体を選択し、「データ」メニューの「フィルタ」→「オートフィルタ」を選択する。
  3. 年齢データ(C列)のプルダウンメニューをクリックし、「(オプション)」を選択する。
  4. 表示されるダイアログにおいて、条件を指定する。
    a. 若年だけのデータを抽出するには、「年齢」が「25」「より小さい」を指定する。
    b. 壮年データを抽出するには、「年齢」が「25以上」「AND」「45より小さい」と指定。
    c. 同様に、熟年、老年データを抽出する。
  5. 表示された「若年」データ全体をコピーし、新シートの A 列にペーストする。
  6. 同様に、「壮年」「熟年」「老年」データを抽出して、B列、C列、D列にペーストする。

9.4.2 分散分析の前に

  1. 年齢層ごとにサンプルサイズ、平均値、分散を算出する。

  2. 年齢グループの平均値を棒グラフに表示する。

  3. ハートレーのFmaxを計算する。(注:最小の分散値を分母、最大の分散値を分子とする)
    Fmax = Smax / Smin =
    付表Mより、境界値を読み取る。(注:分散数nは群の数、自由度dfは、最大群の標本数-1)
  4. 検定量と境界値を比較して、結論を出す。
  5. 通常の F 検定を行ってもよい。(「分析ツール」から「F 検定」を選択する。)
    分散最大の老年と、最小の壮年の2標本を対象とする。
    有意水準をα=0.25とすることもある。
    F 検定の結果、(                                        )
    ただし、今の場合は、サンプルサイズが十分に大きいので、等分散の条件を満たしていなくても結果には大きく影響しない。

9.4.3 分散分析の実行

  1. 「分析ツール」から「分散分析:一元配置」を選択する。
  2. データ範囲、有意水準α=0.05、出力先を指定する。
  3. データの概要とともに、分散分析表が表示される。
  4. H0:4つの平均値に差がない。
    H1:4つの平均値(のどこかに)差がある。
    有意水準α=0.05の場合の臨界値 F(3, 2468)= 2.61
    検定量:F0 =MSa / MSw = 772.54 / 87.13 = 8.87
    F0 = 8.87 > 2.61 より、5%レベルで、文長の各年齢層の平均値に差があると言える。
    Pr(F>=8.87) は0.001 よりも小さいので、0.1%レベルで有意差があると言える。
  5. 有意差が認められるので、どのグループ間に有意差があるかを調べるために、多重比較を行う。

9.4.4 テューキー法(Tukey method)による対比較

・各群の母分散が等しいという仮定が必要
・各群の平均値差と臨界差 HSD の値を比較する。

  1. 各年齢層の平均値を求め、すべての対での平均値差を算出する。
    年齢層の対 平均値の差
    (a) 若年と壮年     
    (b) 若年と熟年     
    (c) 若年と老年     
    (d) 壮年と熟年     
    (e) 壮年と老年     
    (f) 熟年と老年     
  2. 臨界値 HSD(Honestly Significant Difference) を算出する。
    各年齢層のデータ数が同じではないので、
      HSD = q(α,r,df) * sqrt( MSw * (1/Ni + 1/Nj) / 2 )
       (平均値数 r=群の数、誤差項の自由度 df=サンプルサイズ−群数)
      ステューデント化された範囲の表より、有意水準5%ならば q = 3.63、有意水準 1% ならばq = 4.40 である。
  3. 年齢層の対 平均値の差 HSD(α=0.05) HSD(α=0.01) 判  定
    (a) 若年と壮年                    
    (b) 若年と熟年                    
    (c) 若年と老年                    
    (d) 壮年と熟年                    
    (e) 壮年と老年                    
    (f) 熟年と老年                    
  4. 平均値差と臨界値 HSDを比較して判定する。
    平均値差と臨界値 HSDを比較し、平均値差がHSDより大きければ H0を棄却し、各有意水準において差が有意であると判定する。

9.4.5 シェフェイ法(Sheffei method)による対比較

対比較:2つ年齢層(若年と壮年)の文長平均値に有意差があるかどうかを調べる。

  1. 仮説
     H0: μ1=μ2
     H1: μ1≠μ2
  2. 有意水準α=0.05, 0.01, 0.001
     臨界値 Fs = ( a – 1 ) * F( a-1, df, α)、
     (aは平均値の数、df は誤差項MSの自由度=全データ数−群数)
     α=0.05 のとき、Fs=
     α=0.01のとき、Fs=
     α=0.001のとき、Fs=
  3. 検定量 F0を計算する
     対比較の場合、 w1 = 1, w2 = -1 となる
     検定量 F0=( M1 – M2 )^2 / MSw * (1/n1 + 1/n2 )
      検定量の分子=( M1 – M2 )^2 =
      検定量の分母=MSw * (1/n1 + 1/n2 )=
      検定量 F0 = 分子/分母=
  4. 判定
     検定量 F0 = 16.08 より、有意水準1%レベルでH0を棄却する。すなわち、若年と壮年の文長 平均値に有意差があると言える。
[課題]
 新聞投書データの中から数量データ(漢字率、名詞率、MVR、基本語彙率、指示詞率)を選び、4つの年齢層のデータに分割しなさい。各年齢層の平均値に差があるかどうか、分散分析を行いなさい。有意 差が認められたときはテューキー法を用いて多重比較を行いなさい。

[予告]
 次回は、カイ2乗検定の方法を学習します。 次の項目を事前に調べておくこと。
・分割表
・χ2乗検定
・適合度の検定
・イェーツの補正
・独立性の検定
・クラメールの連関係数 V
・ファイ係数φ