[5] 正規分布と標準化


  [5.1] 正規分布
  [5.2] 相対的位置の測度
  [5.3] 標準化と正規性

[5.1] 正規分布

 多くの測定値を整理すると、平均付近の値が多く極端に大きい値や極端に小さい値は少ない。
  ⇒西洋の釣鐘を伏せた形状に分布する。
 無限数のケースを測定すると、正規分布N(μ,σ2を なす。
 正規分布の特徴:
  ・平均値を境に、左右均斉(平均値、中央値、最頻値が同じ値)。   
  ・左右の裾野は、平均値から離れるほどX軸に近づいていく。  
  ・平均値μと標準偏差σの値から、データ全体の分布の様子が分かる。
   μ±σの範囲に全データの約68%、μ±2σの範囲には約95%が含まれる。
   ⇒推測統計で利用される。

   正規分布

[5.2] 相対的位置の測度

 全体のデータの中で、個々のデータが占める位置を示す測度。

5.2.1 Z得点と偏差値

 標準化:正規分布を、標準正規分布へz変換すること。
    z = ( X - μ )/ σ
   z の分布は、標準正規分布N(0,12)(平均値0、標準偏差1)となる。
   ⇒zの値が決まれば、分布グラフ上の面積(確率)が求められる。
    例:z>=1.96 の面積は 0.025 ⇒ 全体の95%は -1.96 <= z <= 1.96 の範囲内。

 偏差値:z得点を、平均50、標準偏差10の分布に変換。    
   Z = 10 * z + 50

5.2.2 パーセンタイル順位・点

 パーセンタイル順位:ある1つの得点の下に入る得点の数の百 分率。
  例:80%順位は、その下に80%、その上に20%が入る。
 パーセンタイル点:特定のパーセンタイル順位に対応するデータの 値。

[5.3] 標準化と正規性


5.3.1 Z得点と偏差値を求める

 新聞投書データの中から基本語彙率に関して、各データの相対的位置(z得点と偏差値)を求めてみよう。

データの準備
 新ブック「正規分布」の新ワークシート「基本語彙率標準化」を用意。
 データ表中の基本語彙率データを、新シートにコピーアンドペーストする。
 B1に「偏差」、C1に「z得点」、D1に「偏差値」とラベルを入力する。
■ 偏差 =(データの値−平均値)
 E1に「平均値」と入力、G1に、基本語彙率データの平均値を算出。
 B2に、計算式(           )を入力して、計算実行。
 計算式をデータ末尾まで複写して、各データの偏差を算出する。
■ z得点=偏差/標準偏差
 E2に「標準偏差」と入力、G2に基本語彙率データの標準偏差を算出。
 C2に、計算式(           )を入力して、計算実行。
 計算式をデータ末尾まで複写して、各データのz得点を算出する。
■ z得点の性質
 E3に「z得点平均値」と入力、G3にz得点の平均値を算出。
 E4に「z得点標準偏差」と入力、G4にz得点の標準偏差を算出。
■ 偏差値(Z得点)= 10 * z + 50
 D2に、計算式(           )を入力、計算実行。
 計算式をD列全体に複写して、各データの偏差値を算出。
■ 偏差値の性質
 E5に「偏差値平均値」と入力、G5に偏差値の平均値を算出。
 E6に「偏差値標準偏差」と入力、G6に偏差値の標準偏差を算出。

5.3.2 分布の正規性:正規確率プロット

基本語彙率データのヒストグラムを描くと、正規分布に近い分布の様子が見てとれます。

基本語彙率データの正規確率プロットを描き、分布の正規性を調べてみよう。

■ データの準備
 基本語彙率データをワークシート「基本語彙率正規プロット」にコピーする。
 B1に「順位」、C1に「相対順位」、D1に「正規確率」とラベル入力する。
■ 各データの(昇順)順位を求める = rank(データ、データ範囲、並べ方)
 データを小さい順に並べるのを昇順、大きい順に並べるのを降順という。
 昇順の場合、rank関数の第3引数を1、降順の場合は無指定または0とする。
 B2に、計算式(             )を入力し、計算を実行する。
 計算式を複写して、各データの順位を算出する。
■ 相対順位=(データの順位−0.5)/データ数
 C2に、計算式(           )と入力、計算実行。
 計算式を複写して、各データの相対順位を算出する。
■ 正規確率=normsinv(データの相対順位)
 関数normsinvは、標準正規分布の累積分布関数の逆関数の値を返す。
 標準正規分布は、平均が 0 で標準偏差が 1 である正規分布に対応する。
 D2に計算式(          ) と入力し、計算実行。
 計算式を複写して、各データの正規確率を算出する。
■ 正規確率プロットを作成する
 X軸に各データ、Y軸に正規確率を指定した散布図を描く。
 ・グラフウィザードで「散布図」を選択。
 ・データ範囲はA列(データ)とD列(正規確率)を選択(A列を選択し、Controlキーを押しながら、D列を選択する)。
 ・グラフタイトル、X軸ラベル「データ」、Y軸ラベル「正規確率」。
 ・必要に応じて、グラフ表示を調整する。



■ 正規性の判断
 おおよそ直線上に点が並んでいれば正規分布であると判断できる。A列とD列の相関係数を求め、rの値が1に近ければ直線(正規分布)に近いと判断できる。



[課題]
 投書データセット中の数量データを3つ選んで、ヒストグラムを描きなさい(第2回参照)。データ数、平均、標準偏差の値を求めて、表形式で報告しなさい。
次に、選択したデータの正規確率プロットを描き、分布の正規性を調べて、データと正規確率の相関係数の値を報告しなさい。
数量データ名データ数平  均標準偏差相関係数
     
     
     

[予告]
 次回は、母集団と標本抽出を学習します。予め、次の事項を調べておきなさい。
・推測統計
・標本抽出
・ランダムサンプリング
・標本抽出分布
・理論的標準誤差、推定標準誤差
・中心極限定理