[5] 正規分布と標準化
多くの測定値を整理すると、平均付近の値が多く極端に大きい値や極端に小さい値は少ない。
⇒西洋の釣鐘を伏せた形状に分布する。
無限数のケースを測定すると、正規分布N(μ,σ2)を
なす。
正規分布の特徴:
・平均値を境に、左右均斉(平均値、中央値、最頻値が同じ値)。
・左右の裾野は、平均値から離れるほどX軸に近づいていく。
・平均値μと標準偏差σの値から、データ全体の分布の様子が分かる。
μ±σの範囲に全データの約68%、μ±2σの範囲には約95%が含まれる。
⇒推測統計で利用される。
全体のデータの中で、個々のデータが占める位置を示す測度。
5.2.1 Z得点と偏差値
標準化:正規分布を、標準正規分布へz変換すること。
z = ( X - μ )/ σ
z の分布は、標準正規分布N(0,12)(平均値0、標準偏差1)となる。
⇒zの値が決まれば、分布グラフ上の面積(確率)が求められる。
例:z>=1.96 の面積は 0.025 ⇒ 全体の95%は -1.96 <= z <= 1.96 の範囲内。
偏差値:z得点を、平均50、標準偏差10の分布に変換。
Z = 10 * z + 50
5.2.2 パーセンタイル順位・点
パーセンタイル順位:ある1つの得点の下に入る得点の数の百
分率。
例:80%順位は、その下に80%、その上に20%が入る。
パーセンタイル点:特定のパーセンタイル順位に対応するデータの
値。
5.3.1 Z得点と偏差値を求める
新聞投書データの中から基本語彙率に関して、各データの相対的位置(z得点と偏差値)を求めてみよう。
■ データの準備
新ブック「正規分布」の新ワークシート「基本語彙率標準化」を用意。
データ表中の基本語彙率データを、新シートにコピーアンドペーストする。
B1に「偏差」、C1に「z得点」、D1に「偏差値」とラベルを入力する。
■ 偏差 =(データの値−平均値)
E1に「平均値」と入力、G1に、基本語彙率データの平均値を算出。
B2に、計算式( )を入力して、計算実行。
計算式をデータ末尾まで複写して、各データの偏差を算出する。
■ z得点=偏差/標準偏差
E2に「標準偏差」と入力、G2に基本語彙率データの標準偏差を算出。
C2に、計算式( )を入力して、計算実行。
計算式をデータ末尾まで複写して、各データのz得点を算出する。
■ z得点の性質
E3に「z得点平均値」と入力、G3にz得点の平均値を算出。
E4に「z得点標準偏差」と入力、G4にz得点の標準偏差を算出。
■ 偏差値(Z得点)= 10 * z + 50
D2に、計算式( )を入力、計算実行。
計算式をD列全体に複写して、各データの偏差値を算出。
■ 偏差値の性質
E5に「偏差値平均値」と入力、G5に偏差値の平均値を算出。
E6に「偏差値標準偏差」と入力、G6に偏差値の標準偏差を算出。
5.3.2 分布の正規性:正規確率プロット
基本語彙率データのヒストグラムを描くと、正規分布に近い分布の様子が見てとれます。
基本語彙率データの正規確率プロットを描き、分布の正規性を調べてみよう。
■ データの準備
基本語彙率データをワークシート「基本語彙率正規プロット」にコピーする。
B1に「順位」、C1に「相対順位」、D1に「正規確率」とラベル入力する。
■ 各データの(昇順)順位を求める = rank(データ、データ範囲、並べ方)
データを小さい順に並べるのを昇順、大きい順に並べるのを降順という。
昇順の場合、rank関数の第3引数を1、降順の場合は無指定または0とする。
B2に、計算式( )を入力し、計算を実行する。
計算式を複写して、各データの順位を算出する。
■ 相対順位=(データの順位−0.5)/データ数
C2に、計算式( )と入力、計算実行。
計算式を複写して、各データの相対順位を算出する。
■ 正規確率=normsinv(データの相対順位)
関数normsinvは、標準正規分布の累積分布関数の逆関数の値を返す。
標準正規分布は、平均が 0 で標準偏差が 1 である正規分布に対応する。
D2に計算式( ) と入力し、計算実行。
計算式を複写して、各データの正規確率を算出する。
■ 正規確率プロットを作成する
X軸に各データ、Y軸に正規確率を指定した散布図を描く。
・グラフウィザードで「散布図」を選択。
・データ範囲はA列(データ)とD列(正規確率)を選択(A列を選択し、Controlキーを押しながら、D列を選択する)。
・グラフタイトル、X軸ラベル「データ」、Y軸ラベル「正規確率」。
・必要に応じて、グラフ表示を調整する。
■ 正規性の判断
おおよそ直線上に点が並んでいれば正規分布であると判断できる。A列とD列の相関係数を求め、rの値が1に近ければ直線(正規分布)に近いと判断できる。
[課題]
投書データセット中の数量データを3つ選んで、ヒストグラムを描きなさい(第2回参照)。データ数、平均、標準偏差の値を求めて、表形式で報告しなさい。
次に、選択したデータの正規確率プロットを描き、分布の正規性を調べて、データと正規確率の相関係数の値を報告しなさい。
[予告]
次回は、母集団と標本抽出を学習します。予め、次の事項を調べておきなさい。
・推測統計
・標本抽出
・ランダムサンプリング
・標本抽出分布
・理論的標準誤差、推定標準誤差
・中心極限定理