[2] 度数分布表とヒストグラム


  [2.1] 統計法の基本
  [2.2] 度数分布と図表
  [2.3] 度数分布作表とヒストグラム作図

[2.1] 統計法の基本

2.1.1 記述統計法と推測統計法

 記述統計法:対象となる集団に対し、分析を加え、情報を取りまとめ、集約する。
 推測統計法:母集団から、標本を(無作為に)抽出し、統計的手法により、その標本の値から母集団の様子を推測する。統計的推定や統計的検定など。


記述統計法と推測統計法の手順


2.1.2 変数

 独立変数:実験者の統制下にあり、操作する変数。処理、要因。
 依存変数:実験者によって測定され、独立変数に依存して変わる変数。
  独立変数を横軸に、依存変数を縦軸にプロットする。

変数のタイプ分け
 質的変数 : カテゴリ名(性別、職業、出身地など)、順位を示唆するもの(上中下など)
 量的変数 : 離散的(子供の数、など)、連続的(身長、体重)

測定の水準 数学的関係 等間隔性 絶対的0点
名義尺度 性別、職業 なし なし なし
順位尺度 上中下、優良可 あり なし なし
間隔尺度 温度、西暦 あり あり なし
比例尺度 身長、体重 あり あり あり

 (間隔・比例尺度は連続的であるが、実際の測定では離散的変数として扱われる。)

[2.2] 度数分布と図表

2.2.1 図表

データを図表にして表示すると、
 直感的イメージをとらえやすい。ただし、個々のデータの特殊性は失われる。
(1) 棒グラフ、円グラフ
   カテゴリに属する個体(データ)数の比率。
(2) 度数分布表
   数量データをクラス分けし、各クラスの度数 frequency を数える。
   ・級間(クラスの幅)の設定(切れのよい数値に設定)
   ・真の限界(真の上限値と真の下限値)
   ・クラスの数(10〜20が適当、クラス数=(最大値−最小値)÷級間幅)
   ・相対度数:あるクラスに属するデータの数(度数)が全体に対して占める割合
   ・累積度数と累積相対度数
(3) ヒストグラム、度数多角形、累積度数多角形
   度数分布表の数値をグラフで表示。
   ・ヒストグラムではクラス間に間隔をおかない。
   ・最初のクラスの1つ下、最後のクラスの1つ上のクラス(度数0)を含める。

2.2.2 Excel 基本操作

(1) テキストファイルを読み込む
・「ファイル」メニューから「開く(O)」を開き、対象ファイルを指定する。
・ウィザード1枚目で、元データの形式を指定する。(区切り文字か固定長データか)
・ウィザード2枚目で、区切り文字を指定する。
・ウィザード3枚目で、プレビューを確認して、完了を押す。
(2) 「分析ツール」のアドイン
・「ツール」メニューから「アドイン…」を選択する。
・「分析ツール」にチェックを入れて、OKボタンを押す。
・一度アドインすると、以後「ツール」メニューに登録される。
(3) 入力とセル移動
・キー入力後、Enterキー押下で1つ下のセルへ移動する。
・キー入力後、Tabキー押下で1つ右のセルへ移動する。
・矢印キー「↓」「↑」で一つ上下のセルに移動する。
・矢印キー「→」「←」で一つ左右のセルに移動する。
・Ctrl^Home で、ファイルの先頭に移動。
・Ctrl^End で、ファイルの末尾に移動。

[2.3] 度数分布表とヒストグラムを作成

datahyou.dat を開き、投稿者年齢の度数分布表とヒストグラムを作成してみよう。

データとワークシートを準備する

データの選択
・単一のセルはマウスでポイントする。
・複数のセルは当該範囲をマウスでドラッグする。
・列全体、行全体の選択は、当該列ラベルまたは行ラベルをマウスでクリックする。
・ 選択された列や行のラベルやデータの背景色が反転する。
・複数の列、または行の選択は、当該の列または行をドラッグする。
 (注)離れた列または行を選択するには、Ctrlキーを押しながら、次の列または行をポイント(またはドラッグ)する。
・シート全体を選択するには、表の左上隅にセル(ラベルなし)をクリックする。

データの複写(一時保存)=Ctrl^C
・選択データをコピーするにはコントロールキーを押しながらCキーを押す(Ctrl^C)(推奨)
 (注)「編集メニュー(E)」から「コピー(C)」を選択してもよい。

ワークシートの挿入
・新しいシートを挿入するには、「挿入(I)」メニューから「ワークシート(W)」を選択する。

シートのタイトルを入力
・画面左下のシートタブ欄に、現在シートの左に新しいシートタブができる。
・ タブのラベルをダブルクリックすると黒く反転させ、シート名「年齢ヒスト」を入力する。

データのペースト=Ctrl^V
・ペースト開始位置列(または開始位置セルも可)をマウスでクリックする。
・コントロール キー+Vキーを押す(Ctrl^V)。(推奨)
 (注)「編集メニュー」から「貼り付け(P)」を選んでもよい。

クラス数を設定する

最大値=max(データ範囲)
・最大値を表示させるセルを選択する。
・=max( と 半角文字で入力する。(最初の "=" は、表計算させるときに必要。)
 max() は最大値を求めるための関数で、( ) の中に対象データを指定する。

データ範囲の指定  
・当該データ全体を選択するには、列ラベルをクリックする。("A:A" と表示される。)
 一般に、データ範囲は(開始セル:終端セル)でキー入力でも指定できる。
・関数の閉じかっこを入力する。(入力は省略可能)

計算の実行=Enterキー
・Enterキーを押すと計算が実行される。当該セルに計算結果が表示される。

最小値=min(データ範囲)
・関数 min(データ範囲) を使って、当該データ(列全体)の最小値を求める。

クラス数=計算式の実行
・年齢のクラス間隔を10とする。
・クラス数((最大値−最小値)÷クラス間隔 )を計算する。
・計算に必要な値は、キー入力ではなく、値を表示しているセルを指定して計算する。
・セル指定は、キー入力またはマウスクリックで行う。

各クラスの度数を集計する

クラスの上限値入力=入力補完
・各クラスの範囲を決める。(10歳刻みとする。)
・Excel では、各クラスの上限値だけを入力すればよい。
・パタン化できるキー入力は入力補完機能を利用する。
・パタンを示すセル範囲をマウスでドラッグして選択する。
・この状態で、マウスカーソルを選択範囲セルの右下隅に合わせると、カーソルが+印に変化する。
・その状態で、マウスを下にドラッグすると、パタン化された値(ボックス中の数字)が表示される。
・目的の数値までドラッグし、ポイントを離すと、それまでの数値が自動的に入力される。

分析ツールの「ヒストグラム」
・「ツール」メニューから「分析ツール」を選択する。
・「データ分析」ダイアログの中から、「ヒストグラム」を選択し、「OK」を押す。
・「ヒストグラム」ダイアログが表示される。
・データ範囲の指定 度数集計の対象となるデータの範囲を指定する。(キー入力またはマウスでクリック)  
(注)キー入力で指定するときは、データ先頭のセル番号、コロン、データ末尾のセル番号を半角文字で入力する。  
(注)マウスで指定するときは、赤い矢印のついた部分をクリックした後、データ範囲をクリックまたはドラッグする。  
(注)列の1行目が変数名のラベルのときは、ラベルの欄にチェックを入れる。
・データ区間の指定 クラス上限値を入力した列を指定する。  
(注)範囲指定は、キー入力でも、マウスを使ってもよい。
・出力先の指定 集計結果を出力する際の開始位置となるセル番地を指定する。
・出力オプションの指定
 「パレート図」、「累積度数分布の作成」、「グラフの作成」にはチェックを入れない。
・「OK」ボタンを押すと集計結果が表示される。  
(注)最初のクラスの真の下限値、上限値は-0.5以上10.5未満である。したがって、データ10はこのクラスに含まれることになる。

相対度数を計算する

データ数の合計=sum(データ範囲)   
・データ数表示セルに、"=sum(F2:F12)"と入力し、計算を実行する。   
・関数 sum( 対象データ範囲 )を使うと、対象データ範囲の合計 値を計算できる。   
(注)データ範囲の指定はキー入力してもよいし、マウスでド ラックしてもよい。  
(注)集計表示セルをクリックした後、ツールバーにあるシグマアイコ ンをクリックすると、計算式が 入力される。

相対度数=式複写による表計算   
・G1 に「相対度数」と入力し、G列に各クラスの相対度数(全体に占める割合)を表示する。
 相対度数(%)= (F2の度数÷データの総数×100)で求める。
・セルG2に、計算式 "=F2/F13*100" を入力し、エン ターキーで実行する。  
・セルG3に、計算式 "=F3/F13*100" と入力して、順次、相 対度数を求めても良いが、面倒である。   
・計算式の類似性に着目して、計算式を複写して、 一気に計算させる方法を採る。
 「F列(固定)の行(変動)にある数値を、合計(F14は固定セル)で割る」
・計算式の中で、固定の列や行の前に「絶対参照」の "$" をつけて計算する。
 F2には、"=$F2/$F$13*100" と入力して、計算を実 行する。   
・マウスのカーソルをF2の右下隅に合わせると、 +印に変化する。   
・その状態で、G列を下にドラッグし、G12でマウ スを放す。
・各セルにおいて計算式が複写され、 その結果が表示される。

■ 小数の表示=桁上げ・桁下げ
・小数のデータは小数点以下の表示桁数を揃える。
・相対度数列を選択して、ツ ールバーの 「小数点表示桁下げ」ボタンを押して、データを小数点以下1 桁に揃える。

累積度数、累積相対度数を計算する

累積度数の計算
・セルH1に「累積度数」と入力し、H列に各 クラスの累積度数を表示する。   
・累積度数=(直前のクラスまでの度数の合計+当  該クラスの度数)で計算する。   
・最初のクラスの累積度数は、そのクラスの度数と同じであるので、H2=F2=2である。   
(注)この数値が、次のクラスにとっては、「直前のクラスまでの度数の合計」となる。   
・セルH3に、計算式 "=($H2+$F3)" と入力し、計算を実行する。   
(注)「直前クラスまでの累積度数」セルのはH列、「当該クラスの度 数」セルのF列は固定なので、絶対参照を使う。
・セルH3の右下隅にマウスカーソルを合わせると、カーソルの形 が+に変わる。   
・その状態で、マウスをH12までドラッグし、そこで離す。 
・計算 式が複写され、各セルにおいて計算が実行される。

累積相対度数の計算
・セルI1に「累積相対度数」 と入力し、I列に各クラスの累積 相対度数を表示する。   
・累積相対度数(%)=(クラス の累積相対度数÷データ総数 ×100)で計算する。
・セルI2に、計算式 "=$H2/$F$13*100" と入力して、 計算を実行する。
・セルI2の計算式を I12まで式複写して、累積相対度 数を計算する。
 (注)数値の表示桁数を小数点以下1桁までとする。

度数分布表

ヒストグラムを描画する

グラフ用データの選択   
・グラフ作成に必要な データの範囲(F1:I12) をマウスでクリックして 選択する。  
・その状態で、ツール バーから「グラフ」ボタン を選択する。

 ■ グラフウィザード 1/4 グラフの選択
・「ユーザ定義」 タブから「2軸上の折れ線と縦棒」を選択して「次へ」をクリック。
 ■ グラフウィザード 2/4  グラフの元データ
・ 「グラフの元データ」から、「系列」タブを選択する。  
・「系列(S)」から、「データ区間」、「相対頻度」、「累積度数」をそれぞれ選択し、「削除」ボタンをクリックする。  
・「項目軸ラベルに使用(T)」が空欄なら、「データ区間」のデータ(F2:F12)をマウスで選択する。
「データ表!$E$2:$E$12」と表示される。  
・「第2項目軸ラベル(A)」が空欄なら、「頻度」のデータ(G2:F12)をマウスで選択する。
「表 !$G$2:$G$12」と表示される。

■ グラフウィザード 3/4  グラフオプション  
・「タイトルとラベル」タブにおいて、「グラフタイトル」、「X/項目軸」、「Y/数値軸」にラベル文字列を入力する。
・ 「凡例」タブで、「凡例を表示する」のチェックをはずす。「次へ」ボタンを押す。
・ 「グラフの作成場所」ダイアログにおいて、「オブジェクト」を選択。
・ 「完了」ボタンを押す。

■ グラフを編集する
・円柱の間隔を0に する
 円柱をダブル クリックする。
 「データ系列 の書式設定」→「オプ ション」タブを選択する。
 「棒の間隔」の数値を0 に設定する。)
・軸上の数値の表示形式を調整する
「累積相対度数」および「年齢」の数値を表す数字をダブルクリックする。
「軸の書式設定」ダイアログから、「目盛」タブにおいて最大値を100に設定する。
「表示形式」タブにおいて「小数点以下の桁数」を0に設定する。
「フォント」タブにおいて、サイズを調整する。
 ・「次の級」を「 110 」に変更すると、年齢軸項目の表示に変更が反映される。

■ Microsoft Wordファイルに貼り付ける
・ワードファイルに、データの説明文を入力しておく。
・Excelで作成したグラフを選択して「コピー」し、Word上で「ペースト」を行う。
・レポートや論文中では、図表は原則的に中央に配置(センタリング)する。
 (例)「対象データは、1998年の1年間に「朝日新聞」の読者投稿欄に掲載された記事(総計2,472件)である。下の 図1は、投稿者の年齢の分布を示すヒストグラムである。」
ヒストグラム完成図

[課題]
 datahyouデータセット中から数量データを1つ(年齢データを除く)選び、そのヒストグラムと累積相対度数のグラフを添付して、そのデータの分布上の特徴を報告しなさい。
 課題レポートをWordファイル(学生番号shagen02.docx)で作成し、メールにファイル添付の上、次回授業の前日17:00までに、下記のメールアドレス宛てに提出しなさい。件名は提出ファイル名と同じにしなさい。
fukuda.kaoru@h.hokkyodai.ac.jp

[予告]
 次回は、中心傾向と散布度の代表値を学習します。次の項目を調べておいてください。
・中心傾向の代表値(平均値、中央値、最頻値、分布の歪みと代表値の位置)
・散布度の代表値(範囲、分散、標準偏差、変動係数)
・歪みと尖り、正規性、単峰と双峰
・基本統計量