度数分布表を実際に作る方法

サイト移転のお知らせ

移転先はこちらです。
度数分布表を実際に作る方法
新たな記事は移転先に掲載しておりますので、そちらをご確認ください。

スポンサードリンク

度数分布表を作る

度数分布表とはデータの概略を知るためのデータの整理術の一つでした。

 

今回はその度数分布表を実際に作成してみます。

 

度数分布表を作る手順はまず、生のデータを小さい順に並べることから始めます。

 

並べる作業をすることでデータの個数を数えやすくなること、どの幅で階級を分ければいいかなどがわかりやすくなります。

 

並べ替えたデータは次のようになります。

14.17 18 21.04 21.1 21.92 22.58 24.62 25.05 25.33 25.36
25.46 25.7 26.45 26.7 27.34 27.39 27.44 27.77 27.78 28.02
28.16 28.51 28.7 29.11 29.63 29.66 29.69 30.28 30.37 31.04
31.04 31.12 31.24 31.83 32.19 32.29 32.57 33.22 33.75 34.1
34.28 34.38 34.72 36.14 36.21 36.63 38.6 40.49 40.83 42.87

 

次に行うことは階級の幅を決めることです。

 

並べ替えたことで大雑把に14から43の間(正確には最小値14.17、最大値42.87)にデータが有ることがわかりました。

 

階級の幅を決めるためにはこの範囲で階級をいくつに分けるかを考えます。

 

一般的には階級数は5~20個程度を目安にします。

 

5~20というとかなりの幅があるように感じて、目安にもならないとおもいますので、まずは10個くらいの階級に分けることを考えて下さい。

 

そうすると最大と最小の差をとっておよそ30くらいで、これを10個に分けると考えて、1つの階級の幅は3にすればいいことがわかります。

 

階級の幅が決まったので、データを各階級に割り振ります。

 

階級を割り振るにはそれぞれのデータを階級幅の3で割り、その整数部分を取り出します。

 

今面倒だなと思った方、Rを使えば一瞬で計算できるのでご安心下さい。

 

計算すると次のようになります。

4 6 7 7 7 7 8 8 8
8 8 8 8 8 9 9 9 9
9 9 9 9 9 9 9 10 10
10 10 10 10 10 10 10 11 11
11 11 11 11 12 12 12 13 14

 

これを見るとどこからどこまでがどの階級に含まれるのかすぐにわかります。

 

最初の階級はデータの最小値にあたる4に階級幅の3を掛けた数値 12から始まることになります。

 

つまり、1つ目の階級には12以上15未満のデータが含まれることになります。

 

同じように2つ目の階級は5に階級幅の3を掛けて15から始まり、階級幅は3なので15以上18未満のデータが含まれることになります。

 

これを最後の階級まで同じように求めると、最後の階級は42以上45未満のデータが含まれることがわかります。

 

あとはそれぞれの階級のデータを数えれて階級値を決めれば度数分布表は99%完成します。

階級

度数

13

1

16

0

19

1

22

4

25

8

28

13

31

10

34

6

37

4

40

2

43

1

 

階級値は1つの階級の中の中央値を使うことが多いですし、誰が見ても直感的にわかりやすいのは中央値だと思います。

 

そのため、1つ目の階級の階級値は12と14の中央値で13としています。

 

あくまで階級の分け方を見るものなので、データを 数式としたときに 数式というような階級の表し方もあります。

 

相対度数や累積相対度数はただのパーセンテージでそれぞれの百分率を計算するだけなので、ここまでの作業が終われば度数分布表は完成したといえます。

相対度数と累積相対度数を組み込む

先程までは度数分布表を作るために階級の決め方とその後の度数の求め方を示しました。

 

これを完全に度数分布表として作成するためには、相対度数と累積相対度数を求めて、表に追加する必要があります。

 

相対度数は1つの階級の度数がデータの全要素数のうちどれくらいの割合を占めているかというもので、累積相対度数はこの相対度数の累積値のことでした。

 

まずは相対度数を求めます。

 

データの全要素数が50とわかっているので、50で度数分布表のそれぞれの階級の度数を割れば求められます。

階級

度数

相対度数

13

1

0.02

16

0

0.00

19

1

0.02

22

4

0.08

25

8

0.16

28

13

0.26

31

10

0.20

34

6

0.12

37

4

0.08

40

2

0.04

43

1

0.02

度数をデータの要素数で割ると相対度数となるので、これを表に組み込むと相対度数の入った度数分布表となります。

 

次に累積相対度数を組み込みます。

 

累積と言うのはそれまでに出てきた数値を積み上げるように足していくことなので、階級値の小さい方から順に相対度数を積み上げて足していけば累積相対度数を組み込むことができます。

階級

度数

相対度数

累積相対度数

13

1

0.02

0.02

16

0

0.00

0.02

19

1

0.02

0.04

22

4

0.08

0.12

25

8

0.16

0.28

28

13

0.26

0.54

31

10

0.20

0.74

34

6

0.12

0.86

37

4

0.08

0.94

40

2

0.04

0.98

43

1

0.02

1.00

累積相対度数と相対度数の数値を見比べてみて下さい。

 

2番目の累積相対度数は1番目と2番目の相対度数を足した値になっているのがわかりますか?

 

これと同じように3番目は1番目と2番目と3番目の相対度数を足したものになっています。

 

つまり、累積相対度数はその階級までのすべての相対度数を足した値ということです。

 

これで度数分布表は完成しました。

 

スポンサードリンク

「度数分布表を実際に作る方法」と同じカテゴリーのページ

母集団と標本
母集団と標本。 世論調査の例。 乱数。
無作為抽出の方法
無作為抽出のための手法 研究試験のランダム化
効率的な無作為抽出
層化抽出法によって単純無作為抽出よりも少ないサンプル数で母集団を推定することができる。
無作為抽出と有意抽出
無作為抽出が選ばれる理由。 有意抽出はなぜ使われないか。
連続型と離散型
数学的なデータの性質。 連続型データ。 離散型データ。
データの種類
統計の手法を選択する上で大事なデータの種類について説明します。 Rについては少し発展的な内容なので必要なときに読むといいでしょう。
データを知る
データの全体観を得る基本統計量。 平均、分散について。
データの整理と度数分布
データを整理するということ。 度数分布の考え方と度数分布表について。
階級数とスタージェスの公式
度数分布表を作るときに階級数を決定する方法。 スタージェスの公式について。
代表値はデータの中心と考える
平均に関する基本統計量。 平均値、中央値、最頻値。
平均値が適さないとき
物事を判断するときに平均値を基準に判断されがちですが、平均値が適さない場合も数多く存在しますという話。
散布度(ばらつき)からわかること
標準偏差や分散、四分位数などの散布度の意味。 基礎理論なので、これだけで何かが言えるわけではないが、散布度を理解していないと検定も行えない。
箱ひげ図の読み方
箱ひげ図はボックスプロットと呼ばれている統計的なグラフです。 一般的的にはあまり知られていない図ですが、統計学では古くから存在する手法です。 ここでは箱ひげ図の読み方について説明しています。
2次元データと散布図の作成
関連のある2種類の値を視覚的に表現する基本的な方法が散布図の作成です。
相関係数の意味と解釈
相関係数は2つの変数(データ)間の関係を考えるときに役に立ちます。 2つのデータを見るときははじめに散布図を描きます。 ここでは相関係数と散布図について説明しています。
散布図と相関・共分散
2変量の統計量について。 共分散の意味と相関係数。
相関係数だけでは判断できない場合がある
散布図を描かずに相関係数だけで議論することが間違っている場合があります。
保留中:共分散を理解する
2つの変数間の関係性を示す統計量に共分散というものがあります。 共分散と相関係数はほとんど同じ意味を持ちますが、性質が異なります。 その点を説明します。
回帰直線と決定係数
回帰直線の最小二乗法での書き方。 決定係数と相関係数の関係。