散布度(ばらつき)からわかること

サイト移転のお知らせ

移転先はこちらです。
散布度(ばらつき)からわかること
新たな記事は移転先に掲載しておりますので、そちらをご確認ください。

スポンサードリンク

散布度の種類と意味

散布度はデータの特徴を示す数値の中で、データがどの程度バラけた値をとっているかを示す指標です。

 

イメージとしてはヒストグラムを描いたときにどの範囲にどの程度データがあるかを見ることと捉えると分かりやすです。

 

散布度を表すにはいろいろな表し方がありますが、基本的には代表値を基準にしてどれくらい離れたところまでデータが有るかを考えることだと思って下さい。

 

散布度

説明

分散

不偏分散

データの各成分 と平均値 の差を2乗して全て足した値をデータの個数 で割ると求められる。


不偏分散は分散を求める式の にすることで求められる。

標準偏差

不偏標準偏差

分散の平方根を求めることが標準偏差を求めることと同じ意味になる。


不偏標準偏差については不偏分散の平方根を求めることで知ることができる。

最大値・最小値 最大値はデータの一番大きな値。最小値はデータの一番小さな値。
範囲:レンジ データの最大値と最小値の差のこと。
四分位数(しぶんいすう・しぶいすう):クォンタイル データを小さい順に並べたとき、小さい方から1/4、2/4、3/4の位置にある値のこと。

小さい方から順に第1四分位数(1Q)、第2四分位数(2Q)、第3四分位数(3Q)と言う。
第2四分位数は中央値のことで、第1四分位数と第3四分位数がきりよく1つのデータを指さない場合は中央値と同じように2つの値の平均値を求めればいい。

標準偏差、分散からわかること

分散と標準偏差は一番基本的な散布度を示す統計量です。

 

結局はばらつきの指標となるもので、それ以上でもそれ以下でもありません。

 

数式

 

意味を考えると、「平均値からのズレ」の平均値ということになります。

 

分散と標準偏差で2乗してあるかそうでないかの違いはありますが、意味としては同じと考えて問題ありません。

 

つまり平均値を中心にどのくらいばらつきがあるデータなのかを数学的に示したものになります。

 

分散や標準偏差を求めるときになぜ2乗の値を基本にするかというと、平均値からのズレを全て足すと0になってしまい、データ全体のばらつきを見ることができないためです。

 

2乗にしてあることで平均値との差がマイナスの値であってもプラスの値にすることができるので、必ず2乗が必要になってきます。

分散には2種類ある

分散には標本分散不偏分散の2種類があります。

 

標本分散とは冒頭で単に分散と記述したもので、得られたデータだけの分散を示すものです。

 

これに対して、不偏分散とは得られたデータから母集団の分散を推定するときに使用される統計量です。

 

母集団の推定には不偏分散を使い、ただ標本データの分散を求めるためには標本分散を使うということです。

 

この理由を説明するとひとつの記事になってしまいそうなので、別の記事にすることにします。

 

ここで知っておくことは

  • 標本分散 → 標本データだけに通用する分散
  • 不偏分散 → 標本データから推定した母集団の分散

ということだけです。

四分位数からわかること

四分位数は中央値と同じような概念を使います。

 

中央値はデータを小さい順に並べてちょうど真ん中にある値のことを言いましたが、四分位数はさらに1/4、2/4、3/4と細かくなります。

 

データを小さい順に並べて、1/4の位置にある値を第1四分位数(1Q)、2/4の位置にある値(中央値)を第2四分位数(2Q)、3/4の位置にある値を第3四分位数(3Q)と言います。

 

第1四分位数と第3四分位数の幅のことを四分位範囲と言います。

 

第1四分位数から第3四分位数の間には理論上データの内50%の値が含まれているので、この四分位範囲をばらつきの指標として用いることがあります。

 

その他の特徴としては、標準偏差や分散では正規分布に従っていることを前提に考えますが、四分位数は分布については一切考える必要がありません。

散布度を見た時に想像してほしいこと

散布度にはいろいろな種類があることは上記でよくわかると思います。

 

統計解析においていくら散布度の求め方を知ってもそれだけでは何もできないタダの計算機と同じです。

 

一番大切なのは散布度を見て、これらの散布度から何がわかるのかということです。

 

 

散布度で最も使われているのは標準偏差です。

 

標準偏差の意味は「1つのデータの中でそれぞれの数値が平均値からどの程度離れているかの平均値である」とお話しました。

 

例えば標準偏差が5であるとすると、平均値から 数式の間に入る数値が半分くらいはあるんじゃないかと想像出来ます。

 

標準偏差が小さくなっていけば平均値に近いところに沢山データが集まっていることが想像できると思います。

 

これは四分位数にも言えることで、四分位数はもっと単純です。

 

第1四分位数から第3四分位数の差を四分位範囲と言いますが、これはデータの中央値から前後25%の範囲のことになります。

 

つまり中央値から 数式の範囲のことで、これはデータのうちの50%を占める範囲を示していることになります。

 

これと最小値・最大値を合わせると中央値付近にどの程度データが集まっているかを知ることができます。

 

例えば最小値・最大値の範囲(レンジのこと)と四分位範囲を比べ、四分位範囲が明らかに小さいとき、つまり範囲の半分以下のときは中心にデータが集まっていることがわかります。

 

 

最後に分散・標準偏差と四分位数・範囲の使い分けについてです。

 

分散と標準偏差は主に連続型のデータに使用されます。

 

これは平均値と同様に数学的な計算が必要なためです。

 

稀に離散型のデータでも分散・標準偏差が使われますが、離散型のデータでは基本的に四分位数と範囲を使います。

 

これは数学的な計算を必要としないということが最も大きい理由です。

 

離散型のデータには主に質的変数が使用されているので、四則演算が不適切な場合があるためです。

スポンサードリンク

「散布度(ばらつき)からわかること」と同じカテゴリーのページ

母集団と標本
母集団と標本。 世論調査の例。 乱数。
無作為抽出の方法
無作為抽出のための手法 研究試験のランダム化
効率的な無作為抽出
層化抽出法によって単純無作為抽出よりも少ないサンプル数で母集団を推定することができる。
無作為抽出と有意抽出
無作為抽出が選ばれる理由。 有意抽出はなぜ使われないか。
連続型と離散型
数学的なデータの性質。 連続型データ。 離散型データ。
データの種類
統計の手法を選択する上で大事なデータの種類について説明します。 Rについては少し発展的な内容なので必要なときに読むといいでしょう。
データを知る
データの全体観を得る基本統計量。 平均、分散について。
データの整理と度数分布
データを整理するということ。 度数分布の考え方と度数分布表について。
度数分布表を実際に作る方法
度数分布表の作り方について。 表計算ソフトでも作ることができる度数分布表。 Rを使って計算過程を確認しながら作る方法。
階級数とスタージェスの公式
度数分布表を作るときに階級数を決定する方法。 スタージェスの公式について。
代表値はデータの中心と考える
平均に関する基本統計量。 平均値、中央値、最頻値。
平均値が適さないとき
物事を判断するときに平均値を基準に判断されがちですが、平均値が適さない場合も数多く存在しますという話。
箱ひげ図の読み方
箱ひげ図はボックスプロットと呼ばれている統計的なグラフです。 一般的的にはあまり知られていない図ですが、統計学では古くから存在する手法です。 ここでは箱ひげ図の読み方について説明しています。
2次元データと散布図の作成
関連のある2種類の値を視覚的に表現する基本的な方法が散布図の作成です。
相関係数の意味と解釈
相関係数は2つの変数(データ)間の関係を考えるときに役に立ちます。 2つのデータを見るときははじめに散布図を描きます。 ここでは相関係数と散布図について説明しています。
散布図と相関・共分散
2変量の統計量について。 共分散の意味と相関係数。
相関係数だけでは判断できない場合がある
散布図を描かずに相関係数だけで議論することが間違っている場合があります。
保留中:共分散を理解する
2つの変数間の関係性を示す統計量に共分散というものがあります。 共分散と相関係数はほとんど同じ意味を持ちますが、性質が異なります。 その点を説明します。
回帰直線と決定係数
回帰直線の最小二乗法での書き方。 決定係数と相関係数の関係。