平均値が適さないとき

サイト移転のお知らせ

移転先はこちらです。
平均値が適さないとき
新たな記事は移転先に掲載しておりますので、そちらをご確認ください。

スポンサードリンク

平均値が適さない場合もある

一般的には平均値を用いればデータの中心を表すことができますが、平均値が中心としてふさわしくない場合もあります。

 

例えば、データが質的変数である場合です。

 

質的変数では基本的に文字や記号に数値を当てはめただけのものです。

 

これは普通の数値とは違い、1と2の差と2と3の差が同じであるとは言えません。

 

つまり、平均値の数式に当てはめ、足したり割ったりすることが適切だとは言えないのです。

 

そのような場合に最頻値や中央値を用います。

 

最頻値や中央値は基本的に数学的な計算を必要としません。

 

単純に数を数えたり、順番に並べて真ん中の値を調べることで求めることができます。

 

そういう意味で、質的変数には最頻値や中央値が適しています。

 

では、最頻値と中央値では何が違うか?です。

 

結論から言うと、最頻値は多数派の感覚に近い値を示し、中央値はデータ全体の実態を示す値です。

 

最頻値はその名の通り一番多く観測される値ですので、人に例えると多数派の意見が全体を示しているかのような基本統計量です。

 

中央値は最頻値と比較したときに近い値をとることも多々ありますが、どの値が一番多いかということには無関係になるので、データの偏りに左右されにくく、実態を示す値と言えます。

 

1つだけ注意点をあげておくと、量的変数には最頻値を使えないと考えて下さい。

 

量的変数の場合には0.0001と0.0002のように些細な差を区別して扱うことがあるので、最頻値を求めることには意味が無い場合が多いです。

中央値と最頻値を求めながら検証してみる

2つのヒストグラムを見て平均値が適切かを考えてみて下さい。

 

 

平均値が適さないとき 平均値が適さないとき

左の場合ではデータの多い山が左に寄っていて、右の場合ではデータの山が2つあります。

 

答えから言うと、この2つのような場合にはたとえ質的変数でなくても平均値が適さないことが多いです。

 

身長などのデータでは一番頻度の高い数値の範囲から両側に同じようにデータが広がりますが、この2つはそれとは広がりが異なります。

 

これはデータ自体が左右均等に広がっているため、平均値と中央値・最頻値を比較してもあまり差は出ません。

 

図の左のヒストグラムのように左右非対称に広がっているデータを作成して、平均値と中央値を求めます。

y <- rf(200, df1=10, df2=20)
mean(y)
median(y)

 

平均値と中央値にはある程度のズレが確認できていると思います。

 

平均値には、データの一番大きな山から離れたデータが計算上、中央値とのズレを大きくさせてしまうという特徴があります。

 

このデータのようにヒストグラムで山になっている部分から離れたところに観測されたデータが有ると平均値は本来知りたい平均値からずれてしまうこともあります。

 

中央値では山になっている部分にフォーカスして、大きすぎるデータや小さすぎるデータに影響を受けにくい値を得ることができます。

 

 

右のヒストグラムのデータでは山が2つあり、例えば平均値を求めても山と山の間の値が求められることになります。

 

似たようなデータを作って検証してみます。

zprob <- c(0.05, 0.07, 0.09, 0.21, 0.07, 0.03, 0.08, 0.25, 0.1, 0.05)
z <- sample(0:9, 300, replace=TRUE, prob=zprob)
hist(z)

 

zprobは sample関数で使用する確率です。

 

sample関数では抽出する元のベクタ(この場合は 0:9)の長さと同じ長さの確率ベクタを指定することでその確率で無作為抽出することができます。

 

ベクタ zの平均値と最頻値を比較します。

mean(z)
table(z)
z
 0  1  2  3  4  5  6  7  8  9 
17 15 31 59 19 11 22 73 40 13 

 

table関数では最頻値をもとめるというよりは、値ごとの出現回数を表示するといったものです。

 

最頻値を単に求めたいときは、最大値を求める max関数を一緒に使いますが、少しテクニカルな表現になります。

table(z)[table(z) == max(table(z))]
 7 
73 

 

table(z)の中から max(table(x))に一致する要素だけを取り出すという作業です。

 

詳しくはR基礎講座を参照して下さい。

 

ここで求めらたのは7という数値が最も多く現れているという結果(結果によっては3かも知れません)と、およそ4~5の間に平均値があるという結果です。

 

table関数で現れた頻度を見ることでもわかりますが、山が2つ(二峰性)のデータの場合は平均値がどれほどの信頼があるかわかりませんし、どちらの山が重要かということにも影響を受けますので、データの経験的な性質を知ることで平均値か最頻値どちらを使うことが適切かを決めることが重要です。

スポンサードリンク

「平均値が適さないとき」と同じカテゴリーのページ

母集団と標本
母集団と標本。 世論調査の例。 乱数。
無作為抽出の方法
無作為抽出のための手法 研究試験のランダム化
効率的な無作為抽出
層化抽出法によって単純無作為抽出よりも少ないサンプル数で母集団を推定することができる。
無作為抽出と有意抽出
無作為抽出が選ばれる理由。 有意抽出はなぜ使われないか。
連続型と離散型
数学的なデータの性質。 連続型データ。 離散型データ。
データの種類
統計の手法を選択する上で大事なデータの種類について説明します。 Rについては少し発展的な内容なので必要なときに読むといいでしょう。
データを知る
データの全体観を得る基本統計量。 平均、分散について。
データの整理と度数分布
データを整理するということ。 度数分布の考え方と度数分布表について。
度数分布表を実際に作る方法
度数分布表の作り方について。 表計算ソフトでも作ることができる度数分布表。 Rを使って計算過程を確認しながら作る方法。
階級数とスタージェスの公式
度数分布表を作るときに階級数を決定する方法。 スタージェスの公式について。
代表値はデータの中心と考える
平均に関する基本統計量。 平均値、中央値、最頻値。
散布度(ばらつき)からわかること
標準偏差や分散、四分位数などの散布度の意味。 基礎理論なので、これだけで何かが言えるわけではないが、散布度を理解していないと検定も行えない。
箱ひげ図の読み方
箱ひげ図はボックスプロットと呼ばれている統計的なグラフです。 一般的的にはあまり知られていない図ですが、統計学では古くから存在する手法です。 ここでは箱ひげ図の読み方について説明しています。
2次元データと散布図の作成
関連のある2種類の値を視覚的に表現する基本的な方法が散布図の作成です。
相関係数の意味と解釈
相関係数は2つの変数(データ)間の関係を考えるときに役に立ちます。 2つのデータを見るときははじめに散布図を描きます。 ここでは相関係数と散布図について説明しています。
散布図と相関・共分散
2変量の統計量について。 共分散の意味と相関係数。
相関係数だけでは判断できない場合がある
散布図を描かずに相関係数だけで議論することが間違っている場合があります。
保留中:共分散を理解する
2つの変数間の関係性を示す統計量に共分散というものがあります。 共分散と相関係数はほとんど同じ意味を持ちますが、性質が異なります。 その点を説明します。
回帰直線と決定係数
回帰直線の最小二乗法での書き方。 決定係数と相関係数の関係。