箱ひげ図の読み方

サイト移転のお知らせ

移転先はこちらです。
箱ひげ図の読み方
新たな記事は移転先に掲載しておりますので、そちらをご確認ください。

スポンサードリンク

箱ひげ図とは

箱ひげ図はボックスプロット(boxplot)とも呼ばれるデータの分布を示す図です。

 

データの分布を山と捉えると、ヒストグラムは山を横から見るようなグラフでしたが、箱ひげ図は山を真上から見るようなグラフです。

 

使用の目的はヒストグラムとほとんど同じでデータの分布を比較したりするために使用されます。

 

これだけでは箱ひげ図がどんなものかわからないと思いますので、1つだけ例を示します。

箱ひげ図の読み方

 

この例ではA~Fに分類されているデータについてそれぞれのデータを比較するための箱ひげ図が描かれています。

 

箱ひげ図は統計の入門書には記載されていないことが多いので、ここでは箱ひげ図の読み方について説明していきます。

箱ひげ図の読み方

最初に示した例では複数の箱ひげ図が描かれていて混乱を招きそうなので、ここでは箱ひげ図がひとつの場合を考えます。

 

箱ひげ図の読み方

 

箱ひげ図の構成要素には

  1. 箱の中央付近のヨコ線
  2. 箱のヨコ線
  3. 箱の上下の短いヨコ線
  4. 箱の上下の短い線の外側の点

があります。

 

基本的にタテ線は無視していいです。

 

この4つの内、線に関しては基本的に

  1. 箱の中央付近のヨコ線 → データxの中央値
  2. 箱のヨコ線 → データxの第1四分位数(下側)と第3四分位数(上側)
  3. 箱の上下の短いヨコ線 → データxの最小値(下側)・最大値(上側)

というようになっています。

 

残った一番外側の点についてですが、これだけは外れ値という特別な値がある場合にだけ描かれます。

 

この外れ値は 数式に収まっているかどうかで判断します。

 

数式は第1四分位数、 数式は第3四分位数、 数式は四分位範囲のことです。

 

言葉で説明すると、「第1四分位数から四分位範囲の1.5倍を引いた値を下回っている要素」と「第3四分位数に四分位範囲の1.5倍を足した値を超えている要素」が全て外れ値として該当するということです。

 

先程は短いヨコ線は最大値・最小値を示していると言いましたが、外れ値がある場合では箱の上下の短いヨコ線の意味が変わってきます。

 

外れ値があるとき、短いヨコ線は最小値・最大値を示すものではなく、 数式の中での最小値・最大値を示すものに変わります。

 

つまり外れ値をデータから除外した最大値・最小値を短いヨコ線が示していることになります。

 

この説明を図中に書き加えると次のような感じです。

箱ひげ図の読み方

 

MINよりも下側とMAXより上側は全て外れ値として扱われています。

スポンサードリンク

「箱ひげ図の読み方」と同じカテゴリーのページ

母集団と標本
母集団と標本。 世論調査の例。 乱数。
無作為抽出の方法
無作為抽出のための手法 研究試験のランダム化
効率的な無作為抽出
層化抽出法によって単純無作為抽出よりも少ないサンプル数で母集団を推定することができる。
無作為抽出と有意抽出
無作為抽出が選ばれる理由。 有意抽出はなぜ使われないか。
連続型と離散型
数学的なデータの性質。 連続型データ。 離散型データ。
データの種類
統計の手法を選択する上で大事なデータの種類について説明します。 Rについては少し発展的な内容なので必要なときに読むといいでしょう。
データを知る
データの全体観を得る基本統計量。 平均、分散について。
データの整理と度数分布
データを整理するということ。 度数分布の考え方と度数分布表について。
度数分布表を実際に作る方法
度数分布表の作り方について。 表計算ソフトでも作ることができる度数分布表。 Rを使って計算過程を確認しながら作る方法。
階級数とスタージェスの公式
度数分布表を作るときに階級数を決定する方法。 スタージェスの公式について。
代表値はデータの中心と考える
平均に関する基本統計量。 平均値、中央値、最頻値。
平均値が適さないとき
物事を判断するときに平均値を基準に判断されがちですが、平均値が適さない場合も数多く存在しますという話。
散布度(ばらつき)からわかること
標準偏差や分散、四分位数などの散布度の意味。 基礎理論なので、これだけで何かが言えるわけではないが、散布度を理解していないと検定も行えない。
2次元データと散布図の作成
関連のある2種類の値を視覚的に表現する基本的な方法が散布図の作成です。
相関係数の意味と解釈
相関係数は2つの変数(データ)間の関係を考えるときに役に立ちます。 2つのデータを見るときははじめに散布図を描きます。 ここでは相関係数と散布図について説明しています。
散布図と相関・共分散
2変量の統計量について。 共分散の意味と相関係数。
相関係数だけでは判断できない場合がある
散布図を描かずに相関係数だけで議論することが間違っている場合があります。
保留中:共分散を理解する
2つの変数間の関係性を示す統計量に共分散というものがあります。 共分散と相関係数はほとんど同じ意味を持ちますが、性質が異なります。 その点を説明します。
回帰直線と決定係数
回帰直線の最小二乗法での書き方。 決定係数と相関係数の関係。