相関係数だけでは判断できない場合がある

サイト移転のお知らせ

移転先はこちらです。
相関係数だけでは判断できない場合がある
新たな記事は移転先に掲載しておりますので、そちらをご確認ください。

スポンサードリンク

相関係数だけでは判断できない場合がある

共分散は散布図を平均値で4等分して
どのエリアにあるデータが多いかで相関関係を示したもの、
相関係数は相関の程度を調べるものでした。

 

ただし、散布図を確認せずに、
はじめから相関係数を求めて
判断すれば間違いないかというとそういうわけではありません。

 

対応関係のある変数数式
データの散布図が次のような場合を考えてみて下さい。
共分散の注意点の説明

 

この散布図は平均値を青い破線で示しています。

 

散布図を見た段階では
右上と左下のデータ数が多いので
正の相関を示しているように見えますが、
左上と右下の端の方にあるデータが気になりますね。

 

こういう場合は実際に共分散と相関係数を
求めることではっきりします。

 

上記の作図に使ったデータはこちらからダウンロードして下さい。
相関係数だけでは判断できない場合がある

 

共分散を求めるには、
cov関数(共分散をCovarianceという)を使います。

 

使い方はcor関数とよく似ています。

cov(変数xのベクトル, 変数yのベクトル)

 

この散布図のデータについて実際に
共分散を求めると
相関係数だけでは判断できない場合がある
となります。

 

相関係数は
相関係数だけでは判断できない場合がある
となります。

 

共分散は正の値なので、
正の相関があるようですが、
相関係数の値はほぼ0であり、
このデータに相関関係がないことがわかります。

 

見た目には正の相関を示しているように見えますが、
統計的に相関がないという判断になります。

 

 

データが間違っていると言う可能性

 

もし仮に2つの母集団から抽出された値が入り込んでいれば、
そのデータを1つのデータとして扱うことが間違っています。

 

ここでは、データを作る際に外れ値として織り交ぜたデータは確実に別の母集団から得た値なので、一度除外して相関係数を求めてみましょう。

 

除外するには外れ値を入れる前のデータを使用すればいいだけなので次のようにします。

Dat <- data.frame(x=dat2[,1], y=dat2[,2])
cor(Dat$x, Dat$y)
[1] 0.8370963

 

外れ値を除外してみると強い相関が得られていることがわかります。

 

これははじめに散布図を描いたときの印象に近いことがわかります。

 

今回の例でははじめから外れ値を知っていたのでただ除外するだけでしたが、実際のデータでも明らかに除外すべきデータを探し当てて一度除外してから計算をしなおしてみるということも必要になります。

 

そのためにもまず散布図を描いてデータそのものを見つめなおしてみましょう。

スポンサードリンク

「相関係数だけでは判断できない場合がある」と同じカテゴリーのページ

母集団と標本
母集団と標本。 世論調査の例。 乱数。
無作為抽出の方法
無作為抽出のための手法 研究試験のランダム化
効率的な無作為抽出
層化抽出法によって単純無作為抽出よりも少ないサンプル数で母集団を推定することができる。
無作為抽出と有意抽出
無作為抽出が選ばれる理由。 有意抽出はなぜ使われないか。
連続型と離散型
数学的なデータの性質。 連続型データ。 離散型データ。
データの種類
統計の手法を選択する上で大事なデータの種類について説明します。 Rについては少し発展的な内容なので必要なときに読むといいでしょう。
データを知る
データの全体観を得る基本統計量。 平均、分散について。
データの整理と度数分布
データを整理するということ。 度数分布の考え方と度数分布表について。
度数分布表を実際に作る方法
度数分布表の作り方について。 表計算ソフトでも作ることができる度数分布表。 Rを使って計算過程を確認しながら作る方法。
階級数とスタージェスの公式
度数分布表を作るときに階級数を決定する方法。 スタージェスの公式について。
代表値はデータの中心と考える
平均に関する基本統計量。 平均値、中央値、最頻値。
平均値が適さないとき
物事を判断するときに平均値を基準に判断されがちですが、平均値が適さない場合も数多く存在しますという話。
散布度(ばらつき)からわかること
標準偏差や分散、四分位数などの散布度の意味。 基礎理論なので、これだけで何かが言えるわけではないが、散布度を理解していないと検定も行えない。
箱ひげ図の読み方
箱ひげ図はボックスプロットと呼ばれている統計的なグラフです。 一般的的にはあまり知られていない図ですが、統計学では古くから存在する手法です。 ここでは箱ひげ図の読み方について説明しています。
2次元データと散布図の作成
関連のある2種類の値を視覚的に表現する基本的な方法が散布図の作成です。
相関係数の意味と解釈
相関係数は2つの変数(データ)間の関係を考えるときに役に立ちます。 2つのデータを見るときははじめに散布図を描きます。 ここでは相関係数と散布図について説明しています。
散布図と相関・共分散
2変量の統計量について。 共分散の意味と相関係数。
保留中:共分散を理解する
2つの変数間の関係性を示す統計量に共分散というものがあります。 共分散と相関係数はほとんど同じ意味を持ちますが、性質が異なります。 その点を説明します。
回帰直線と決定係数
回帰直線の最小二乗法での書き方。 決定係数と相関係数の関係。