相関係数の意味と解釈

サイト移転のお知らせ

移転先はこちらです。
相関係数と散布図
新たな記事は移転先に掲載しておりますので、そちらをご確認ください。

スポンサードリンク

相関係数は2つの変数間の関係を示す

相関係数とは2つの変数の間に
どのような関係があるかを数値的に示したものです。

 

2つの変数がセットになったデータを考えてみます。

ID

x

y

1

25.4

33.1

2

28.5

40.3

3

25.6

34.2

4

26.4

40.3

5

35.8

60.9

6

21.5

29.3

 

このデータはIDで区別された個体の2変数のデータと考えます。

 

イメージとしてはIDがある患者の識別番号、
x,yが何らかの検査データのような感じです。

 

このようなデータでxとyの関連性について
考えたい場合に相関係数が役立ちます。

 

相関係数数式を求める式は

 

数式
数式
数式

 

で示されます。

 

一般的に相関係数が

  • 正の値のときは変数xが大きな値をとると変数yも大きな値をとる傾向がある
  • 負の値のときは変数xが大きな値をとると変数yが小さな値を取る傾向がある

と言えます。

 

相関係数は-1~1の間の値になるので、
例えば相関係数と散布図と言うのは強い正の相関があると言えます。

 

相関係数について話すときには
「強い正の相関がある」とか
「弱い負の相関がある」という言葉がよく使われます。

 

「強い正の相関がある」とは
相関係数が1に近い値のときを意味していて、
「変数xが大きいほど変数yの値も大きい値を取る傾向が強い」と
言い換えることができます。

 

「弱い負の相関がある」というのは
相関係数が0に近いけれど負の値のときを意味していて、
「変数xが大きいほど変数yの値が小さい値を取る傾向があるがその傾向は弱い」と
言い換えることができます。

 

相関係数の値と相関の強さの関係として
一般的によく使われているものを次の表にまとめておきました。

相関係数

相関の強さ

0.0~±0.2 (ほとんど)相関がない
±0.2~±0.4 弱い相関がある
±0.4~±0.7 相関がある
±0.7~±0.9 強い相関がある
±0.9~±1.0 (ほぼ)完全な相関がある

 

これは目安のようなものなので、
一概に相関係数だけで判断できない部分もあります。

 

そのため散布図と見比べることが必要になります。

 

参考までに、これは相関係数が0.8の場合の散布図です。
相関係数と散布図

相関係数はほとんど共分散で決まる

相関係数の分子にあたる相関係数と散布図
変数x,yの共分散と呼ばれる値です。

 

分母は変数x,yのそれぞれの標準偏差を掛けたものです。

 

共分散はデータの1組の値について平均値からのズレをそれぞれ掛け算したもの

 

相関係数と散布図

 

をすべて足して、データ数で割ることで平均値を求めたものです。

 

相関係数と散布図は大きく分けて4パターンにまとめられます。

 

  1. 相関係数と散布図相関係数と散布図のどちらも正の値のとき。
  2. 相関係数と散布図相関係数と散布図のどちらも負の値のとき。
  3. 相関係数と散布図が正の値、相関係数と散布図が負の値のとき。
  4. 相関係数と散布図が負の値、相関係数と散布図が正の値のとき。

 

1.2.のパターンは掛け算した値が正の値になり、
3.4.のパターンは掛け算した値が負の値になります。

 

共分散はこの掛け算した値をすべて足して、
データの個数で割るので、
1.2.のパターンが多いデータは共分散が正の値になり、
3.4.のパターンが多いデータは共分散が負の値になります。

 

これは正確ではないのですこし訂正します。

 

1.2.のパターンの値が大きいほど
共分散の値は正の値になりやすく
3.4.のパターンの値が大きいほど
共分散の値は負の値になりやすくなります。

 

共分散が平均からのズレを掛けて足したものなので、
数値の大小も関係するということです。

 

相関係数と散布図

 

この散布図は共分散が28のデータから作成したもので、
1.2.のパターン部分を青斜線で、
3.4.のパターン部分を無地で分けてあります。

 

境界線に当たる部分は変数x,yのそれぞれの平均値です。

 

中心相関係数と散布図から離れているデータが青斜線のエリアに多くあり、
1.2.のパターンの値が3.4.のパターンの値より
大きいことを示しています。

 

共分散が28のデータなので、
必ず相関係数も正の値になることがわかります。

 

相関係数の分母は標準偏差の積です。

 

なぜ、標準偏差の積で共分散を割るのかというと、
変数x,yの散布度で共分散を平均化させることを目的としています。

 

2次元データでは2つの変数自体の散布度が
大きければなるほど、共分散の絶対値は大きくなる
という性質があります。

 

この性質があるので共分散の値だけでは
正の相関か負の相関かだけしかわからず、
相関の強さまではわかりません。

 

共分散をそれぞれの変数の標準偏差(分散の平方根)で
割った値を使うことで、
相関の強さを一定の基準で
判断できるようにしたものが相関係数です。

スポンサードリンク

「相関係数の意味と解釈」と同じカテゴリーのページ

母集団と標本
母集団と標本。 世論調査の例。 乱数。
無作為抽出の方法
無作為抽出のための手法 研究試験のランダム化
効率的な無作為抽出
層化抽出法によって単純無作為抽出よりも少ないサンプル数で母集団を推定することができる。
無作為抽出と有意抽出
無作為抽出が選ばれる理由。 有意抽出はなぜ使われないか。
連続型と離散型
数学的なデータの性質。 連続型データ。 離散型データ。
データの種類
統計の手法を選択する上で大事なデータの種類について説明します。 Rについては少し発展的な内容なので必要なときに読むといいでしょう。
データを知る
データの全体観を得る基本統計量。 平均、分散について。
データの整理と度数分布
データを整理するということ。 度数分布の考え方と度数分布表について。
度数分布表を実際に作る方法
度数分布表の作り方について。 表計算ソフトでも作ることができる度数分布表。 Rを使って計算過程を確認しながら作る方法。
階級数とスタージェスの公式
度数分布表を作るときに階級数を決定する方法。 スタージェスの公式について。
代表値はデータの中心と考える
平均に関する基本統計量。 平均値、中央値、最頻値。
平均値が適さないとき
物事を判断するときに平均値を基準に判断されがちですが、平均値が適さない場合も数多く存在しますという話。
散布度(ばらつき)からわかること
標準偏差や分散、四分位数などの散布度の意味。 基礎理論なので、これだけで何かが言えるわけではないが、散布度を理解していないと検定も行えない。
箱ひげ図の読み方
箱ひげ図はボックスプロットと呼ばれている統計的なグラフです。 一般的的にはあまり知られていない図ですが、統計学では古くから存在する手法です。 ここでは箱ひげ図の読み方について説明しています。
2次元データと散布図の作成
関連のある2種類の値を視覚的に表現する基本的な方法が散布図の作成です。
散布図と相関・共分散
2変量の統計量について。 共分散の意味と相関係数。
相関係数だけでは判断できない場合がある
散布図を描かずに相関係数だけで議論することが間違っている場合があります。
保留中:共分散を理解する
2つの変数間の関係性を示す統計量に共分散というものがあります。 共分散と相関係数はほとんど同じ意味を持ちますが、性質が異なります。 その点を説明します。
回帰直線と決定係数
回帰直線の最小二乗法での書き方。 決定係数と相関係数の関係。