散布図と相関・共分散

サイト移転のお知らせ

移転先はこちらです。
確率統計 講座 R 基礎 統計 散布図 共分散 相関係数 2次元 2変量 2変数
新たな記事は移転先に掲載しておりますので、そちらをご確認ください。

スポンサードリンク

散布図と相関

2次元データを把握するためにまず行われる手法に
散布図を描くという方法があります。

 

散布図とは変数xと変数yを
それぞれ横軸と縦軸に当てはめてプロットしたものです。

 

散布図

 

この散布図を見てみると、なんとなくですが
xが大きいほどyも大きいという傾向が見えるかと思います。

 

この2つの変数間にある傾向のことを
相関といいます。

 

さらにxが大きいほどyが大きいという傾向を
正の相関といいます。

 

逆に、xが小さいほどyが大きいという傾向を
負の相関といいます。

 

散布図では次のような状態です。
散布図その2

 

相関関係とは比例の関係とほとんど同じ意味を持ちます。

 

相関と比例の違いは、 数式のような比例の場合は
xが1から2に増えればyは2から4に増えるという明確な関係がありますが、
相関の場合は明確に何倍になるかは決まっていないということにあります。

 

では次の散布図は正の相関、負の相関どちらに見えるでしょうか?
散布図その3

 

この散布図はお互いに関係のない変数同士を
ペアにしてあるので、相関関係がないと言えます。

 

この場合を無相関といいます。

相関係数の求め方

先程の例では2つの変数の関係を
正の相関とか負の相関とかの単なる概念で説明していました。

 

ここでは2つの変数間にある関係がどれくらい強いのかを
客観的に示すための方法を説明します。

 

2つの変数の関係を客観的に示すには
相関係数という統計量を使用します。

 

相関係数は-1~1の間の値で2つの変数間の関係を示します。

 

相関係数が1のとき完全な正の相関
-1のとき完全な負の相関といって、
全ての点が1直線上に並びます。

 

ちなみに相関係数と比例係数(数式数式)は
同じものではないので注意して下さい。

 

相関係数 数式を求める式はこのようになっています。

 

相関係数   数式
共分散   数式
標準偏差   数式

 

相関係数が求められても、
相関係数と相関の強さの関係を知らなければ意味がありません。

 

相関係数の値と相関の強さの関係として
一般的によく使われているものを次の表にまとめておきました。

相関係数

相関の強さ

0.0~±0.2 (ほとんど)相関がない
±0.2~±0.4 弱い相関がある
±0.4~±0.7 相関がある
±0.7~±0.9 強い相関がある
±0.9~±1.0 (ほぼ)完全な相関がある

 

これは目安のようなものなので、
一概に相関係数だけで判断できない部分もありますが、
散布図と合わせて相関係数を見れば説得力のある資料になります。

 

 

Rではcor関数(相関係数をCorelationという)を
使用すれば相関係数を求めることができます。

 

2つの変数x,yの相関係数を求める場合は次のように使用します。

cor(変数xのベクトル, 変数yのベクトル)
スポンサードリンク

「散布図と相関・共分散」と同じカテゴリーのページ

母集団と標本
母集団と標本。 世論調査の例。 乱数。
無作為抽出の方法
無作為抽出のための手法 研究試験のランダム化
効率的な無作為抽出
層化抽出法によって単純無作為抽出よりも少ないサンプル数で母集団を推定することができる。
無作為抽出と有意抽出
無作為抽出が選ばれる理由。 有意抽出はなぜ使われないか。
連続型と離散型
数学的なデータの性質。 連続型データ。 離散型データ。
データの種類
統計の手法を選択する上で大事なデータの種類について説明します。 Rについては少し発展的な内容なので必要なときに読むといいでしょう。
データを知る
データの全体観を得る基本統計量。 平均、分散について。
データの整理と度数分布
データを整理するということ。 度数分布の考え方と度数分布表について。
度数分布表を実際に作る方法
度数分布表の作り方について。 表計算ソフトでも作ることができる度数分布表。 Rを使って計算過程を確認しながら作る方法。
階級数とスタージェスの公式
度数分布表を作るときに階級数を決定する方法。 スタージェスの公式について。
代表値はデータの中心と考える
平均に関する基本統計量。 平均値、中央値、最頻値。
平均値が適さないとき
物事を判断するときに平均値を基準に判断されがちですが、平均値が適さない場合も数多く存在しますという話。
散布度(ばらつき)からわかること
標準偏差や分散、四分位数などの散布度の意味。 基礎理論なので、これだけで何かが言えるわけではないが、散布度を理解していないと検定も行えない。
箱ひげ図の読み方
箱ひげ図はボックスプロットと呼ばれている統計的なグラフです。 一般的的にはあまり知られていない図ですが、統計学では古くから存在する手法です。 ここでは箱ひげ図の読み方について説明しています。
2次元データと散布図の作成
関連のある2種類の値を視覚的に表現する基本的な方法が散布図の作成です。
相関係数の意味と解釈
相関係数は2つの変数(データ)間の関係を考えるときに役に立ちます。 2つのデータを見るときははじめに散布図を描きます。 ここでは相関係数と散布図について説明しています。
相関係数だけでは判断できない場合がある
散布図を描かずに相関係数だけで議論することが間違っている場合があります。
保留中:共分散を理解する
2つの変数間の関係性を示す統計量に共分散というものがあります。 共分散と相関係数はほとんど同じ意味を持ちますが、性質が異なります。 その点を説明します。
回帰直線と決定係数
回帰直線の最小二乗法での書き方。 決定係数と相関係数の関係。