保留中:共分散を理解する

サイト移転のお知らせ

移転先はこちらです。
共分散を理解する
新たな記事は移転先に掲載しておりますので、そちらをご確認ください。

スポンサードリンク

共分散のおさらい

相関係数を求めるときに登場する共分散共分散を理解するについて
統計学的、数学的な説明をします。

 

統計学の初歩の段階では
共分散は相関係数を求めるときに
必要となる統計量という理解で問題ありません。

 

今後高度な分析が必要なときには
振り返って共分散について理解しておくことをオススメします。

 

ではおさらいから初めます。

 

相関係数を求める式は以下の3つです。
数式
数式
数式

 

数式数式数式の部分を
数式に読み替えると全く同じ式で表されていて、
変数数式それぞれの標準偏差を示しています。

 

数式はデータxとyの共分散と言われる値です。

 

共分散数式とは変数 数式のそれぞれの値(数式)から 数式の平均値 数式を引いた値と
変数 数式のそれぞれの値(数式)から 数式の平均値 数式を引いた値の
積(掛け算したもの)を全て足したものです。

 

ここで、共分散という言葉は何を意味しているかを考えてみます。

 

変数 数式のそれぞれの値から平均値を引いたもの、
つまり 数式についてですが、
これは標準偏差を求めるときにも使用されました。

 

実はこの値にはちゃんと名前があって、
この場合は変数 数式偏差と言います。

 

偏差の場合はすべての値を足してしまうと必ず0(ゼロ)に
なってしまうので、データを示すための値には使えませんでした。

 

先ほどの説明を言い換えると、
共分散とは変数 数式の偏差と変数 数式の偏差の積を
全て足した値というふうに言えます。

 

これが意味するのは2つの変数の相関関係そのものになります。

 

変数 数式と変数 数式の偏差の値が
どちらも正(プラス)またはどちらも負(マイナス)である組み合わせが多いときは
共分散の値は正の値になりやすくなります。

 

これとは逆に変数共分散を理解すると変数共分散を理解するの偏差の値のとぢらかが正で
もう一方が負の組み合わせが多いときは
共分散の値は負の値になりやすくなります。

 

相関図と照らしあわせたときの共分散

散布図を見ながら考えます。

 

正の相関を示している散布図に
少し手を加えてxの平均値とyの平均値を
示す直線を加えました。
共分散の解説

 

偏差の値が正の場合、その値は平均値より大きい値ということになります。

 

この逆で偏差の値が負の場合、
その値は平均値より小さい値であることを意味しています。

 

これを踏まえて、1組の値の偏差がどちらも正のとき、
その1組の値は平均値の破線で区切られた4つの範囲のうち
右上の範囲にプロットされることになります。

 

逆に1組の値の偏差がどちらも負のときは、
その1組の値は4つの範囲のうち左下にプロットされることになります。
共分散の解説2

 

共分散の値は1組ずつ偏差同士を
掛けた値(偏差積)を全て足すことで求められました。

 

この散布図の中で偏差積が正の値になるのは
斜線の範囲にあるデータということになります。

 

逆に偏差積が負の値になるのは
斜線を引いていない範囲にあるデータということになります。

 

共分散は偏差積を全て足した値(偏差積和)なので、
共分散が正の値ということは斜線の範囲にあるデータ数が
斜線のない範囲にあるデータ数より多い可能性が高いですし、
逆に負の値であれば斜線のない範囲にあるデータ数が
斜線の範囲にあるデータ数より多い可能性高いです。

 

よく考えれば当たり前ですが、
xが大きいときほどyも大きいという傾向があるならば
斜線の範囲の中に存在しているデータ数が多くなるのは
納得しやすい結果だと思います。

 

共分散はこの傾向を数学的に説明したものだと言えます。

スポンサードリンク

「保留中:共分散を理解する」と同じカテゴリーのページ

母集団と標本
母集団と標本。 世論調査の例。 乱数。
無作為抽出の方法
無作為抽出のための手法 研究試験のランダム化
効率的な無作為抽出
層化抽出法によって単純無作為抽出よりも少ないサンプル数で母集団を推定することができる。
無作為抽出と有意抽出
無作為抽出が選ばれる理由。 有意抽出はなぜ使われないか。
連続型と離散型
数学的なデータの性質。 連続型データ。 離散型データ。
データの種類
統計の手法を選択する上で大事なデータの種類について説明します。 Rについては少し発展的な内容なので必要なときに読むといいでしょう。
データを知る
データの全体観を得る基本統計量。 平均、分散について。
データの整理と度数分布
データを整理するということ。 度数分布の考え方と度数分布表について。
度数分布表を実際に作る方法
度数分布表の作り方について。 表計算ソフトでも作ることができる度数分布表。 Rを使って計算過程を確認しながら作る方法。
階級数とスタージェスの公式
度数分布表を作るときに階級数を決定する方法。 スタージェスの公式について。
代表値はデータの中心と考える
平均に関する基本統計量。 平均値、中央値、最頻値。
平均値が適さないとき
物事を判断するときに平均値を基準に判断されがちですが、平均値が適さない場合も数多く存在しますという話。
散布度(ばらつき)からわかること
標準偏差や分散、四分位数などの散布度の意味。 基礎理論なので、これだけで何かが言えるわけではないが、散布度を理解していないと検定も行えない。
箱ひげ図の読み方
箱ひげ図はボックスプロットと呼ばれている統計的なグラフです。 一般的的にはあまり知られていない図ですが、統計学では古くから存在する手法です。 ここでは箱ひげ図の読み方について説明しています。
2次元データと散布図の作成
関連のある2種類の値を視覚的に表現する基本的な方法が散布図の作成です。
相関係数の意味と解釈
相関係数は2つの変数(データ)間の関係を考えるときに役に立ちます。 2つのデータを見るときははじめに散布図を描きます。 ここでは相関係数と散布図について説明しています。
散布図と相関・共分散
2変量の統計量について。 共分散の意味と相関係数。
相関係数だけでは判断できない場合がある
散布図を描かずに相関係数だけで議論することが間違っている場合があります。
回帰直線と決定係数
回帰直線の最小二乗法での書き方。 決定係数と相関係数の関係。