回帰直線と決定係数

サイト移転のお知らせ

移転先はこちらです。
確率統計 基礎 回帰 直線 最小二乗法  決定係数 相関係数
新たな記事は移転先に掲載しておりますので、そちらをご確認ください。

スポンサードリンク

回帰直線とは

回帰直線は2つの変数(2次元データ)の関係を
直線の方程式 数式 に当てはめたものです。

 

回帰直線は2次元のデータから、
今後得られるデータを予測するための手段としてよく使われます。

 

例えば、100例の10歳の子供の身長と
父親の身長の2次元データがあったとします。

 

このデータから回帰直線を求めた場合、
得られているデータ以外の父親の身長データによって、
10歳の子供の身長を予測することができます。

 

得られる式は子供の身長を数式、父親の身長を数式、定数項を数式とすると
数式
となります。

 

このときのxを独立変数説明変数)、
yを従属変数目的変数)という言葉で表現するのが
一般的ですので覚えておいて下さい。

 

現実的には身長を予測してもほとんど役に立つことはありませんが、
飲食店を経営しているなら気温によって
客数がどのような動きをするのかを調べてみるなど、
実用的な利用を考えることもできます。

回帰直線を求める最小二乗法

回帰直線を求めるためによく使われる方法が最小二乗法というものです。

 

最小二乗法とは得られる回帰直線の式から求められる値と実際に手元にあるデータの差が一番小さくなるような直線の式を求める方法です。

 

なるべく簡単に説明してみますのでよろしくお願いしますね。

 

説明変数数式の各値が数式、目的変数数式の各値が数式となっているデータが得られたとします。

 

このデータの散布図を描いてみたら、どうも1本の直線の付近に近いところにプロットされているということがわかりました。

 

そこで、一番ハマりの良い直線の式を求めようと考えます。

 

求めたい直線の式を仮に数式と決めておきます。

 

このとき求めたい直線は理論上の直線なので元々得られているデータの全ての点を通ることはありません。

 

そこで、全ての点を通ることができないのなら全ての点から直線までの距離が一番小さくなるような直線を考えることにします。

 

直線までの距離というのは実際得られている数式(目的変数)の値と理論上の数式(ハット・ワイ)の値の差のことをいいます。

 

データ上では数式に対して数式が得られていて、仮に設定した直線では数式に対して理論上の値数式が得られます。

 

これを踏まえて得られている変数数式の値と直線の式から求められる理論上の値数式の値の差を考えると一つの点から直線までの距離は数式となります。

 

数式は仮の直線から得られる値なので、数式で置き換えると、直線までの距離は数式となります。

 

ここで距離を表すために正負の符号を取りたいので絶対値としましたが、計算上面倒なのでここからは2乗した値数式を使います。

 

ここで当初の目的に返ります。

 

点からの距離が一番小さくなるような直線を求めたいので、数式が一番小さくなるような数式を求めればいいことになります。

 

ただし、全ての点から直線までの距離を小さくしなければハマりの良い直線とはいえないので、全ての点について実測値数式と理論値数式の差の二乗の合計を計算し、その合計数式が一番小さくなる数式の値を求めることにします。

 

この方法を最小二乗法と言います。

 

 

具体的には実測値と理論値の差の二乗の合計を数式の関数として数式それぞれで偏微分し、変化率がゼロになるときの数式を求めます。

 

数式
数式
数式

 

これは2変数関数の極値の条件という考え方ですが、この辺りは数学的に説明を回避できないものなのでキツければスルーしてもらって大丈夫です。

 

偏微分や極値の条件は知っていたほうがいいですが、知らなくてもRでは回帰直線を求めることができます。

 

スポンサードリンク

「回帰直線と決定係数」と同じカテゴリーのページ

母集団と標本
母集団と標本。 世論調査の例。 乱数。
無作為抽出の方法
無作為抽出のための手法 研究試験のランダム化
効率的な無作為抽出
層化抽出法によって単純無作為抽出よりも少ないサンプル数で母集団を推定することができる。
無作為抽出と有意抽出
無作為抽出が選ばれる理由。 有意抽出はなぜ使われないか。
連続型と離散型
数学的なデータの性質。 連続型データ。 離散型データ。
データの種類
統計の手法を選択する上で大事なデータの種類について説明します。 Rについては少し発展的な内容なので必要なときに読むといいでしょう。
データを知る
データの全体観を得る基本統計量。 平均、分散について。
データの整理と度数分布
データを整理するということ。 度数分布の考え方と度数分布表について。
度数分布表を実際に作る方法
度数分布表の作り方について。 表計算ソフトでも作ることができる度数分布表。 Rを使って計算過程を確認しながら作る方法。
階級数とスタージェスの公式
度数分布表を作るときに階級数を決定する方法。 スタージェスの公式について。
代表値はデータの中心と考える
平均に関する基本統計量。 平均値、中央値、最頻値。
平均値が適さないとき
物事を判断するときに平均値を基準に判断されがちですが、平均値が適さない場合も数多く存在しますという話。
散布度(ばらつき)からわかること
標準偏差や分散、四分位数などの散布度の意味。 基礎理論なので、これだけで何かが言えるわけではないが、散布度を理解していないと検定も行えない。
箱ひげ図の読み方
箱ひげ図はボックスプロットと呼ばれている統計的なグラフです。 一般的的にはあまり知られていない図ですが、統計学では古くから存在する手法です。 ここでは箱ひげ図の読み方について説明しています。
2次元データと散布図の作成
関連のある2種類の値を視覚的に表現する基本的な方法が散布図の作成です。
相関係数の意味と解釈
相関係数は2つの変数(データ)間の関係を考えるときに役に立ちます。 2つのデータを見るときははじめに散布図を描きます。 ここでは相関係数と散布図について説明しています。
散布図と相関・共分散
2変量の統計量について。 共分散の意味と相関係数。
相関係数だけでは判断できない場合がある
散布図を描かずに相関係数だけで議論することが間違っている場合があります。
保留中:共分散を理解する
2つの変数間の関係性を示す統計量に共分散というものがあります。 共分散と相関係数はほとんど同じ意味を持ちますが、性質が異なります。 その点を説明します。