統計講座|基礎編

サイト移転のお知らせ

移転先はこちらです。
統計講座|基礎編
新たな記事は移転先に掲載しておりますので、そちらをご確認ください。

スポンサードリンク
スポンサードリンク

統計講座|基礎編

母集団とは調査対象の全体で、標本とは母集団から選び出された一部のことをいいます。母集団は地球全体の人口かもしれませんし、あなたの住んでいる町の人口かもしれませんし、あなたの家族だけかもしれません。母集団には実験の結果というのもあります。むしろ、実験の結果を調査対象とすることの方が多いと思います。例えば、ソフトボール投げをしたときの距離を考えます。ソフトボール投げのようにやればやるだけ記録が残り、デ...

無作為抽出とは、大多数の母集団の中から完全にランダムに標本(サンプル)を選ぶことです。標本を選ぶ(抽出する)ことをサンプリングというので、無作為抽出のことをランダムサンプリングということもあります。無作為抽出には復元抽出と非復元抽出の2パターンあります。非復元抽出とは2回目の抽出の時には1回目に抽出されたものは選ばれないような方法です。色の違うボールが入ったツボから1回ボールを取り、そのボールを戻...

全数調査が現実的にできないからといって、単純無作為抽出や多段抽出を行えば時間的・費用的に可能になるかというと必ずしもそうではありません。大規模な調査であれば単純無作為抽出法や多段抽出法でも時間と費用がそれなりにかかってしまうのは仕方のないことです。では、抽出するサンプル数を少なくすればいいのではないかと考えます。サンプル数が少なければ時間的・資金的にも低コストで済むので、理にかなった方法です。では...

無作為抽出はランダムに母集団から標本を抽出する方法です。有意抽出は無作為抽出とは逆に、ある一定の法則を持ちながら、もしくは何かしらの固定概念を持ちながら標本を抽出することです。例えば、あなたが何かしらの調査をするときにデータの抽出をあなた個人の独断で行うことは有意抽出です。無作為であれば母集団の特徴を近似的に表現できるので、どんな集団かを知るために有利でした。では有意抽出はどんなときに有効かです。...

データには連続型データと離散型データがあります。連続型データというのは途切れることがなく続いていることで、身長や体重、血液検査の数値などがあります。身長の様な長さでは150cmより大きい(長い)のは151cmからというわけではありません。150.1cmでも150cmより大きいと言いますし、150.01cmでも150cmより大きいと言います。このようにある数値から別の数値までの間に無限に数値が存在す...

統計手法を選ぶときに大前提となるのがデータの種類です。統計は数学の分野ですから、データの種類が変わればそのデータの扱いも変わってくるのが当然です。また、統計分野に限ったことではありませんが、数学的には実験などで得られるデータのことを変数と呼ぶことがほとんどです。統計の教科書ではデータと言ったり、変数と言ったり様々ですが、基本的にはどちらも同じ意味です。

データを知っているということは、そのデータの特徴を知っていて、新たに得られたデータの評価ができるということです。健康診断の検査値でいうと、健康な肝臓の場合肝機能の数値がどのくらいの数値であるかとか、多少の誤差があってもこの数値を超えることはないとか医師ならば知っていて当然です。また、新たに診察しようとしている患者の肝機能の検査結果を見て肝臓が健康か病気の状態かを評価できます。このとき、医師が検査値...

データを整理するとは生のデータを人が認識しやすいように加工するということです。加工といっても都合の良いデータだけを使ったりするわけではありません。生のデータは次のように数値の羅列であることがほとんどです。31.2434.3829.6942.8738.627.7827.771814.1728.0236.1426.726.4536.2136.6331.1231.8321.0422.5832.1940....

度数分布表とはデータの概略を知るためのデータの整理術の一つでした。今回はその度数分布表を実際に作成してみます。度数分布表を作る手順はまず、生のデータを小さい順に並べることから始めます。並べる作業をすることでデータの個数を数えやすくなること、どの幅で階級を分ければいいかなどがわかりやすくなります。並べ替えたデータは次のようになります。14.171821.0421.121.9222.5824.6225...

階級数をいくつにするかという問題にはスタージェスの公式というものがありますが、これもあくまで目安として考えます。スタージェスの公式は次のものになります。求めたい階級の数を データの全数を というように表記してあります。 のお陰でかなりわかりにくいので、次の表にまとめておきます。データの全数(N)8163264128256512102420484096階級数(k)45678910111213この...

代表値の本来の意味は、データの特徴を表す数値の中でデータの中心となる値のことです。イメージとしてはヒストグラムを描いたときの中心と捉えるとわかりやすいです。ただし、代表値にはいくつかあるので、データによってどれを代表値とするかはあなたの判断次第です。一般的には平均値と呼ばれる中心を使うこともい多いですが、その他に最頻値や中央値というのもあります。次の表は代表値の説明とRで代表値を求めるための関数で...

一般的には平均値を用いればデータの中心を表すことができますが、平均値が中心としてふさわしくない場合もあります。例えば、データが質的変数である場合です。質的変数では基本的に文字や記号に数値を当てはめただけのものです。これは普通の数値とは違い、1と2の差と2と3の差が同じであるとは言えません。つまり、平均値の数式に当てはめ、足したり割ったりすることが適切だとは言えないのです。そのような場合に最頻値や中...

散布度はデータの特徴を示す数値の中で、データがどの程度バラけた値をとっているかを示す指標です。イメージとしてはヒストグラムを描いたときにどの範囲にどの程度データがあるかを見ることと捉えると分かりやすです。散布度を表すにはいろいろな表し方がありますが、基本的には代表値を基準にしてどれくらい離れたところまでデータが有るかを考えることだと思って下さい。散布度説明分散 不偏分散 データの各成分 と平均値 ...

箱ひげ図はボックスプロット(boxplot)とも呼ばれるデータの分布を示す図です。データの分布を山と捉えると、ヒストグラムは山を横から見るようなグラフでしたが、箱ひげ図は山を真上から見るようなグラフです。使用の目的はヒストグラムとほとんど同じでデータの分布を比較したりするために使用されます。これだけでは箱ひげ図がどんなものかわからないと思いますので、1つだけ例を示します。この例ではA~Fに分類され...

2つの変数を1組として作られているデータのことを2次元データといいます。具体的には次のようなデータを指します。IDxy125.433.1228.540.3325.634.2426.440.3535.860.9621.529.3table.lvljaz{table-layout:fixed;border-collapse: collapse;}table.lvljaz td{padding:5px;...

相関係数とは2つの変数の間にどのような関係があるかを数値的に示したものです。2つの変数がセットになったデータを考えてみます。IDxy125.433.1228.540.3325.634.2426.440.3535.860.9621.529.3table.lvljaz{table-layout:fixed;border-collapse: collapse;}table.lvljaz td{paddi...

2次元データを把握するためにまず行われる手法に散布図を描くという方法があります。散布図とは変数xと変数yをそれぞれ横軸と縦軸に当てはめてプロットしたものです。この散布図を見てみると、なんとなくですがxが大きいほどyも大きいという傾向が見えるかと思います。この2つの変数間にある傾向のことを相関といいます。さらにxが大きいほどyが大きいという傾向を正の相関といいます。逆に、xが小さいほどyが大きいとい...

共分散は散布図を平均値で4等分してどのエリアにあるデータが多いかで相関関係を示したもの、相関係数は相関の程度を調べるものでした。ただし、散布図を確認せずに、はじめから相関係数を求めて判断すれば間違いないかというとそういうわけではありません。対応関係のある変数のデータの散布図が次のような場合を考えてみて下さい。この散布図は平均値を青い破線で示しています。散布図を見た段階では右上と左下のデータ数が多い...

相関係数を求めるときに登場する共分散について統計学的、数学的な説明をします。統計学の初歩の段階では共分散は相関係数を求めるときに必要となる統計量という理解で問題ありません。今後高度な分析が必要なときには振り返って共分散について理解しておくことをオススメします。ではおさらいから初めます。相関係数を求める式は以下の3つです。と はの部分をに読み替えると全く同じ式で表されていて、変数それぞれの標準偏差を...

回帰直線は2つの変数(2次元データ)の関係を直線の方程式 に当てはめたものです。回帰直線は2次元のデータから、今後得られるデータを予測するための手段としてよく使われます。例えば、100例の10歳の子供の身長と父親の身長の2次元データがあったとします。このデータから回帰直線を求めた場合、得られているデータ以外の父親の身長データによって、10歳の子供の身長を予測することができます。得られる式は子供の身...