母集団と標本

サイト移転のお知らせ

移転先はこちらです。
R 統計基礎 確率 医療統計 母集団 標本 無作為抽出
新たな記事は移転先に掲載しておりますので、そちらをご確認ください。

スポンサードリンク

母集団と標本

母集団とは調査対象の全体で、標本とは母集団から選び出された一部のことをいいます。

 

母集団は地球全体の人口かもしれませんし、あなたの住んでいる町の人口かもしれませんし、あなたの家族だけかもしれません。

 

母集団には実験の結果というのもあります。

 

むしろ、実験の結果を調査対象とすることの方が多いと思います。

 

例えば、ソフトボール投げをしたときの距離を考えます。

 

ソフトボール投げのようにやればやるだけ記録が残り、データが無制限に増えるものに対しての調査では母集団は無限にあるデータのこと指すことになります。

 

このように無限にデータのある場合の母集団を無限母集団といい、反対に調査対象が限られた数しかないものを有限母集団といいます。

 

無限母集団の場合はもちろん、いくら有限母集団とは言っても全数を調査することが可能な場合とそうでない場合があります。

 

例えば職場の同じチーム内の身長は全数を調査することは可能でしょうが、同じ町内に住む人全員の身長を調査するには相当な労力が必要です。

 

このような場合は調査対象の内のいくつかを選択して調査することでその集団のデータを推測します。

 

この「調査対象の内のいくつかを選択する」という作業を標本抽出と言って、選択して得られたデータを標本と言います。

 

標本抽出は調査対象の推測をするためにやるのもなので、とにかくデータを集めればいいというものではありません。

 

同じ町内であれば、知り合いを片っ端から調査しても意味がなく、その中からランダムにデータを集めなければいけません。

 

つまり、誰が選ばれるかという確率は全ての人で同じでなければなりません。

 

日本国民全員の意見を調査する世論調査を考えるとわかりやすいです。

 

国民の意見なのに、調査員の知り合いだけに調査をしていては意味がありませんし、「捏造だ!」と批判され信頼度が一気になくなります。

 

なので、世論調査では公平性を考慮して「個別訪問面接聴取法」や「RDD法」という方法で標本抽出を行なっています。

 

これら乱数と呼ばれる完全にランダムな数値を用いて実際に調査する人を選ぶという手法です。

 

個別訪問面接聴取法であれば、住所に予め一定の法則で数値を割り当てておき、乱数によって調査対象の自宅を決定して訪問するというものです。

 

一方、RDD法というのは固定電話の電話番号と同じように10桁の乱数を使って調査対象の固定電話に連絡することで行います。

 

 

統計学の世界ではこのような乱数を使った方法がよく使われ、この方法を無作為抽出と言います。

 

当然、クジを引くやり方も無作為抽出として有効です。

 

無作為抽出には調査規模などに応じてその方法がいくつかありますので、別の記事で説明します。

スポンサードリンク

「母集団と標本」と同じカテゴリーのページ

無作為抽出の方法
無作為抽出のための手法 研究試験のランダム化
効率的な無作為抽出
層化抽出法によって単純無作為抽出よりも少ないサンプル数で母集団を推定することができる。
無作為抽出と有意抽出
無作為抽出が選ばれる理由。 有意抽出はなぜ使われないか。
連続型と離散型
数学的なデータの性質。 連続型データ。 離散型データ。
データの種類
統計の手法を選択する上で大事なデータの種類について説明します。 Rについては少し発展的な内容なので必要なときに読むといいでしょう。
データを知る
データの全体観を得る基本統計量。 平均、分散について。
データの整理と度数分布
データを整理するということ。 度数分布の考え方と度数分布表について。
度数分布表を実際に作る方法
度数分布表の作り方について。 表計算ソフトでも作ることができる度数分布表。 Rを使って計算過程を確認しながら作る方法。
階級数とスタージェスの公式
度数分布表を作るときに階級数を決定する方法。 スタージェスの公式について。
代表値はデータの中心と考える
平均に関する基本統計量。 平均値、中央値、最頻値。
平均値が適さないとき
物事を判断するときに平均値を基準に判断されがちですが、平均値が適さない場合も数多く存在しますという話。
散布度(ばらつき)からわかること
標準偏差や分散、四分位数などの散布度の意味。 基礎理論なので、これだけで何かが言えるわけではないが、散布度を理解していないと検定も行えない。
箱ひげ図の読み方
箱ひげ図はボックスプロットと呼ばれている統計的なグラフです。 一般的的にはあまり知られていない図ですが、統計学では古くから存在する手法です。 ここでは箱ひげ図の読み方について説明しています。
2次元データと散布図の作成
関連のある2種類の値を視覚的に表現する基本的な方法が散布図の作成です。
相関係数の意味と解釈
相関係数は2つの変数(データ)間の関係を考えるときに役に立ちます。 2つのデータを見るときははじめに散布図を描きます。 ここでは相関係数と散布図について説明しています。
散布図と相関・共分散
2変量の統計量について。 共分散の意味と相関係数。
相関係数だけでは判断できない場合がある
散布図を描かずに相関係数だけで議論することが間違っている場合があります。
保留中:共分散を理解する
2つの変数間の関係性を示す統計量に共分散というものがあります。 共分散と相関係数はほとんど同じ意味を持ちますが、性質が異なります。 その点を説明します。
回帰直線と決定係数
回帰直線の最小二乗法での書き方。 決定係数と相関係数の関係。