無作為抽出と有意抽出

サイト移転のお知らせ

移転先はこちらです。
R 統計 基礎  無作為抽出 有意抽出
新たな記事は移転先に掲載しておりますので、そちらをご確認ください。

スポンサードリンク

有意抽出とは

無作為抽出はランダムに母集団から標本を抽出する方法です。

 

有意抽出は無作為抽出とは逆に、
ある一定の法則を持ちながら、
もしくは何かしらの固定概念を持ちながら標本を抽出することです。

 

例えば、あなたが何かしらの調査をするときに
データの抽出をあなた個人の独断で行うことは有意抽出です。

 

無作為であれば母集団の特徴を近似的に表現できるので、
どんな集団かを知るために有利でした。

 

では有意抽出はどんなときに有効かです。

 

有意抽出と無作為抽出を比較したときに、
データ収集で決定的な差はサンプルサイズが少ないか多いかということです。

 

無作為抽出であれば、何の情報もない母集団を
近似的に求めるために多数のサンプルが必要です。

 

これに対して、ある一定の法則が母集団に存在する場合は
有意抽出もどきをすれば、
サンプル数を少なくして母集団を近似的に求めることができるということです。

 

これは層化抽出に言えることで、
層化抽出は母集団の要素の属性によってサンプル数を変える方法です。

 

属性によって抽出する割合を決めるということは、
ある意味で有意抽出もどきをすることになります。

無作為抽出より正確な有意抽出の例

根本的な話をすると、有意抽出であっても
データによっては正確な標本抽出を行うことができます。

 

有意抽出とは個人の独断と偏見で標本を抽出するということなどを言います。

 

極端な話、あなたが何かしらの調査をするときに
あなたの知り合いにだけを対象に調査をしても
母集団全体の代表的な結果として成立するということです。

 

なんだか不思議な話に聞こえますが、
もちろん制約はあります。

 

普通は病気の発病リスクを推定するために
その要因を、喫煙歴、飲酒歴、職歴などの属性や
家族歴、食生活、運動の有無などの環境因子などと
関連付けて経験的に考察します。

 

ところが、ある病気Aの発病率が1日の食事回数と
1日の平均睡眠時間のみによって
完全に決まっているとします。

 

この場合、母集団の病気Aの発病率を推定するには
一体どのようにサンプリングすればよいでしょうか?

 

・・・・・・・

 

答えは簡単です。

 

1日の食事回数と睡眠時間で細かく層化してし、
それぞれのグループから1人ずつ有意抽出すれば正確な推定ができます。

 

食事回数と睡眠時間で完全に決まっているので、
層化抽出の方法に従って各層から一人抽出すればそのグループに属する人は
必ずその一人と同じ発病率であるということが言えるからです。

 

食事回数が3回、睡眠時間が6時間という人が
1000万人を占めるのであれば、抽出した1人を1000万倍して、
同じようにその他のグループ(層)についても人口分だけ倍にすれば
母集団全ての発病率がわかったことになります。

 

これを母集団の人口で割れば
その母集団の平均発病率が正確にわかるわけです。

 

しかしこの場合の有意抽出には何の意味もありません。

 

そこまで正確に病気Aの発病率がわかっているのなら
はじめから調べる必要はないからです。

 

ただし、完全に決まっていないとすると話は別です。

 

ある病気Bについては食事回数と睡眠時間が
関係しているのは分かっていますが、
それだけでは説明できない発病率の誤差があるとします。

 

この場合は母集団を無作為に沢山抽出すれば、
まず的はずれな母集団の推定にはならないでしょう。

 

現実的に沢山抽出することができないのであれば、
ここで食事回数と睡眠時間を使って層化抽出を用います。

 

無作為抽出では食事回数や睡眠時間のような
環境自体が無作為に選ばれるということで
平均化されてしまうので全ての要因が誤差の中に含まれます。

 

それに対して層化抽出のような単純無作為抽出よりも
有意抽出に近い抽出を行えば、はじめから誤差を縮小することが可能になります。

 

これによって、無作為抽出よりも少ないサンプル数で(低コストで)
母集団を推定することが可能になります。

結局、無作為抽出と有意抽出どちらがいいのか

これは解析する対象によりますが、無作為抽出を行えばまず間違いないです。

 

有意抽出では、個人の先入観や経験的に知られていた母集団の特徴が誤っていたことなどで、実際には全く違う答えを導き出してしまう可能性がかなり大きいです。

 

それに対して、無作為抽出では個人の先入観や経験的な誤りを排除してサンプルを抽出するので、ある意味かなり正確にサンプルを抽出できます。

スポンサードリンク

「無作為抽出と有意抽出」と同じカテゴリーのページ

母集団と標本
母集団と標本。 世論調査の例。 乱数。
無作為抽出の方法
無作為抽出のための手法 研究試験のランダム化
効率的な無作為抽出
層化抽出法によって単純無作為抽出よりも少ないサンプル数で母集団を推定することができる。
連続型と離散型
数学的なデータの性質。 連続型データ。 離散型データ。
データの種類
統計の手法を選択する上で大事なデータの種類について説明します。 Rについては少し発展的な内容なので必要なときに読むといいでしょう。
データを知る
データの全体観を得る基本統計量。 平均、分散について。
データの整理と度数分布
データを整理するということ。 度数分布の考え方と度数分布表について。
度数分布表を実際に作る方法
度数分布表の作り方について。 表計算ソフトでも作ることができる度数分布表。 Rを使って計算過程を確認しながら作る方法。
階級数とスタージェスの公式
度数分布表を作るときに階級数を決定する方法。 スタージェスの公式について。
代表値はデータの中心と考える
平均に関する基本統計量。 平均値、中央値、最頻値。
平均値が適さないとき
物事を判断するときに平均値を基準に判断されがちですが、平均値が適さない場合も数多く存在しますという話。
散布度(ばらつき)からわかること
標準偏差や分散、四分位数などの散布度の意味。 基礎理論なので、これだけで何かが言えるわけではないが、散布度を理解していないと検定も行えない。
箱ひげ図の読み方
箱ひげ図はボックスプロットと呼ばれている統計的なグラフです。 一般的的にはあまり知られていない図ですが、統計学では古くから存在する手法です。 ここでは箱ひげ図の読み方について説明しています。
2次元データと散布図の作成
関連のある2種類の値を視覚的に表現する基本的な方法が散布図の作成です。
相関係数の意味と解釈
相関係数は2つの変数(データ)間の関係を考えるときに役に立ちます。 2つのデータを見るときははじめに散布図を描きます。 ここでは相関係数と散布図について説明しています。
散布図と相関・共分散
2変量の統計量について。 共分散の意味と相関係数。
相関係数だけでは判断できない場合がある
散布図を描かずに相関係数だけで議論することが間違っている場合があります。
保留中:共分散を理解する
2つの変数間の関係性を示す統計量に共分散というものがあります。 共分散と相関係数はほとんど同じ意味を持ちますが、性質が異なります。 その点を説明します。
回帰直線と決定係数
回帰直線の最小二乗法での書き方。 決定係数と相関係数の関係。