効率的な無作為抽出

サイト移転のお知らせ

移転先はこちらです。
効率的な無作為抽出
新たな記事は移転先に掲載しておりますので、そちらをご確認ください。

スポンサードリンク

単純無作為抽出の精度を高める層化抽出法

全数調査が現実的にできないからといって、
単純無作為抽出や多段抽出を行えば
時間的・費用的に可能になるかというと必ずしもそうではありません。

 

大規模な調査であれば
単純無作為抽出法や多段抽出法でも
時間と費用がそれなりにかかってしまうのは仕方のないことです。

 

では、抽出するサンプル数を少なくすればいいのではないかと考えます。

 

サンプル数が少なければ時間的・資金的にも低コストで済むので、
理にかなった方法です。

 

では、単純無作為抽出法でサンプル数を減らしてサンプリングした場合に、
母集団の特徴(性別・学歴・職業・病気などの構成比)を保った
サンプルが得られるかというのが問題になります。

 

無作為抽出の最大の利点は
無作為にある一定数のサンプルを抽出すれば、
許容できる誤差を含めて母集団の特徴を保ったままその縮図を再現できる

ということにあるので、サンプル数を減らすには
誤差が大きくなり過ぎないように気を配る必要があります。

 

どうやって気を配ればいいかというと
層化抽出法という方法と
組み合わせて無作為抽出を行うという方法があります。

 

層化抽出法では母集団の中で
予め分かっている属性に分けて抽出するという方法です。

 

属性には都市規模、人種、性別などがありますが、
この属性別のグループのことをと言って、
属性別に分けることを層化といいます。

 

層化抽出ができるのは、母集団の中で層のどれにも属さない
個体が存在しないこと
と、母集団の中での
層の構成比がわかっていること
が条件です。

層化抽出の例

次の母集団から100個の標本を無作為抽出することを考えます。

人数 構成比
男性日本人 300人 30%
男性外国人 150人 15%
女性日本人 350人 35%
女性外国人 200人 20%

 

一番わかりやすく簡単に行うには、
各層の構成比に合わせてサンプルサイズを決める方法です。

 

表の「男性日本人」の層であれば
100の標本の内30をこの層から抽出します。

 

これと同じように各層で構成比に合わせて抽出を行います。

 

このサンプル数の決め方を比例割当といいます。

 

この例では何を調査するのかには一切触れずに、
層化抽出の手法と割当法の中の比例割当の方法について話しました。

 

実際には「何を調査するのか」によって層化する属性は
大きく変わってきますし、割当についても
比例割当でなくても良い場合があります。

 

もっと言ってしまえば、無作為抽出でなくてもいい場合があります。

 

大事なことは、層化抽出の目的が、
単純無作為抽出では誤差に含まれていたはずのズレを、
あらかじめ母集団の属性によって補正し、
精度の高い標本抽出をすることだということです。

スポンサードリンク

「効率的な無作為抽出」と同じカテゴリーのページ

母集団と標本
母集団と標本。 世論調査の例。 乱数。
無作為抽出の方法
無作為抽出のための手法 研究試験のランダム化
無作為抽出と有意抽出
無作為抽出が選ばれる理由。 有意抽出はなぜ使われないか。
連続型と離散型
数学的なデータの性質。 連続型データ。 離散型データ。
データの種類
統計の手法を選択する上で大事なデータの種類について説明します。 Rについては少し発展的な内容なので必要なときに読むといいでしょう。
データを知る
データの全体観を得る基本統計量。 平均、分散について。
データの整理と度数分布
データを整理するということ。 度数分布の考え方と度数分布表について。
度数分布表を実際に作る方法
度数分布表の作り方について。 表計算ソフトでも作ることができる度数分布表。 Rを使って計算過程を確認しながら作る方法。
階級数とスタージェスの公式
度数分布表を作るときに階級数を決定する方法。 スタージェスの公式について。
代表値はデータの中心と考える
平均に関する基本統計量。 平均値、中央値、最頻値。
平均値が適さないとき
物事を判断するときに平均値を基準に判断されがちですが、平均値が適さない場合も数多く存在しますという話。
散布度(ばらつき)からわかること
標準偏差や分散、四分位数などの散布度の意味。 基礎理論なので、これだけで何かが言えるわけではないが、散布度を理解していないと検定も行えない。
箱ひげ図の読み方
箱ひげ図はボックスプロットと呼ばれている統計的なグラフです。 一般的的にはあまり知られていない図ですが、統計学では古くから存在する手法です。 ここでは箱ひげ図の読み方について説明しています。
2次元データと散布図の作成
関連のある2種類の値を視覚的に表現する基本的な方法が散布図の作成です。
相関係数の意味と解釈
相関係数は2つの変数(データ)間の関係を考えるときに役に立ちます。 2つのデータを見るときははじめに散布図を描きます。 ここでは相関係数と散布図について説明しています。
散布図と相関・共分散
2変量の統計量について。 共分散の意味と相関係数。
相関係数だけでは判断できない場合がある
散布図を描かずに相関係数だけで議論することが間違っている場合があります。
保留中:共分散を理解する
2つの変数間の関係性を示す統計量に共分散というものがあります。 共分散と相関係数はほとんど同じ意味を持ちますが、性質が異なります。 その点を説明します。
回帰直線と決定係数
回帰直線の最小二乗法での書き方。 決定係数と相関係数の関係。