2次元データと散布図の作成

サイト移転のお知らせ

移転先はこちらです。
統計講座|基礎編
新たな記事は移転先に掲載しておりますので、そちらをご確認ください。

スポンサードリンク

2次元データとは関連する2つの数値を集めたデータ

2つの変数を1組として作られているデータのことを
2次元データといいます。

 

具体的には次のようなデータを指します。

ID

x

y

1

25.4

33.1

2

28.5

40.3

3

25.6

34.2

4

26.4

40.3

5

35.8

60.9

6

21.5

29.3

 

このデータがある患者集団から得られた検査値で、
変数xが治療開始直後、変数yが治療開始1週間後だったとすると、
1番の患者の治療開始直後の検査値は25.44122、
1週間後の検査値は33.11025ということになります。

 

同じようにして2番めの患者の検査値、
3番目の患者の検査値・・・・と続いていくわけです。

 

この場合はxとyの組み合わせについて
1人の患者から得られた値なので、
対応のある2次元データといいます。

 

これとは対照的に
このデータがある患者集団から得られた
治療開始直後の検査値と
治療開始1週間後の検査値だが、
変数xと変数yは別々の患者のものだったとします。

 

この場合は同一の患者から得られたデータではないので
対応のない2次元データといいます。

 

これから説明する散布図では
2つの変数の関係を明らかにしていくものなので、
ここから先は全て2次元データを取り扱いながら説明していきます。

2次元データを視覚的に表現するための散布図

上記のような2次元データを視覚的に表現するには
多くの場合、散布図を描きます。

 

散布図とは2つの変数統計講座|基礎編
横軸をx、縦軸をyとしたグラフに
統計講座|基礎編の点を描く統計的なグラフのことです。

 

実際に描いたグラフはこのようになります。
統計講座|基礎編

 

こういった基本的な統計グラフは
Excelのような表計算ソフトでも実装されているので
それほど違和感を感じることはないと思います。

 

散布図からわかること

散布図を描くことによって、
2つの数値の間にどのような関係があるかを
予測することができます。

 

例えば、上記の散布図では
xが小さいときはyも比較的小さな値になりやすい
ということが予測できます。

 

ただし、統計的な判断をする上では
見た目だけで判断してはいけません。

 

見た目だけでは絶対に関連があるとは言い切れないので、
それを検証するための統計量が相関係数や共分散です。

 

スポンサードリンク

「2次元データと散布図の作成」と同じカテゴリーのページ

母集団と標本
母集団と標本。 世論調査の例。 乱数。
無作為抽出の方法
無作為抽出のための手法 研究試験のランダム化
効率的な無作為抽出
層化抽出法によって単純無作為抽出よりも少ないサンプル数で母集団を推定することができる。
無作為抽出と有意抽出
無作為抽出が選ばれる理由。 有意抽出はなぜ使われないか。
連続型と離散型
数学的なデータの性質。 連続型データ。 離散型データ。
データの種類
統計の手法を選択する上で大事なデータの種類について説明します。 Rについては少し発展的な内容なので必要なときに読むといいでしょう。
データを知る
データの全体観を得る基本統計量。 平均、分散について。
データの整理と度数分布
データを整理するということ。 度数分布の考え方と度数分布表について。
度数分布表を実際に作る方法
度数分布表の作り方について。 表計算ソフトでも作ることができる度数分布表。 Rを使って計算過程を確認しながら作る方法。
階級数とスタージェスの公式
度数分布表を作るときに階級数を決定する方法。 スタージェスの公式について。
代表値はデータの中心と考える
平均に関する基本統計量。 平均値、中央値、最頻値。
平均値が適さないとき
物事を判断するときに平均値を基準に判断されがちですが、平均値が適さない場合も数多く存在しますという話。
散布度(ばらつき)からわかること
標準偏差や分散、四分位数などの散布度の意味。 基礎理論なので、これだけで何かが言えるわけではないが、散布度を理解していないと検定も行えない。
箱ひげ図の読み方
箱ひげ図はボックスプロットと呼ばれている統計的なグラフです。 一般的的にはあまり知られていない図ですが、統計学では古くから存在する手法です。 ここでは箱ひげ図の読み方について説明しています。
相関係数の意味と解釈
相関係数は2つの変数(データ)間の関係を考えるときに役に立ちます。 2つのデータを見るときははじめに散布図を描きます。 ここでは相関係数と散布図について説明しています。
散布図と相関・共分散
2変量の統計量について。 共分散の意味と相関係数。
相関係数だけでは判断できない場合がある
散布図を描かずに相関係数だけで議論することが間違っている場合があります。
保留中:共分散を理解する
2つの変数間の関係性を示す統計量に共分散というものがあります。 共分散と相関係数はほとんど同じ意味を持ちますが、性質が異なります。 その点を説明します。
回帰直線と決定係数
回帰直線の最小二乗法での書き方。 決定係数と相関係数の関係。