データの種類

サイト移転のお知らせ

移転先はこちらです。
統計 医療統計 確率
新たな記事は移転先に掲載しておりますので、そちらをご確認ください。

スポンサードリンク

データの種類とは

統計手法を選ぶときに大前提となるのがデータの種類です。

 

統計は数学の分野ですから、データの種類が変わればそのデータの扱いも変わってくるのが当然です。

 

また、統計分野に限ったことではありませんが、数学的には実験などで得られるデータのことを変数と呼ぶことがほとんどです。

 

統計の教科書ではデータと言ったり、変数と言ったり様々ですが、基本的にはどちらも同じ意味です。

データの種類の考え方

最初に簡単な考え方の話をします。

 

A町からB町までの距離は3kmです。

 

A町からC町までの距離は5kmです。

 

よって、A町から近い町はB町です。

 

この文章は誰が読んでも正しいと思うはずです。

 

では次の文章はどうでしょうか?

Aさんは数学がとても嫌いです。

 

Bさんも数学がとても嫌いです。

 

よって、AさんとBさんは同じくらい数学が嫌いです。

 

これに関しては正しい、正しくないどちらの意見も出てきそうですが、一般的には「正誤の判断ができません」というのが多いのではないでしょうか?

 

それが当たり前です。

 

上の文章のように比較するための情報が明確な数値ならば、誰でも判断出来ます。

 

下の文章では比較するための情報が曖昧なのです。

 

 

統計では様々なデータを扱います。

 

上の文章の様に明確に数値で表されているものから、下の文章のように数値では表しにくいのもまで様々です。

 

これらを正しく扱うためにも、データの種類については正しく理解する必要があります。

データの種類を分類する尺度水準

よく使われるデータの種類を分類する規準に尺度水準というものがあります。

 

これはデータの種類を4つに分類するものです。

 

尺度水準では次のように分けます。

名義尺度 例えば、数学が好きであるとき1、嫌いであるとき0を割り振ると、これらの数値には数値的な意味がありません。

このようにデータの性質のみが表されるものを名義尺度と言います。
これは、郵便番号や市外局番などにも当てはめられることで、あるグループに便宜上数値を割り当てている場合もこれに該当します。

順序尺度 例えば、社長を1、部長を2、課長を3、係長を4、といったように数値を割り振っても、社内での地位を示しているだけで社長は課長より2つ偉いとは言いません。

つまり、数値自体の差には数値的な意味がありません。
このようにデータの順序だけが表されるものを順序尺度と言います。
レースの着順や心理学などのアンケートでよくある好き嫌いの5段階もこれに該当します。

間隔尺度 例えば、3日は1日の2日後とは言いますが、1日の3倍とは言いません。

つまり、数値自体の差には意味があるけれども、数値を見た時の比には意味がありません。
このように、データに順序があり、2つのデータの差のみは意味があり、比には意味が無いものを間隔尺度と言います。
摂氏○○度で表される温度もこれに該当します。

比率尺度 例えば、体重50kgの人と体重100kgの人がいたとすると、その差は50kgで100kgの人は50kgの人の2倍の重さがあると言います。

つまり、数値自体の差にも比にも数値的な意味があります。
このように、数値を数学的な数として扱えるものを比率尺度と言います。
物理学的な量や長さ、エネルギーなどはほとんどこれに該当し、温度の場合も絶対温度であればこれに該当します。

尺度水準の簡易版

結論から言うと、データの種類を分けるときは2種類に分ければ大体、大丈夫です。

 

これは冒頭に話したデータの種類の考え方と同じです。

 

2種類に分けるときは

  • 数学的な数値という意味の量的変数
  • 数値として完全ではなく、記号的な要素の強い質的変数

を用います。

 

「量的変数=比率尺度+間隔尺度」、「質的変数=名義尺度+順序尺度」のような感覚で構いません。

 

実際にはこんなイメージです。

 

データの種類のイメージ

 

とは言っても、適応する統計手法によってはデータの種類を尺度水準を用いて細かく分ける必要があるので、あくまで大雑把な分類だと考えて下さい。

スポンサードリンク

「データの種類」と同じカテゴリーのページ

母集団と標本
母集団と標本。 世論調査の例。 乱数。
無作為抽出の方法
無作為抽出のための手法 研究試験のランダム化
効率的な無作為抽出
層化抽出法によって単純無作為抽出よりも少ないサンプル数で母集団を推定することができる。
無作為抽出と有意抽出
無作為抽出が選ばれる理由。 有意抽出はなぜ使われないか。
連続型と離散型
数学的なデータの性質。 連続型データ。 離散型データ。
データを知る
データの全体観を得る基本統計量。 平均、分散について。
データの整理と度数分布
データを整理するということ。 度数分布の考え方と度数分布表について。
度数分布表を実際に作る方法
度数分布表の作り方について。 表計算ソフトでも作ることができる度数分布表。 Rを使って計算過程を確認しながら作る方法。
階級数とスタージェスの公式
度数分布表を作るときに階級数を決定する方法。 スタージェスの公式について。
代表値はデータの中心と考える
平均に関する基本統計量。 平均値、中央値、最頻値。
平均値が適さないとき
物事を判断するときに平均値を基準に判断されがちですが、平均値が適さない場合も数多く存在しますという話。
散布度(ばらつき)からわかること
標準偏差や分散、四分位数などの散布度の意味。 基礎理論なので、これだけで何かが言えるわけではないが、散布度を理解していないと検定も行えない。
箱ひげ図の読み方
箱ひげ図はボックスプロットと呼ばれている統計的なグラフです。 一般的的にはあまり知られていない図ですが、統計学では古くから存在する手法です。 ここでは箱ひげ図の読み方について説明しています。
2次元データと散布図の作成
関連のある2種類の値を視覚的に表現する基本的な方法が散布図の作成です。
相関係数の意味と解釈
相関係数は2つの変数(データ)間の関係を考えるときに役に立ちます。 2つのデータを見るときははじめに散布図を描きます。 ここでは相関係数と散布図について説明しています。
散布図と相関・共分散
2変量の統計量について。 共分散の意味と相関係数。
相関係数だけでは判断できない場合がある
散布図を描かずに相関係数だけで議論することが間違っている場合があります。
保留中:共分散を理解する
2つの変数間の関係性を示す統計量に共分散というものがあります。 共分散と相関係数はほとんど同じ意味を持ちますが、性質が異なります。 その点を説明します。
回帰直線と決定係数
回帰直線の最小二乗法での書き方。 決定係数と相関係数の関係。