[R]統計学的なデータの種類の扱い

サイト移転のお知らせ

移転先はこちらです。
Rにおけるデータの種類の扱い
新たな記事は移転先に掲載しておりますので、そちらをご確認ください。

スポンサードリンク

Rにとってのデータの種類

Rではデータの種類を大きく分けて数値型か文字列型で区別します。

 

まず、型とはどんなものかというと、例えばRで

2

としたとすると、

[1] 2

というデータが返ってきます。

 

このデータにclass()という関数を使うと

class(2)
[1] "numeric"

と返ってきます。
この"numeric"というのが数値型というものです。

 

型とはデータのラベルのようなもので、データを表示したときは意識しませんが、統計的なデータの解析には計算過程で型が大切になるのでここでしっかりおさえておきましょう。

Rで質的変数は因子型と呼ばれる

質的変数は文字列型を擬似的な数値として扱う因子型という型を使用します。

 

因子型とは文字列に対して一つ一つ整数を割り振ったもので、まさに質的変数ということになります。

 

 

文字列のデータを次のように作り表示すると

moji <- "mojimoji"
moji
[1] "mojimoji"

となります。

 

これは文字列なのでclass()を使用しても

class(moji)
[1] "character"

となって、"character"、つまり文字列型であると表示されます。

 

統計処理をするにはこれを因子型にしなければいけないので、factor()という関数を使います。

 

先ほどのmojiというデータにfactor()を適用して表示すると

fmoji <- factor(moji)
fmoji
[1] mojimoji
Levels: mojimoji

となり、これで因子型に変換することができました。

 

Levels: mojimojiと表示されていますが、これは「mojimojiに1という数字を当てはめています」という意味です。

 

先ほどのclass()を使うと

class(fmoji)
[1] "factor"

となって、これが因子型であることがわかります。

 

文字列がいくつか含まれていると、含まれている文字列のアルファベット順に1、2、3、…と数字が当てはめられていきます。

 

例えば文字列が3つある場合で説明します。

 

文字列a、b、cがデータとしてあり、これを因子型にすると

moji3 <- c("c", "b", "a")
fmoji3 <- factor(moji3)
fmoji3
[1] c b a
Levels: a b c

と表示されます。

 

並びでは c、b、a となっていますが、因子(Levels)の順番はアルファベット順です。

スポンサードリンク

「[R]統計学的なデータの種類の扱い」と同じカテゴリーのページ

[R]無作為抽出をする
無作為抽出とはなにか? Rで無作為抽出をするにはsample関数を使う
[R]度数分布表を作る方法
Rでは度数分布表を作る関数が用意されていない。 ここではRで度数分布表を作成するための方法と、度数分布表を自動で作成する関数を紹介している。
[R]ヒストグラムを描くhist関数
Rでは標準でヒストグラムを描くためのhist関数が用意されている。 ヒストグラムの書き方とヒストグラムを描くときの注意点について。
[R]代表値を求める
Rで代表値を求めるための方法。 平均値はmean、中央値はmedian、最頻値はtableを使って求めることができます。 基本的な使い方と補足説明を入れてあります。
[R]散布度を求める
散布度をRで求める方法。 散布度にはいろいろな基準があるが、Rはほとんどすべてを網羅している。
[R]箱ひげ図を描く
Rではboxplot関数を使って、箱ひげ図を直接綺麗に描くことができる。 Rで箱ひげ図を描くための方法を説明する。
[R]正規分布に従う2次元データの作り方
Rで擬似データとして、正規分布に従う2次元データを作成する方法