R講座|確率統計編

サイト移転のお知らせ

移転先はこちらです。
R講座|確率統計編
新たな記事は移転先に掲載しておりますので、そちらをご確認ください。

スポンサードリンク
スポンサードリンク

R講座|確率統計編

ここではRで無作為抽出をする方法を説明します。無作為抽出とはなにか?Rで無作為抽出をするにはsample関数を使うという順でお話します。

Rではデータの種類を大きく分けて数値型か文字列型で区別します。まず、型とはどんなものかというと、例えばRで2としたとすると、[1] 2というデータが返ってきます。このデータにclass()という関数を使うとclass(2)[1] "numeric"と返ってきます。この"numeric"というのが数値型というものです。型とはデータのラベルのようなもので、データを表示したときは意識しませんが、統計的な...

Rには度数分布表を作成するための関数が用意されていません。しかし、度数分布表を実際に作る方法の通りに毎回同じ作業を行うのはとても面倒なので、データから直接度数分布表を作成できる関数を作りました。freqtab<-function( x, #データのベクタ cn=1+log2(length(x)), #階級数cnはスタージェスの公式 wid=FALSE) #階級幅を指定...

ヒストグラムは作成した度数分布表を視覚的に捉えるための棒グラフです。度数分布表はデータを整理して全体観を把握しやすくするためにとても有効な手段でしたが、直感的にわかるというものではありませんでした。ヒストグラムは情報量としては圧倒的に少ないですが、度数分布表よりもわかりやすい情報を与えてくれます。ヒストグラムにはもうひとつの役割があって、データがどのような確率分布に従っているかを予測するための手段...

次の表は代表値の説明とRで代表値を求めるための関数です。代表値説明Rの関数平均値(算術平均)全部のデータを足してデータの数で割れば求められる。mean()中央値データを小さい順に並べ、両側からちょうど真ん中にある数値のこと。奇数個の数値からできているデータであれば真ん中。偶数個の数値からできているデータでは真ん中2つの値の平均値。median()最頻値データの中で最も多く現れる数値または文字などの...

散布度はデータの特徴を示す数値の中で、データがどの程度バラけた値をとっているかを示す指標です。イメージとしてはヒストグラムを描いたときにどの範囲にどの程度データがあるかを見ることと捉えると分かりやすです。散布度を表すにはいろいろな表し方がありますが、基本的には代表値を基準にしてどれくらい離れたところまでデータが有るかを考えることだと思って下さい。次の表は散布度の説明とRで代表値を求めるための関数で...

Rで箱ひげ図を描くにはboxplot関数を使います。はじめに標準正規分布の乱数で1000個の要素があるデータを用意します。x<-rnorm(1000)箱ひげ図を描くには boxplot関数をそのまま使用します。boxplot(x)読み方については箱ひげ図の読み方を参考にして下して下さい。今回の場合の外れ値を手動で求めるにはQ1<-quantile(x)[2] #第1四分位数Q3<...

擬似的な2次元データを作成するためにはMASSパッケージを読み込む必要があります。MASSパッケージはRをインストールした時点ですでに内蔵されているので、library関数で読み込みます。library(MASS) # MASSパッケージの読込