数理統計II

担当: 菊地


第2回 1次元データの記述統計

2006.4.13

2.1 データ

観測
調査や実験など、広い意味を表す。観測により観測値を得る。
データ
観測値の集まり

2.2 度数分布

度数分布
観測値のとりうる値をいくつかの階級に分け、それぞれの階級に属する観測値の数を数えたもの。度数分布を表にしたものを、度数分布表と呼ぶ。
階級値
階級を代表する値。通常は、階級の中間値とする。
相対度数
観測値の総数を1としたときの、度数の割合。すなわち、全体の中での各階級に属するデータの個数の割合。データの総数が違う二つのデータを比べる場合に有効である。
累積度数
度数を下の階級から順に積み上げた時の度数。例えば、テストの得点が50点以下の人数など。累積相対度数は、相対度数を積み上げたもの。

2.3 ヒストグラム

ヒストグラムとは、度数分布表を縦棒のグラフにしたものである。これにより、データの分布形がわかる。
対称分布
左右対称になっている分布
右(左)に歪んだ分布
感覚とは逆になるかもしれないが、山が左(右)により、右(左)側の裾が長くなった分布。右(左)に裾をひいた分布ともいう。
単峰分布
山が一つの分布
双峰分布
山が二つある分布

一般的に、ヒストグラムは、階級数階級幅の取り方によって、違ったグラフとなる。決まった定め方はないが、階級数の目安として、スタージェスの公式がある。

スタージェスの公式
観測値の数をnとすると、階級数kは、

k = 1 + log2n

で計算される。

階級の設定について、厳密なルールはないが、なめらかな真の分布形を想像できるものが望ましい。通常は、階級数や階級幅を増やしたり減らしたりしながら試行錯誤を繰り返し、設定する。

2.4 測定の尺度

データを観測する際の値の測り方、決め方
名義尺度
観測する対象が他と異なるか同一かという判断基準。性別の男女、婚姻状態の未婚、既婚、死別、離婚など。
順序尺度
[大きい、小さい]や、[非常に良い、良い、普通、悪い、特に悪い]など、順序のある判断基準。
上記の二つの尺度によって測定されるデータを質的データと呼ぶ。
間隔尺度
観測する対象が他のものよりも、ある単位によって多い、少ないといえる判断基準。摂氏や華氏などの温度、時刻など。
比尺度
観測する対象が他のものよりも、ある単位によって何倍大きいなどといえる判断基準。身長、体重、絶対温度、経過時間など。
上記の二つの尺度によって測定されるデータを量的データと呼ぶ。

後述のものほど、厳密な測定といえる。間隔尺度、比尺度のデータの値どうしでは、足し算、引き算はできるが、名義尺度や順序尺度ではできない。比尺度のデータの値どうしでは、掛け算、割り算もできるが、それ以外の尺度ではできない。


2.5 代表値

代表値とは、分布を代表する値のことである。ヒストグラムなどでは、視覚的、感覚的に分布の形がわかるのに対して、代表値は計算方法が決まっており、客観性がある。
平均
最も良く知られている代表値であり、通常は算術平均のことをさす。n個の観測値をx1, x2, ..., xnとすると、

xmean = (x1 + x2 + ... + xn)/n

である。

なお、この講義ノートでは、HTMLで記述できないため、xmeanと表現しているが、本来はxの上にバーの付いた記号を用いる。レポート作成などの際には、こちらの記号を用いること。

メディアン
観測値の小さいもの、または大きいものから順に並び替えた時の中央の値である。データの大きさが奇数のときには、中央の値となる。偶数n=2mのときは、m番目とm+1番目の値の平均をメディアンとする。中央値とも呼ばれる。
モード
分布の山の頂点に対応する値、すなわち最頻値のことである。度数分布表においては、度数が最大となる階級値がモードとなる。ただし、この値は、階級の取り方によって変わってくる。また、双峰分布の場合には、あまり有効な代表値とはいえない。
これらの3つの代表値には、以下の性質がある。

2.6 散らばりの尺度

上にあげた代表値が同じであっても、分布の形は違う場合も多い。例えば、山の中心が同じであっても、山の高さが違い、裾の傾きも違えば、分布の形も違ってくる。分布の形状を示す指標の一つとして、散らばりの尺度がある。
レンジ
最大値と最小値の差で定義される。すなわち、分布の端から端までの距離であり、範囲とも呼ばれる。端の値を用いるため、異常値(外れ値)の影響を受け易く、かなり粗い尺度である。
平均偏差
各観測値が平均からどれくらい離れているか(これを偏差という)の平均を求めたもので、各観測値と算術平均との差の絶対値の平均で定義される。すなわち、平均を xmean とすると、

平均偏差 = (|x1 - xmean| + |x2 - xmean| + ,,, + |xn - xmean|)/n

と表される。絶対値をとらずに和を求めると必ず0となってしまうため、絶対値をとってから平均を求めている。

分散と標準偏差
偏差を絶対値ではなくて、2乗することで符号を消して、平均を求めたものを分散と呼ぶ。すなわち、

分散 = ((x1 - xmean)2 + (x2 - xmean)2 + ,,, + (xn - xmean)2)/(n-1)

で定義される。通常、分散と言った場合には、分母にはn-1を用いる。nで割ったものは、特別に標本分散と呼ぶことが多い。

なお、分散は、データの値を2乗して計算されているため、元のデータの単位が保存されず、2乗した単位となってしまう。単位をそろえる場合には、分散の平方根をとった標準偏差を用いる。標準偏差は、

標準偏差 = 分散の平方根

で定義される。