数理統計II

担当: 菊地


第8回 標本分布と推定

2006.6.1

8.1 標本平均の標本分布

次のように場合分けされる。


8.2 分散が既知のときの標本平均の標本分布

標本平均Xmeanは、

Xmean = (X1 + X2 + ... + Xn) / n

である。ただし、Xiはそれぞれ独立でN(μ,σ2)に従うものとする。

この時、Xmeanの標本分布は、N(μ,σ2/n)である。正規分布表を用いて、確率を計算するためには、N(0,1)に標準化しなければならないが、σ2がわかっているので標準化が可能である。(標準化した確率変数をZとする。)

また、Xmeanの標準偏差(標準誤差)はσ/√nであり、このことから次のことが言える。

  1. nが増加するに従いXmeanは、より正確なμの推定値となる。
  2. 推定の誤差は1/√nのオーダーでしか減少しない。すなわち、推定する際の誤差を1/2にするにはnを4倍、1/10にするにはnを100倍にする必要がある。

鉛筆の長さの測定の例で考える。

  1. 真の長さμ=18.0と仮定する。ただし、σ=0.02であるとわかっているとする。
  2. 10回測定し、Xmean=18.03であった。
  3. 標準化を行うと、Z=(18.03-18.0)/(0.02/√10)=4.74である。
  4. 正規分布表から見ると、Zが4.74より大きくなる確率P(Z>4.74)は、0.000001である。こういった事象が起こることはまず考えられない。
  5. すなわち、μ=18.0という仮定がおかしい、ということになる。
これが仮説検定の考え方である。なお、N(0,1)において、その点よりも上側の確率(P(Z>x))が、100α%となる点xを上側100αパーセント点と呼び、Zαで表す。

8.3 標本分散の標本分布

母分散σ2の推定に用いる標本分散(不偏分散を用いる)は、

s2 = ((X1-Xmean)2 + (X2-Xmean)2 + ... + (Xn-Xmean)2) / (n-1)

によって計算される。この標本分散は、正規母集団を仮定しなくても、E(s2)=σ2であるが、さらに正規母集団を仮定すると、その期待値だけでなく、標本分布を求めることができる。標本分布を考えることで、母分散についての統計的推測を行うことができる。

χ2分布
Z1, Z2, ..., Zkは、それぞれ独立で、標準正規分布N(0,1)に従うとする。この時、

χ2 = Z12 + Z22 + ... + Zk2

とし、このχ2の従う確率分布を自由度kのχ2(カイ二乗)分布と呼ぶ。なお、χ2(k)で表す。また、χ2(k)の上側確率がαとなる値をχα2(k)と書き、χ2分布表として掲載されている。

ここで、標本分散について考える。正規母集団からの標本による標本分散s2から得られる統計量

χ2 = (n-1) s2 / σ2

は、自由度n-1のχ2分布χ2(n-1)に従うことが知られている。

標本分散の変動
正規母集団N(50,25)から大きさn=10の標本をとったとき、標本分散s2が50を超えてしまう確率はどれくらいだろうか。

s2=50として、χ2値を計算すると、χ2=(n-1)s22=9*50/25=18である。χ2分布表から、自由度9のχ2分布の上側確率を求めると、P(χ2>18)=0.038である。

すなわち、真の分散が25であっても、2倍の50を超える標本分散が出ることも、まれにはあるということであり、標本分散の大きさの解釈には注意が必要である。


8.4 分散が未知のときの標本平均の標本分布

現実の測定の場合には、真の値(平均)がわからないのに分散だけがわかっているというのは想定しにくい。そこで、母分散σ2の代わりに標本分散s2を使った場合の標本平均Xmeanの標本分布を考える。

標本平均Xmeanの標本分布を標準化する際のσ2の代わりに、s2を使ったスチューデントのt統計量

t = (Xmean - μ) / √(s2/n)

と定義する。これは、N(0,1)には従わないが、式を変形するとN(0,1)とχ2(n-1)の組み合わせで書けることがわかる。

このようなt統計量が従う確率分布を(スチューデントの)t分布と呼ぶ。自由度は、含まれるχ2分布の自由度と同じであり、(Xmean-μ)/√(s2/n)は、自由度n-1のt分布に従う。なお、自由度kのt分布をt(k)と書く。t統計量の分母は、Xmeanの標準偏差s/√nであり、標本平均の標準誤差である。

t分布は正規分布の代用品であるが、大標本(n→∞)の場合には、正規分布と一致する。t(k)の上側確率100α%のパーセント点をtα(k)と書き、t分布表として教科書に掲載されている。


8.5 推定とは

パラメータ推定
観測された標本X1, X2, ..., Xnから母集団分布の平均や分散などの母数(パラメータ)を推測すること。
推定量
パラメータを推定するために標本から求めた統計量のこと。推定しようとするパラメータをθ、その推定量をで表す。(ただし、講義ノート中では、θhatと表記する。) 例えば、θを母平均とすると、それを推定するための標本平均は推定量と見なせて、

θhat = (X1 + ... + Xn) / n

となる。一般に推定量θhatはX1, X2, ..., Xnの関数の形で表される。

点推定
パラメータθをある一つの値θhatで推定する方法。θhatはX1, X2, ..., Xnの関数である。実際にはθの値と一致せず、誤差を伴う。誤差は、推定量θhatの標本分布から計算できる。
区間推定
真のパラメータの値θを一つの値ではなく、区間[L, U]として推定する方法。ただし、必ずその区間にθの値が入っているというわけではなく、入っている確率が1-α以上と保証されるだけである。点推定と違い、はじめからある程度の誤差があることを想定した方法とも言える。すなわち、

P(L <= θ <= U) >= 1-α

となるようなL、Uを求めることになる。ここで、L、UはX1, X2, ..., Xnの関数になっており、統計量である。区間推定も、推定量θhatの標本分布から計算される。

推定量・推定値
推定量とは、パラメータを推定するために用いられるX1, X2, ..., Xnの関数の形で表されたものである。また、このX1, X2, ..., Xnに実際に観測された値x1, x2, ..., xnを代入して、具体的な値として計算されたものを推定値と呼ぶ。推定量は確率変数であり、取り出された標本によってその値が変動する。推定値は、推定量の取り得る値の一つということになる。