担当: 菊地
例えば、日本人の意識調査という場合には、日本人全体が母集団である。しかしながら、母集団について完全に調査を行うことが不可能な場合が多い。このような場合として、
分析の対象となる集団の属性について完全に知ることができない場合には、全体の性質を反映しているような一部のデータを選び出し、それから推測する必要がある。このような調査を標本抽出による調査と呼ぶ。これに対して、全体を調査することを全数調査と呼ぶ。全数調査の代表例に、国勢調査がある。
母集団の一部でしかない標本から母集団の性質を推測するため、分析結果はその抽出の仕方に依存する。例えば、視聴率の調査であっても、その調査を行う世帯が変われば、結果も変わってきてしまう。標本によるばらつきに対応するために、確率的な扱いが必要であり、そのために標本分布という考え方が必要になる。
標本は、この母集団から取り出したものであり、母集団と同じ分布(母集団分布)に従う。例えば、日本人全体の身長の分布が正規分布なら、標本も同じ正規分布に従う。
母集団分布をf(x)とすると、n個の標本X1, X2, ..., Xnは、同一の母集団分布f(x)に従うn個の独立な確率変数と見なせる。なお、f(x)は、問題に応じて変わってくる。また、nを標本の大きさ、サンプルサイズと呼ぶ。
例えば、一日当たりの交通事故による死亡者数は、ポアソン分布に従うことがわかっている。よって、n個の標本X1, X2, ..., Xn(n日分の死亡者数)は、それぞれ独立なポアソン分布Po(λ)に従う。つまり、i日目の死亡者数Xiがx人となる確率P(Xi=x)は、
と表せる。このf(x)は、定数λさえわかれば計算が可能である。すなわち、λさえわかれば、母集団分布についてすべて知ることができることになる。
このように、事前に母集団分布がある分布として与えられていて、いくつかの定数がわかれば、母集団分布についてすべて知ることができる場合を、パラメトリックな場合と呼ぶ。このような場合には、そもそも分析において求めるべきものは、母集団分布を決定する定数(上の例ではλ)であり、統計的推測ではこれを母数、パラメータと呼ぶ。
上の例の他にも、数多くの現象が理論的、経験的にある特定の確率分布に従うことが知られている。このような場合には、分布を定めているいくつかの母数さえ求めてやれば、母集団分布がわかる。特に、正規分布では、平均と分散の二つの母数により分布が決定される。
例えば、世界各国の面積や人口の分布などである。ノン・パラメトリックな場合には、いくつかの母数で母集団分布を決定することができない。
こういった場合には、母集団分布に関わらずに求めることができるパラメータを用いて、分析を行う。例えば、母集団の平均、メディアン、モード、分散、レンジ、歪度、尖度などがある。
通常の実験や調査では、非復元抽出が行われている。Nがnに比べて十分に大きい場合には、いずれの方法でもほとんど差がないため、この講義では非復元抽出のみを取り扱う。
非復元抽出によるn個の標本の選び方は、
通りある。ここで注意すべきことは、得られる観測値は、この選び方のうちの一つしか得られないことである。
しかし、母集団全体の平均や分散は求めるのが困難な場合が多い。その場合には大きさnの標本X1, X2, ..., Xnを抽出し、標本平均、標本分散を計算し推測することになる。
標本X1, X2, ..., Xnは、母集団分布(母平均μ)に従う独立な確率変数であり、標本平均Xmeanは、
で与えられる。ここで、Xmeanの期待値は、
となり、母平均μに一致する。すなわち、大きすぎ、あるいは小さすぎなどの傾向(偏り)がなく、平均的に母平均を正しく推定できることになる。さらに、nが大きくなれば、μに集中する傾向がある。これは、Xmeanの分散が、
となり、n→∞のとき0に近付き、Xmean→μのように確率収束するからである。
これらの性質は、標本の大きさnが大きくなればなるほど、μを正しく推定することができることを表している。
で定義される。ここで注意すべきは、n-1で割っている点である。この理由は、標本分散s2の期待値が、
となり、母分散σ2に一致し、過大、過小にならず、すなわち偏らずに、不偏に推定できるからである。s2を母分散σ2の不偏推定量、あるいは不偏分散と呼ぶ。
n-1ではなく、nで割ったもの
も標本から計算される分散という意味で標本分散であるが、不偏ではない標本分散である。S2の期待値は
となり、(n-1)/nの分、常に過小に評価することになる。nが大きければ問題ないが、小さい場合には注意が必要である。
また、このn-1を自由度と呼ぶ。自由度は、式の中で自由に動ける変数の数という意味であり、今回の分散の式では、母平均μの代わりにその推定量Xmeanを用いており、そのため自由度が1減り、n-1となってしまう。
もともと、X1, ..., Xnのn個の変数があるので、自由度はnである。しかし、今回の場合には、X1+...+Xn=n Xmeanという制約条件を付けて、標本分散を計算していることになる。例えば、X1, ..., Xn-1までの値が決まってしまうと、Xn = n Xmean - (X1+...+Xn-1)として求まってしまい、Xnは変数とは見なせない。すなわち、変数として扱える数がn-1となる。
この関係を逆に使うと、統計量の値の出方(分布)から、母集団分布を求めることができる。なお、統計量t(X1, X2, ..., Xn)の確率分布をその統計量の標本分布と呼ぶ。(標本の観測値そのものの分布ではないので注意)
例えば、標本平均の分布、標本分散の分布があり、これらは特に重要である。その理由は、母平均、母分散を推定するために用いることができ、仮に母集団分布が正規分布であれば、この二つが求まれば母集団分布を決めることができるからである。
また、その統計量そのものの分布である標本分布も重要である。例えば、nが大きくなれば、母集団分布がなんであっても、中心極限定理により、標本平均の標本分布は、平均μ、分散σ2/nの正規分布N(μ,σ2/n)に従う。なお、n→∞の場合に成り立つことを漸近的に成り立つといい、漸近的に正規分布に従うことを漸近正規性と呼ぶ。