数理統計II

担当: 菊地

第6回母集団と標本

2006.5.18

6.1 母集団と標本

母集団

分析の対象とする、知りたいと思っている集団全体。

例えば、日本人の意識調査という場合には、日本人全体が母集団である。しかしながら、母集団について完全に調査を行うことが不可能な場合が多い。このような場合として、

日本人全体など母集団が非常に多く、場合によっては無限の要素からなる場合
多くの要素でなくても、破壊強度の検査のように検査をしてしまうと無意味(全部を破壊してしまっては意味がなくなる)な場合や、個々の調査が高価である場合
来年の経済成長率のように、将来の出来事で現時点では測定ができない場合

などが、考えられる。

記述統計学

分析の対象となる集団の属性について完全に知ることができる場合の手法。

統計的推測

母集団全体での調査ができない場合には、以下のような手順で統計的推測を行う。

母集団から一部を選び出す
その一部を分析
母集団全体について推測する

例えば、新聞社の世論調査では、母集団は日本の有権者全体であるが、選挙人名簿から一部を無作為抽出し、調査結果を集計している。

標本

分析のために母集団から選び出された要素。

標本抽出

分析のために母集団から要素を選び出すこと。サンプリングあるいは単に抽出とも呼ぶ。

分析の対象となる集団の属性について完全に知ることができない場合には、全体の性質を反映しているような一部のデータを選び出し、それから推測する必要がある。このような調査を標本抽出による調査と呼ぶ。これに対して、全体を調査することを全数調査と呼ぶ。全数調査の代表例に、国勢調査がある。

母集団の一部でしかない標本から母集団の性質を推測するため、分析結果はその抽出の仕方に依存する。例えば、視聴率の調査であっても、その調査を行う世帯が変われば、結果も変わってきてしまう。標本によるばらつきに対応するために、確率的な扱いが必要であり、そのために標本分布という考え方が必要になる。

6.2 母集団と母集団分布

母集団分布とは、本来知りたい集団全体、母集団の分布である。例えば、日本人全体の身長について知りたい場合は、日本人全体の身長の分布となる。

標本は、この母集団から取り出したものであり、母集団と同じ分布(母集団分布)に従う。例えば、日本人全体の身長の分布が正規分布なら、標本も同じ正規分布に従う。

母集団分布をf(x)とすると、n個の標本X₁, X₂, ..., X_nは、同一の母集団分布f(x)に従うn個の独立な確率変数と見なせる。なお、f(x)は、問題に応じて変わってくる。また、nを標本の大きさ、サンプルサイズと呼ぶ。

6.3 母集団分布の母数

標本の値は母集団分布に従ってばらついている。実際の分析において、母集団分布の取り扱いについて二つの場合がある。

パラメトリック

母集団分布が、理論的、経験的にわかっている場合。

例えば、一日当たりの交通事故による死亡者数は、ポアソン分布に従うことがわかっている。よって、n個の標本X₁, X₂, ..., X_n(n日分の死亡者数)は、それぞれ独立なポアソン分布Po(λ)に従う。つまり、i日目の死亡者数X_iがx人となる確率P(X_i=x)は、

: f(x) = e^-λ λ^x / x ! (x = 0, 1, 2, 3, ...)

と表せる。このf(x)は、定数λさえわかれば計算が可能である。すなわち、λさえわかれば、母集団分布についてすべて知ることができることになる。

このように、事前に母集団分布がある分布として与えられていて、いくつかの定数がわかれば、母集団分布についてすべて知ることができる場合を、パラメトリックな場合と呼ぶ。このような場合には、そもそも分析において求めるべきものは、母集団分布を決定する定数(上の例ではλ)であり、統計的推測ではこれを母数、パラメータと呼ぶ。

上の例の他にも、数多くの現象が理論的、経験的にある特定の確率分布に従うことが知られている。このような場合には、分布を定めているいくつかの母数さえ求めてやれば、母集団分布がわかる。特に、正規分布では、平均と分散の二つの母数により分布が決定される。

ノン・パラメトリック

母集団分布の形が具体的に、事前に知られていない場合。

例えば、世界各国の面積や人口の分布などである。ノン・パラメトリックな場合には、いくつかの母数で母集団分布を決定することができない。

こういった場合には、母集団分布に関わらずに求めることができるパラメータを用いて、分析を行う。例えば、母集団の平均、メディアン、モード、分散、レンジ、歪度、尖度などがある。

6.4 標本の抽出

母集団に属する要素すべてについてデータを得ることができない場合には、標本を抽出して母集団分布の推定を行う。ここで、母集団全体に含まれるデータの数を母集団の大きさN、標本として取り出すデータの数を標本の大きさnとする。

復元抽出: 抽出した要素を再び母集団に戻し、その後も抽出の候補とし、重ねて選ばれることがあるような抽出方法
非復元抽出: 抽出した要素を再び母集団に戻さず、重ねて選ばれることがない抽出方法

通常の実験や調査では、非復元抽出が行われている。Nがnに比べて十分に大きい場合には、いずれの方法でもほとんど差がないため、この講義では非復元抽出のみを取り扱う。

非復元抽出によるn個の標本の選び方は、

: _NC_n = N ! / ( n ! (N-n) ! )

通りある。ここで注意すべきことは、得られる観測値は、この選び方のうちの一つしか得られないことである。

単純ランダム・サンプリング: 母集団の各要素が標本に含まれる確率(抽出率)が等しくn/Nとなるような抽出方法。最も、基本的で重要な方法である。抽出率を一様にするために、コンピュータで発生させた擬似乱数などが用いられる。

6.5 統計量

母平均と母分散

母集団分布f(x)を特定する代表的な母数は、その平均である。これを母平均と呼ぶ。同様に分散を母分散と定義できる。母平均と母分散をμ、σ²と表す。f(x)がすべてわからなくとも、母平均と母分散がわかれば、多くのことを知ることができる。例えば、二つの母集団の値の大きさを比較するような場合には、μを求めて比較すれば良い。

しかし、母集団全体の平均や分散は求めるのが困難な場合が多い。その場合には大きさnの標本X₁, X₂, ..., X_nを抽出し、標本平均、標本分散を計算し推測することになる。

標本平均

標本平均は、大きさnの標本X₁, X₂, ..., X_nの算術平均(X₁+X₂+...+X_n)/nである。(この講義ノートではX_meanと表すが、通常はXの上にバーを書いた記号で表す。)

標本X₁, X₂, ..., X_nは、母集団分布(母平均μ)に従う独立な確率変数であり、標本平均X_meanは、

: X_mean = (X₁ + X₂ + ... + X_n) / n

で与えられる。ここで、X_meanの期待値は、

: E(X_mean) = E((X₁ + X₂ + ... + X_n) / n) = n μ / n = μ

となり、母平均μに一致する。すなわち、大きすぎ、あるいは小さすぎなどの傾向(偏り)がなく、平均的に母平均を正しく推定できることになる。さらに、nが大きくなれば、μに集中する傾向がある。これは、X_meanの分散が、

: V(X_mean) = V((X₁ + X₂ + ... + X_n) / n) = V(X₁ + X₂ + ... + X_n) / n² = n σ² / n² = σ² / n

となり、n→∞のとき0に近付き、X_mean→μのように確率収束するからである。

これらの性質は、標本の大きさnが大きくなればなるほど、μを正しく推定することができることを表している。

標本分散

標本分散は、

: s² = {(X₁ - X_mean)² + (X₂ - X_mean)² + ... + (X_n - X_mean)²} / (n-1)

で定義される。ここで注意すべきは、n-1で割っている点である。この理由は、標本分散s²の期待値が、

: E(s²) = σ²

となり、母分散σ²に一致し、過大、過小にならず、すなわち偏らずに、不偏に推定できるからである。s²を母分散σ²の不偏推定量、あるいは不偏分散と呼ぶ。

n-1ではなく、nで割ったもの

: S² = {(X₁ - X_mean)² + (X₂ - X_mean)² + ... + (X_n - X_mean)²} / n

も標本から計算される分散という意味で標本分散であるが、不偏ではない標本分散である。S²の期待値は

: E(S²) = ((n-1) / n)・σ²

となり、(n-1)/nの分、常に過小に評価することになる。nが大きければ問題ないが、小さい場合には注意が必要である。

また、このn-1を自由度と呼ぶ。自由度は、式の中で自由に動ける変数の数という意味であり、今回の分散の式では、母平均μの代わりにその推定量X_meanを用いており、そのため自由度が1減り、n-1となってしまう。

もともと、X₁, ..., X_nのn個の変数があるので、自由度はnである。しかし、今回の場合には、X₁+...+X_n=n X_meanという制約条件を付けて、標本分散を計算していることになる。例えば、X₁, ..., X_n-1までの値が決まってしまうと、X_n = n X_mean - (X₁+...+X_n-1)として求まってしまい、X_nは変数とは見なせない。すなわち、変数として扱える数がn-1となる。

統計量

標本平均や標本分散のように、抽出した標本から計算され、母集団の母数のいろいろな推測に使われるもの。統計量は、未知のパラメータを含まない。統計量には、標本の平均、分散、標準偏差、メディアン、最大値、最小値、相関係数などがある。例えば、母集団の平均、分散、レンジを考える場合には、それぞれ標本の平均、分散、最大値・最小値が用いられる。

標本分布

標本X₁, X₂, ..., X_nは母集団分布に従って分布し、それから計算される統計量は標本の関数として表すことができる。これを、t(X₁, X₂, ..., X_n)とする。これは確率変数から計算されるもので、これ自身、すなわち統計量t(X₁, X₂, ..., X_n)も確率変数となり、その確率分布は母集団分布から導出できる。

この関係を逆に使うと、統計量の値の出方(分布)から、母集団分布を求めることができる。なお、統計量t(X₁, X₂, ..., X_n)の確率分布をその統計量の標本分布と呼ぶ。(標本の観測値そのものの分布ではないので注意)

例えば、標本平均の分布、標本分散の分布があり、これらは特に重要である。その理由は、母平均、母分散を推定するために用いることができ、仮に母集団分布が正規分布であれば、この二つが求まれば母集団分布を決めることができるからである。

統計量の意義

標本平均、標本不偏分散の期待値は、母平均、母分散に一致する。このため、母平均、母分散を推定するために使用できる。このように、適切な統計量は、母集団の分布を決定するために重要なものである。

また、その統計量そのものの分布である標本分布も重要である。例えば、nが大きくなれば、母集団分布がなんであっても、中心極限定理により、標本平均の標本分布は、平均μ、分散σ²/nの正規分布N(μ,σ²/n)に従う。なお、n→∞の場合に成り立つことを漸近的に成り立つといい、漸近的に正規分布に従うことを漸近正規性と呼ぶ。