担当: 菊地
n回の試行のうち、Sがx回、Fがn-x回生じた時、その確率は、
となる。この確率分布を二項分布と呼び、Bi(n,p)で表す。特に、試行回数n=1の場合であるBi(1,p)をベルヌーイ分布という。確率変数Xが二項分布Bi(n,p)に従う時、期待値、分散は、
となる。これは、成功の確率がpで、n回試行した場合に、平均的にn p回成功することを表し、直感的にわかりやすい。分散の方は、p=1/2の時に最大となるが、これは成功と失敗が半々の確率で起こる時に、どちらが起こるのかが最も予想しづらいということを表している。
期待値、分散の証明はいくつかあるが、以下のものが簡単である。まず、Bi(1,p)の場合の期待値、分散を計算すると、定義から、
である。Bi(n,p)は、独立なBi(1,p)のn個の和であるから、
となる。(分散の証明には、後に説明がある独立な確率変数の分散の加法性を用いている。)
このような場合には、ポアソンの少数の法則が利用できる。np→λという条件を保ちながら、n→∞、p→0となる極限では、
が成り立つ。
すなわち、2種類の可能な結果を表す確率変数Xにおいて、nが極端に大きく、pが極端に小さい場合には、このポアソンの少数の法則を利用して確率を定義したポアソン分布に従うといえる。ポアソン分布Po(λ)は、
であり、
である。このようにポアソン分布では、期待値と分散が等しくなることが特徴である。これは、二項分布Bi(n,p)の期待値np、分散np(1-p)に対し、np≒λ、(1-p)≒1とした結果と一致している。
ポアソン分布は、交通事故件数や大量生産の不良品数、遺伝子の突然変異数など、リスクや安全性に関する現象に適用されることが多い。
である。ただし、x=1, 2, ..., Nである。このような分布を離散一様分布と呼ぶ。その期待値、分散は、
となる。
で定義され、ガウス分布とも呼ばれる。平均μ、分散σ2に従う正規分布を、N(μ,σ2)で表す。
測定誤差は、正規分布に従うとされるので、測定を行う場合には正規分布が関係してくる。また、生物測定の分野ではあてはまる場合が多い。
正規分布の特徴は以下のようなものである。
このことから、いかなる正規分布の確率計算も、標準正規分布を用いたものに帰着できる。
標準正規分布の累積分布関数は、正規分布表として多くの教科書にのっているが、主な区間の確率がよく知られている。
なお、-3<=Z<=3は、もとのXでいえば-3σ<=X<=3σに相当し、常識的に考えるとすべての観測値がこの範囲に入る。このことから、「事実上のすべて」という意味で3シグマ範囲と呼ばれることがある。
入試などで用いられる偏差値は、得点を平均が50、標準偏差が10(分散が100)になるように標準化したものである。得点分布が正規分布に従うとすると、偏差値が40〜60の範囲(平均±1×標準偏差)に2/3の受験者が入り、30〜70の範囲(平均±2×標準偏差)に95%の受験者が入ることになる。
また、同一の確率分布f(x)を持つn個の独立な確率変数の和X1+X2+...+Xnは、nが大きくなると、もとの分布が何であろうと正規分布に近付く。データから計算された算術平均(標本平均)は、同一の確率変数の和をnで割ったものなので、正規分布をすると見なせる。これは中心極限定理によって示されている。
そして、正規分布には、再生性という有用な性質がある。独立な確率変数X, Yが正規分布N(μX, σX2), N(μY, σY2)に従うとき、aX + bYは正規分布N(a μX + b μY, a2 σX2 + b2 σY2)に従う。
となる。すなわち、一般的に、V(X+Y) ≠ V(X) + V(Y)である。これは、XとYが互いに関連しながらばらつく要素である共分散が存在するためである。この共分散をCov(X,Y)と書き、
と定義する。共分散は、正の相関があれば正、負の相関があれば負となる。また、2つの確率変数X, Yの相関係数ρXYは、
として定義される。ρ=0の場合、XとYは関連しないことを表し、無相関であるという。なお、XとYが独立であれば無相関であるが、無相関であっても独立とはいえない。独立な場合には、以下の性質が成り立つ。
なお、この加法性については、無相関の条件で十分である。また、期待値に対しては、加法性E(X+Y)=E(X)+E(Y)が常に成り立つ。
n個の確率変数X1, X2, ..., Xnに対しても、独立の時には、
が成り立つ。
となる。
とおくと、
となる。すなわち、相加平均Xmeanの期待値は、常にμに一致するが、分散は、nに反比例し、nが大きくなるにつれ小さくなり、0に収束する。これを定理にしたものが大数の法則である。