数理統計II

担当: 菊地


第3回 多次元データの記述統計

2007.5.10

3.1 多次元データ

多次元データ
一つの対象に対して、単一の変数xではなく、2変数x, y、あるいは3変数x, y, zなどを観測したデータ。データの数がn個の場合は、n組のデータが得られたことになる。

取り扱う変数の数により、p個の場合にはp次元データと呼ぶ。1次元データのp回の繰り返しではない。

相関
2変数間の相互関係。身長と体重の関係など。
回帰
xからy(または、yからx)を見た関係。片方の変数から、もう一方の変数が説明できるような関係。加えた熱量に対する温度上昇の関係など。これらのデータの分析には、回帰分析を行う。
多変量解析
変数がp個ある場合には、2変数ずつの関係はp(p-1)/2組あるが、このような複雑なデータのための解析方法。

3.2 散布図と分割表

散布図
2次元データの両方が、量的データである時に、横軸、縦軸にそれぞれの値をとって、平面上にプロットしたもの。n個のデータなら、n個の点がプロットされる。
相関関係
二つの変数間の関係が、直線関係に近い場合に、「相関関係がある」という。
正の相関関係
片方の変数の値が増加すれば、もう一方の変数の値も増加するような相関関係。
負の相関関係
片方の変数の値が増加すると、もう一方の変数の値は減少するような相関関係。
分割表
2次元データの両方が質的データの場合に、二つの変数のそれぞれの属性に属するデータの個数を表にしたもの。x, yという変数にそれぞれs, t個の属性がある場合には、s×tの表となり、s×t分割表と呼ぶ。例えば、2×2分割表など。クロス表とも呼ぶ。
相関表
量的なデータの場合でも、度数分布と同様に適当な階級にわけることで、分割表ができる。この場合には、特に相関表と呼ばれることがある。

3.3 相関係数

共分散
n個の2次元データ{(x1, y1), (x2, y2), ... , (xn, yn)}が与えられた場合の共分散は、

Σ(xi - xmean)(yi - ymean) / (n-1)

で定義される。

ピアソンの積率相関係数(相関係数)
x, yの間の相関係数は、

相関係数 = 共分散 / (xの標準偏差 * yの標準偏差)

で定義される。つねに、-1以上1以下の値となる。

相関係数が1に近ければ近いほど、正の相関関係が強いことを表し、-1に近ければ、負の相関関係が強いことを表す。また、絶対値が0に近ければ近いほど、相関関係がないことを表す。

1または-1になる場合は、yi = a xi + bの形で表され、散布図のプロットが一直線上に乗る場合である。この時、aが正の場合には1、負の場合には-1になる。このことから、相関係数の絶対値が1に近ければ、直線関係に近いことが分かる。

相関係数の絶対値が0.6以上であれば、強い相関、0.4〜0.6であれば、中程度の相関と表現することが多い。

因果関係
一方の変数が原因となり、もう一方の変数が結果となるような関係。相関関係と違い直線関係といった単純な関係ではないので注意が必要である。

3.4 みかけ上の相関

みかけ上の相関
ある変数間の相関関係が、実際には別のある変数を通した相関関係となっている場合には、みかけ上の相関が高くなる。例えば、飲食店数と金融機関店舗数の関係を考える。この2変数には相関関係がある。しかし、直接、関係があるわけではなく、実際には昼間人口の数が多いほど、双方の数字が大きくなっていることが推測される。このように、実際には関係がないかもしれないが、みかけ上の相関関係があるように見える場合がある。
偏相関係数
変数1から変数3までの三つの変数がある場合に、変数3の影響を取り除いたあとの変数1と変数2の相関係数のことで、一般にr12・3と書く。r12・3は、
で計算できる。なお、r13=0, r23=0であれば、r12・3=r12となる。

飲食店数と金融機関店舗数について、そのまま相関係数を計算すると0.892となる。昼間人口と飲食店数の相関係数が0.835、昼間人口と金融機関店舗数の相関係数が0.815だった場合には、昼間人口の影響を取り除いた偏相関係数は0.663となり、みかけ上の相関ほどは、関係が強くないことがわかる。


3.5 層別

もともとのデータが性格の異なるいくつかの部分集団を含んでいる場合には、相関関係を見る際に、注意が必要である。全体では相関がない場合でも、各グループに分けて、それぞれで見ると、相関関係が表れる場合がある。このように、グループに分けることを層別と呼ぶ。

3.6 順位相関係数

同じ集団に対して、異なった二つの基準で順位がつけられているようなデータに対して用いることのできる相関係数。二つの順位のつけ方に相関関係があるのかどうかを表す。スピアマンの順位相関係数ケンドールの相関係数などがある。

例えば、ある受験者集団に対しての面接試験を二人の面接官で行った場合を考える。この場合には、受験者集団に二人で独立に順位をつけることになる。この時の順位のつけ方に相関があるかどうかがわかる。