KATUBLO
2019年02月20日

【確率統計】共分散・相関係数の関係を式を交え解説

ゴール

共分散・相関係数の意味を式を交え理解する。

 

2変数における期待値

2変数における期待値(Expected value)は以下のように定義される。

 

$$
E [ \phi ( x ) ] = \left\{ \begin{array} { c c } { \sum _ { i = 1 } ^ { n } \phi \left( x _ { i } \right) f \left( x _ { i } \right) = \phi \left( x _ { 1 } \right) f \left( x _ { 1 } \right) + \phi \left( x _ { 2 } \right) f \left( x _ { 2 } \right) + \cdots + \phi \left( x _ { n } \right) f \left( x _ { n } \right) } \\ { \int _ { – \infty } ^ {\infty } \phi ( x ) f ( x ) d x } \end{array} \right.
$$

 

1行目が離散的な場合で、2行目が連続的な場合である。X、Yという確率変数が存在し、X、Yの組み合わせに対応するφという関数の期待値を求めている。

 

 

[math]\phi ( X, Y ) = X [/math] としたときの期待値は以下のようになる。

 

$$
E [ X ] = \left\{ \begin{array} { c c } { \sum _ { i = 1 } ^ { m } \sum _ { j = 1 } ^ { n } x _ { i } f \left( x _ { i } , y _ { j } \right) = \sum _ { i = 1 } ^ { m } \sum _ { j = 1 } ^ { n } x _ { i } p _ { i j } } \\ { \int _ { – \infty } ^ { \infty } d x \int _ { – \infty } ^ { \infty } d y f ( x , y ) } \end{array} \right.
$$

 

上の式はYとは無関係なXの平均を表している。Xの平均というのはXは確率変数として扱われているので、「Xの平均 = Xの期待値」は同じ意味。このXの平均は以下のように今後表記する。

$$
\mu _ { x } = E [ X ]
$$

 

またXの分散も以下のように定義される。

 

$$
6 _ { x } ^ { 2 } = E  \left( X – \mu _ { x } \right) ^ { 2 } ]
$$

 

Yも同様に定義可能。

$$
\mu _ { y} = E [ Y ]
$$

 

$$
6 _ { y } ^ { 2 } = E  \left( Y – \mu _ { y } \right) ^ { 2 } ]
$$

 

 

共分散・相関係数

2次元分布は「共分散(covarianvce)」という2変数間の関係を示す指標が存在する。

 

$$
6_{ x y} = E [ ( X – \mu_x ) ( Y – \mu_y ) ]
$$

 

$$
= \left\{ \begin{array} { c } { \sum _ { i = 1 } ^ { n } \sum _ { j = 1 } ^ { n } \left( x _ { i } – \mu _ { x } \right) \left( y _ { j } – \mu _ { y } \right) f \left( x _ { i } , y _ { j } \right) } \\ { \int _ { – \infty } ^ { \infty } d x \int _ { – \infty } ^ { \infty } d y \left( x – \mu _ { x } \right) \left( y – \mu _ { y } \right) f ( x , y ) } \end{array} \right.
$$

 

 

共分散が定義されると、「相関係数(Correlation coefficient)」と呼ばれる共分散を正規化した指標も定義できる。

 

$$
\rho_ { x y } = \frac { \sigma_ {x y} } { \sigma _{x} \sigma_{y} }
$$

 

ここで相関係数の性質について見てみる。

 

$$
E \left[ \left\{ \lambda \left( x – \mu _ { x } \right) + \left( y – \mu _ { y } \right) \right\} ^ { 2 } \right]
$$

 

$$
= E [ \lambda ^ { 2 } ( x – \mu_x ) ^ { 2 } ] + E [ 2 \lambda ( X – \mu _ { x } ) ( Y – \mu _ { y } ) ]+ E[( Y – \mu _ { \gamma }) ^ { 2 }]
$$

 

$$
= \lambda ^ { 2 } \sigma x ^ { 2 } + 2 \lambda \sigma_{x y} +{ \sigma y} ^ { 2 } \geq 0
$$

 

上の式は以下の形に変形できる。

 

$$
= {\sigma_ x} ^ { 2 } \left( \lambda + \frac { \sigma_{ x y} } { {\sigma_{ x} }^ { 2 } } \right) ^ { 2 } – \frac { 1 }{ { \sigma_{ x}} ^ { 2 } } \left( {\sigma_ x }^ { 2 } – {\sigma_ x} ^ { 2 } {\sigma_y} ^ { 2 } \right) \geq 0
$$

 

ここで全てのλにおいて上の式が成り立つためには以下の関係である必要がある。

 

$$
\sigma _ { x y } ^ { 2 } -{\sigma_x}^ { 2 }  \sigma _ { y } ^ { 2 } \leqq 0
$$

 

$$
\sigma _ { x y } ^ { 2 } \leqq \sigma _ { x } ^ { 2 } \sigma _ { y } ^ { 2 }
$$

 

$$
{\rho _ { x y }} ^ { 2 } = \frac { {\sigma_xy} ^ { 2 }  } {{ \sigma_x} ^ { 2 } {\sigma_y }^ { 2 }  } \leqq 1
$$

 

$$
– 1 \leqq {\rho _ { xy} }^ { 2 } \leqq 1
$$

 

相関係数は-1~1の間に収束することがわかる。この式が成り立つ時、X、Yは独立であるという。数学的な意味であるが「相関係数が1のときは[math]y = x [/math]の形の直線」「相関係数が-1の時は[math] y=-x[/math]の形の直線」を描く。

 

 

確率における独立

確率において、独立という用語がでてくるが、ここで簡単に整理しよう。独立というのは

 

「独立(どくりつ、英: independent)とは、確率論において、2つの事象が成立する確率がそれぞれの確率の積で表されることを言う。」

出典: フリー百科事典『ウィキペディア(Wikipedia)

 

数式で書くとこんな感じ。

 

$$
P ( X \cap Y ) = P ( X ) P ( Y )
$$

 

連続値の場合の相関係数

確率変数X、Yが独立であるとき、以下の式が成り立つ。

 

$$
f ( x , y ) = f _ { 1 } ( x ) f _ { 2 } ( x )
$$

 

連続値の場合の相関係数は積分で以下のように表記される。

 

$$
\sigma _ { x y } = \int _ { – \infty } ^ { \infty } d x ( x – \mu_x ) f _ { 1 } ( x ) \int _ { – \infty } ^ { \infty } d y \left( y – \mu _ { y } \right) f _ { 2 } ( y )
$$

 

ここで左部分に着目すると

 

$$
\int _ { – \infty } ^ { \infty } d x \left( x – \mu _ { x } \right) f _ { 1 } ( x )
$$

 

$$
= \int _ { – \infty } ^ { \infty } x d \left( x – \mu _ { 2 } \right) f _ { 1 } ( x ) – \mu _ { x } \int _ { – \infty } ^ { \infty } d x f _ { i } ( x )
$$

 

$$
= \mu _ { x } – \mu _ { x } = 0
$$

 

すなわち、連続値かつ、確率変数X、Yが独立である時、相関係数は0になる。別名「相関がない」ともいう。

 

参考サイト

最後まで読んで頂き
ありがとうございました。
SNS等でのシェアが頂ければ幸いです。

プロフィール

@KATUO

現在都内私立大学に通う大学3年生。大学では電気電子工学を専攻。大学2年の夏頃に、プログラマーの長期インターン募集の広告が目に止まり、独学でプログラミングの学習をスタート。この時期からプログラミングにどハマりし、現在までに「AIスタートアップ」「Webマーケティング会社」でエンジニアとしての業務に没頭してきた。

過去の投稿