KATUBLO
2019年02月19日

【確率統計】周辺確率分布についてまとめた

ゴール

周辺確率分布について理解する

 

周辺確率分布とは?

2次元確率分布に置いて、Yの値に関わらず、Xの値がどのような分布を知るために、それぞれのXに対応するYの値を足し合わせた1変数に着目した確率分布のことを指す。

 

離散分布の場合

確率密度関数は以下のように定義される。

 

$$
f _ { 1 } ( x ) = \left\{ \begin{array} { c } { \sum _ { j = 1 } ^ { n } p _ { i j } = p _ { i1 } + p _ { i 2 } + \cdots + p _ { i n } } \\ { 0 } \end{array} \right.
$$

 

この確率密度関数は別名「周辺確率密度 (Marginal probability density)」とも呼ばれる。

xにおけるyの値を足し合わせるというのを具体例で考えると、x = 0.5だとして、x=0.5に対応するyを全て足し合わせるということを意味する。「Yの値に関わらず、Xの値がどのような分布を知る」という目的を考えると少し頭が混乱してしまうかもしれないが、これはあるX値における確率密度をYの値を全て足し合わせたもので再定義することで、Xの分布を知ることができるということだ。

 

また分布関数は以下のように定義される。

 

$$
F _ { 1 } ( x ) = p ( x \leqq x ) = \sum _ { x _ { i } \leq x } f _ { 1 } \left( x _ { i } \right)
$$

 

この分布関数は「周辺分布関数 (Marginal distribution function)」とも呼ばれる。

 

 

連続分布の場合

連続値の場合、X値に置けるYの値を足合わせるということは確率密度をyで実数全区間で積分することで表現できる。

 

確率分布関数は以下のように定義できる。

$$
f _ { 1 } ( x ) = \int _ { – \infty } ^ { \infty } f ( x , y ) d y
$$

 

また分布関数は以下のように定義できる。

$$
F _ { 1 } ( x ) = \int _ { – \infty } ^ { \infty } f _ { 1 } \left( x ^ { \prime } \right) d x ^ { \prime }
$$

 

 

具体例で考えてみる

成人男性の身長と体重の分布が存在し、体重(X)によらない身長(Y)の分布を求めたい時、各体重に置ける身長を足し合わせてせることで、身長に関する分布を求めることができるということだ。

 

参考サイト

最後まで読んで頂き、ありがとうございました。
SNS等でのシェアが頂ければ幸いです!

プロフィール

@KATUO

現在都内私立大学に通う大学4年生。大学では電気電子工学を専攻。大学2年の夏頃に、プログラマーの長期インターン募集の広告が目に止まり、独学でプログラミングの学習をスタート。この時期からプログラミングにどハマりし、現在までに「AIスタートアップ」「Webマーケティング会社」でエンジニアとしての業務に没頭してきた。

大学生必見就活イベント