KATUBLO
2019年02月23日

【確率統計】理系大学生が二項分布の性質に関して解説してみた

ゴール

二項分布の定義・性質を理解する

 

二項分布とは?

簡単にまとめると

「2つの種類A、Bで成り立つ集合において、Aの絞める割合がpであるとき、この集団からランダムに1個取り出すという試行をn回行なって、種類Aのものをx個とる確率」

である。これを二項分布(binomial distribution)、ベルヌーイ分布(bernoulli distribution)と言う。

 

式で表現する。ある事象Aの起こる確率を以下のように定義すると

$$
P ( A ) = p
$$

 

n回独立試行を行なって、Aがx回起こる確率は以下の式である。

 

$$
f ( x ) = {_ { n } \mathrm { C } _ { x }} p ^ { x } ( 1 – p ) ^ { n – x }
$$

 

また一般的に、試行回数nと事象Aの起こる確率Pによって分布が決定するため、以下のようにして二項分布を表記する。

 

$$
\operatorname { Bin } ( n , p )
$$

 

二項分布の性質(期待値)

先ほど定義した二項分布の式の一部を[math]q = 1 – p [/math]で置き換えると

 

$$
f ( x ) = _{n} C_{ x} p ^ { x } q ^ { n – x }
$$

上の式の形は二項定理である。二項定理の性質を使ってこれらを足し合わせると

$$
\sum _ { x = 0 } ^ { n } f ( x ) = f ( 0 ) + f ( 1 ) + \cdots + f ( n )
$$

$$
= {_ { n } \mathrm { C } _ { 0 }} p ^ { 0 } q ^ { n } +{_ { n } \mathrm { C } _ { 1 }} p ^ { 1 } q ^ { n – 1 } + \cdots + {_ { n } \mathrm { C } _ { n }} p ^ { n } q ^ { 0 }
$$

さらに性質上、これらの合計は1になる。

$$
\sum _ { x = 0 } ^ { n } f ( x ) = ( p + q ) ^ { n } =1
$$

$$
\sum _ { x = 0 } ^ { n } {_ { n } \mathrm { C } _ { x }} p ^ { x } q ^ { n – 1 } = ( p + q ) ^ { n }
$$

ここで両辺をpで微分すると

$$
\sum _ { 1 = 0 } ^ { n } x {_ { n } \mathrm { C } _ { x }} p ^ { x – 1 } q ^ { n – x } = n ( p + q ) ^ { n – 1 }
$$

$$
\sum _ { x = 0 } ^ { n } x {_ { n } \mathrm { C } _ { x }}  p ^ { x – 1 } q ^ { n – x } = n p ( p + q ) ^ { n – 1 }
$$

$$
= n p ( p + q ) ^ { n – 1 }
$$

[math]p + q = 1 [/math]であるため

$$
= n p
$$

[math]f ( x ) = _{n} C_{ x} p ^ { x } q ^ { n – x } [/math]であるため、上の式は二項分布の平均(期待値)を表しているのに等しい。

$$
\sum _ { x = 0 } ^ { n } x f ( x ) = n p
$$

$$
\mu = n p
$$

 

よって二項分布の平均(期待値)は試行回数と事象Aの起こる確率の積で求められる。

 

二項分布の性質(分散)

さらに式を変形していく。

 

$$
\sum _ { x = 0 } ^ { n } x _ { n } \mathrm { C } _ { x } p ^ { x – 1 } q ^ { n – x } = n ( p + q ) ^ { n – 1 }
$$

$$\sum _ { x = 0 } ^ { n } x(x-1)  _ { n } \mathrm { C } _ { x } p ^ { x – 2 } q ^ { n – x } = n ( n – 1 ) ( p + q ) ^ { n – 2 }$$

ここで両辺に[math] p^2[/math]を掛けると

$$
\sum _ { n = 0 } ^ { n } x ( x – 1 ) _ { n } \mathrm { C } _ { x } p ^ { x  } q ^ { n – x }
$$

 

$$= \sum _ { x = 0 } ^ { n } x ^ { 2 } _ { n } \mathrm { C } _ { x } p ^ { x  } q ^ { n – x } – \sum _ { x = 0 } ^ { n } x  _ { n } \mathrm { C } _ { x } p ^ { x  } q ^ { n – x }$$

$$
= p ^ { 2 } n ( n – 1 )
$$

 

となる。ここで先ほど求めた分散の式を用いると

$$
\sum _ { i = 0 } ^ { n } x ^ { 2 } \mathrm { C } _ { x } p ^ { x  } q ^ { n – x } = p ^ { 2 } n ( n – 1 ) + n p
$$

また一般的に分散の式は以下のように定義される。

$$
\sigma ^ { 2 } = E \left[ X ^ { 2 } \right] – \mu ^ { 2 }
$$

よって二項分布の分散は

$$
\sigma ^ { 2 } = \sum _ { x = 0 } ^ { n } ( x – \mu ) ^ { 2 } f ( x )
$$

$$
= \sum _ { x = 0 } ^ { n } x ^ { 2 } f ( x ) – \mu ^ { 2 }
$$

$$
= \sum _ { x = 0 } ^ { n } x ^ { 2 }_ { n } \mathrm { C } _ { x } p ^ { x  } q ^ { n – x }  – \mu ^ { 2 }
$$

$$
= p ^ { 2 } n ( n – 1 ) + n p – ( n p ) ^ { 2 }
$$

$$
= n p ^ { 2 } + n p
$$

$$
= n p ( p – 1 )
$$

 

式で見ると二項分布の分散は試行回数nと事象Aが起こる確率pを使って簡単に求められることがわかった。

最後まで読んで頂き
ありがとうございました。
SNS等でのシェアが頂ければ幸いです。

プロフィール

@KATUO

現在都内私立大学に通う大学3年生。大学では電気電子工学を専攻。大学2年の夏頃に、プログラマーの長期インターン募集の広告が目に止まり、独学でプログラミングの学習をスタート。この時期からプログラミングにどハマりし、現在までに「AIスタートアップ」「Webマーケティング会社」でエンジニアとしての業務に没頭してきた。

過去の投稿