チャポケのブログ

勉強したことをまとめておく。

統計 二項分布から正規分布へ

グラフで見る

二項分布B(n,p)試行回数nを大きくすると、正規分布に近づく」ことを、グラフ上で見てみる。

最初に、確率p=0.6を固定して、試行回数n=10n=20の場合の二項分布B(n,p)のグラフを表示する。

f:id:chapoke7:20200801160007p:plain

試行回数nが大きくなるにつれて、グラフの山の頂点は右にシフトしつつ、高さは小さくなっていく。

  • 試行回数 n=10
    平均値 \mu(k) = np = 10 * 0.6 = 6
    分散 {\sigma}^2(k) = np(1-p) = 10 * 0.6 * (1.0-0.6) = 2.4
  • 試行回数 n=20
    平均値 \mu(k) = np = 20 * 0.6 = 12
    分散 {\sigma}^2(k) = np(1-p) = 20 * 0.6 * (1.0-0.6) = 4.8

次に、2つのグラフを比較しやすくするために、
横軸をk/n、縦軸をP(X=k)/max(P(X=k))としてスケール調整する。

f:id:chapoke7:20200801162953p:plain

これで、グラフの山の頂点が一致した。グラフのずれは、分散が異なるためである。


更に、平均値が0、分散が1になるように、
横軸を ((k/n) - p) / {\sigma} (k/n) とする。

f:id:chapoke7:20200801171718p:plain

これで、2つのグラフがほぼ重なることが確認できる。
試行回数nが増えるにつれて、釣り鐘型の正規分布に近づくことがわかると思う。

数式で見る。

二項分布B(n,p)試行回数nを大きくすると、正規分布に近づく」ことを、数式上で見てみる。

確率変数X二項分布B(n,p)に従うとすると、
X = kとなる確率P(X=k)、期待値E(X)、分散V(X)は、


\begin{aligned}
  P(X=k) &= {}_n C_k p^k (1-p)^{n-k} \\
 &= \frac{n!}{k!(n-k)!} p^k (1-p)^{n-k} \cdots ① \\
  \mu = E(X) &= np \cdots ② \\
  {\sigma}^2 = V(X) &= np(1-p)  \cdots ③
\end{aligned}

式①の\logを取って、kで1回微分、2回微分すると、
試行回数nが非常に大きい場合、kも同様に大きい場合を考えればよいとして次のようになる。


\begin{aligned}
  \log P(k) &= \log n! - \log k! - \log (n-k)! + k \log p + (n-k) \log (1-p) \\
  &\downarrow ここで、下記の④を用いる。 \\
  \frac{d \log P(k)}{dk} &= 0 - \log k  + \log (n-k) + \log p - \log (1-p) = \log \frac{(n-k)p}{k(1-p)} \\
  \frac{d^2 \log P(k)}{dk^2} &= - \frac{1}{k} - \frac{1}{n-k} = - \frac{n}{k(n-k)}
\end{aligned}

k \gg 0ならば、

\begin{aligned}
  \frac{d \log k!}{dk} &\approx  \frac{\log k! -\log (k-\Delta k)! }{\Delta k} \\
 &\downarrow \Delta k = 1 \\
 &= \frac{\log k! -\log (k-1)! }{1} \\
 &= \log \frac{k!}{(k-1)!} = \log k \\
 \therefore \frac{d \log k!}{dk} &\approx \log k \cdots ④
\end{aligned}

ここで、1回微分、2回微分k=\muの値を見てみると、(※ここでは式②③を用いている。)


\begin{aligned}
  \left[ \frac{d \log P(k)}{dk} \right]_{(k=\mu)} &= \log \frac{(n-\mu)p}{\mu(1-p)} \\
  &= \log \frac{(n-np)p}{np(1-p)} = \log 1 = 0  \\
  \left[ \frac{d^2 \log P(k)}{dk^2} \right]_{(k=\mu)} &= - \frac{n}{\mu(n-\mu)} \\
  &= - \frac{n}{np(n-np)} = - \frac{1}{np(1-p)} = - \frac{1}{\sigma ^2} \\
\end{aligned}

上式で1回微分k=\mu0 になっていることから、
P(k)は、k=\muで極大、つまり最大となることがわかる。

\log P(k)k=\muのまわりでテイラー展開して、3次以上の微小量を無視すると、


\begin{aligned}
  \log P(k) &\approx \log P(\mu) + \frac{1}{1!} \left[ \frac{d \log P(k)}{dk} \right]_{(k=\mu)} \cdot (k-\mu) + \frac{1}{2!} \left[ \frac{d^2 \log P(k)}{dk^2} \right]_{(k=\mu)} \cdot (k-\mu)^2 \\
  &= \log P(\mu) + 0 \cdot (k-\mu) + \frac{1}{2} \left( - \frac{1}{\sigma ^2} \right) (k-\mu)^2 \\
  &= \log P(\mu) - \frac{(k-\mu)^2}{2 \sigma ^2}  \\
  &= \log P(\mu) + \log \exp \left\{ - \frac{(k-\mu)^2}{2 \sigma ^2} \right\}  \\
  &= \log \left( P(\mu) \exp \left\{ - \frac{(k-\mu)^2}{2 \sigma ^2} \right\} \right)  \\
  P(k) &\approx P(\mu) \exp \left\{ - \frac{(k-\mu)^2}{2 \sigma ^2} \right\}
\end{aligned}

これは、次式の正規分布N(\mu,{\sigma}^2)確率密度関数f(x)と同じ形をしているので、
試行回数nが十分大きくなると、正規分布に近づくことがわかると思う。


\begin{aligned}
  f(x) &= \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left\{- \frac{(x - \mu)^2}{2 \sigma^2} \right\}
\end{aligned}