チャポケのブログ

勉強したことをまとめておく。

統計 平均・分散・標準偏差など

代表値

平均(算術平均、相加平均)

算術平均\overline{x}は、n個のデータの総和を、nで割ったもの。


\displaystyle{
\overline{x} =\frac{1}{n}\sum_{i=1}^{n}x_i= \frac{1}{n}\left(x_1+x_2+\cdots+x_n\right)
}

幾何平均(相乗平均)

幾何平均\overline{x}_Gは、n個のデータの総乗(総積)を、n乗根したもの。


\displaystyle{
\overline{x}_G =\left(\prod_{i=1}^{n}x_i\right)^{1/n}= \left(x_1\times x_2\times\cdots\times x_n\right)^{1/n}
}

調和平均

調和平均\overline{x}_Hの逆数は、逆数の算術平均を取ったもの。


\begin{aligned}
\frac{1}{\overline{x}_H} &=\frac{1}{n}\sum_{i=1}^{n}\frac{1}{x_i}= \frac{1}{n}\left(\frac{1}{x_1}+\frac{1}{x_2}+\cdots+\frac{1}{x_n}\right) \\
\\
\overline{x}_H&=\frac{n}{\sum_{i=1}^{n}\frac{1}{x_i}}=\frac{n}{\frac{1}{x_1}+\frac{1}{x_2}+\cdots+\frac{1}{x_n}}
\end{aligned}

中央値(メジアン

中央値は、n個のデータを小さい順に並べたときの真ん中に来る値のこと。

最頻値(モード)

最頻値は、最もデータ数の多い値のこと。

ばらつき量

分散

分散Vは、「各データと平均値の差」を2乗したものの平均のこと。


\begin{aligned}
V=\frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^{2}
\end{aligned}

分散Vは、別の求め方として、次のように「二乗の平均」から「平均の二乗」を引く方法がある。


\begin{aligned}
V=\frac{1}{n}\sum_{i=1}^{n}x_i^2 - \left(\frac{1}{n}\sum_{i=1}^{n}x_i\right)^{2}
\end{aligned}

これの証明は次の通り。

\begin{aligned}
V&=\frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^{2} \\
  &=\frac{1}{n}\sum_{i=1}^{n}(x_i^2-2\overline{x}x_i+\overline{x}^2)  \\
  &=\frac{1}{n}\sum_{i=1}^{n}(x_i^2)-2\overline{x}\frac{1}{n}\sum_{i=1}^{n}(x_i)+\overline{x}^2  \\
  &=\frac{1}{n}\sum_{i=1}^{n}(x_i^2)-2\overline{x}^2+\overline{x}^2  \\
  &=\frac{1}{n}\sum_{i=1}^{n}(x_i^2)-\overline{x}^2
\end{aligned}

標準偏差

標準偏差\sigmaは、分散の平方根をとったもの。


\displaystyle{
\sigma=\sqrt{V}=\sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^{2}}
}

変動係数

変動係数CVは、標準偏差を平均値で割ったもの。


\displaystyle{
CV=\frac{\sigma}{\overline{x}}
}

その他

歪度(わいど)

歪度は、正規分布から左右にどれだけ歪んでいるかを示す量で、
ヒストグラムが左右対称の場合は、歪度が0になり、
歪度が正の場合は、ヒストグラムが左(負)の方向に偏った分布になり、
歪度が負の場合は、ヒストグラムが右(正)の方向に偏った分布になる。


\displaystyle{
歪度=\frac{n}{(n-1)(n-2)}\sum_{i=1}^{n}\left(\frac{x_i-\overline{x}}{\sigma}\right)^3
}

尖度(せんど)

尖度は、正規分布からどれだけ尖っているかを示す量で、
正規分布を取る場合は、尖度が0になり、
尖度が正の場合は、ヒストグラムが平均値近傍に集中して高く尖った分布になり、
尖度が負の場合は、ヒストグラムが平均値近傍が低くして左右の裾野が長い分布になる。


\displaystyle{
尖度=\frac{n(n+1)}{(n-1)(n-2)(n-3)}\sum_{i=1}^{n}\left(\frac{x_i-\overline{x}}{\sigma}\right)^4 - \frac{3(n-1)^2}{(n-2)(n-3)}
}