統計に関する計算テクニックなど

統計検定勉強中に出会った計算テクニックを雑多にまとめます。色々と他の記事と重複する部分もありますが、ひとまず統計検定向けのテクニック集としての意味合いを込めた記事としています。

中央値（median）

データの中央に位置する値で

\int_{-\infty}^{x_m} f(x) dx = 0.5

を解くことで、中央値 $x_m$ を求めることができます。

最頻値とは確率密度が最大となる点（最も出現確率が高いデータ点）であり、通常の関数の最大値問題と同様に

f^\prime (x) = 0

を解くことで、最頻値 $x$ を求めることができます。

正規分布 $N(\mu, \sigma^2)$ に従う確率変数 $X$ に対して、

\frac{X-\mu}{\sigma} \sim N(0, 1)

の変換をするのが標準化・正規化と呼ばれる変換方法です。変数変換を行い

Z = \frac{X-\mu}{\sigma} \Leftrightarrow X = \sigma Z + \mu, ~~ |J| = \frac{dx}{dz} = \sigma

を用いることで、標準正規分布に従うことが導けます。また、標本分布を考える文脈で

\frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim N(0, 1)

$\bar{X}$ についての標準化もよく用いられます。

サンプル数が大きい場合には、標本平均が母平均に確率収束するというのが大数の弱法則です。

\lim_{n\to \infty} P(|\bar{X} - \mu| \geq k) = 0

\therefore~\bar{X} = \mu

標本平均を考えておけばまずまずの推定値になっているということです。

まず標本平均について、

E[\bar{X}] = \mu, ~~ V[\bar{X}] = E[(\bar{X}-\mu)^2] = \frac{\sigma^2}{n}

これらの関係式は大数の法則とは関係なく成り立ちます。ここで分散を計算するときの積分範囲を

(\bar{X} - \mu)^2 \geq k^2

(\bar{X} - \mu)^2 < k^2

と分割すると、

\begin{aligned} E[(\bar{X}-\mu)^2] &= \int_A (\bar{X}-\mu)^2 f(x)dx + \int_B (\bar{X}-\mu)^2 f(x)dx \\\\ &\geq \int_A (\bar{X}-\mu)^2 f(x)dx \\\\ &\geq k^2 \int_A f(x)dx \\\\ &= k^2 P((\bar{X}-\mu)^2 \geq k^2) = k^2 P( |\bar{X}-\mu| \geq k) \\\\ \frac{\sigma^2}{nk^2} &= P( |\bar{X}-\mu| \geq k) \\\\ \end{aligned}

となり、 $n\to \infty$ の場合に（サンプル数が十分に大きい場合に）

\lim_{n\to \infty} P(|\bar{X} - \mu| \geq k) = 0

となることが示せました。証明のキモは積分範囲の分割の部分です^[1]。

サンプル数が大きい場合には、標本平均の分布は母集団の分布に関わらず正規分布に近づくというのが中心極限定理です。

\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)

正規分布に従う確率変数 $X \sim N(\mu, \sigma^2)$ について、標本平均は

\bar{X} \sim N(\mu, \frac{\sigma^2}{n})

の正規分布に従う。

脚注

一般の教科書ではここで、大数の法則の証明でしか使わないような定義関数 $I$ を持ち出して証明をしています。あまり汎用性はないので愚直に積分計算（or シグマ計算）を考えたほうが覚えれると思います。 ↩︎