20.3 分散の性質

分散は期待値からの偏差の二乗の平均である。このため分散は平均二乗偏差 (mean square deviation) とも呼ばれる。そして標準偏差は分散の平方根であり、標準偏差は平方根平均二乗偏差 (root mean square deviation) とも呼ばれる。

どうしてわざわざ二乗して平方根を取るのだろうか？期待値からの偏差そのもの、つまり \(|R - \operatorname{Ex} [R]|\) の平均を考えないのはどうしてだろうか？答えは「分散と標準偏差は有用な性質を持ち、確率論では "平均絶対値偏差" よりずっと重要だから」である。本節ではそういった性質をいくつか見る。次節では本節で見る性質が重要な理由を説明する。

20.3.1 分散の公式

期待値の線形性を分散の定義式に適用すると、分散の扱いやすい別表現が得られる。

補題 20.3.1

任意の確率変数 \(R\) に対して次の等式が成り立つ:

\[ \operatorname{Var} [R] = \operatorname{Ex} [R^{2}] - \operatorname{Ex}^{2} [R] \]

ここで \(\operatorname{Ex}^{2} [R]\) は \((\operatorname{Ex} [R])^{2}\) を意味する。

証明 \(\mu = \operatorname{Ex} [R]\) とする。\(\operatorname{Var} [R]\) は次のように変形できる:

\[ \begin{align*} \operatorname{Var} [R] &= \operatorname{Ex} [(R - \operatorname{Ex} [R])^{2}] && (\because\ \text{\text{定義 }\href{/mcs/probability/deviation_from_mean/chebyshevs_theorem/#def-20-2-2}{20.2.2}}) \\ &= \operatorname{Ex} [(R - \mu)^{2}] && (\because \ \text{\(\mu\) の定義}) \\ &= \operatorname{Ex} [R^{2} - 2\mu R + \mu^{2}] && \\ &= \operatorname{Ex} [R^{2}] - 2\mu \operatorname{Ex} [R] + \mu^{2} && (\because\ \text{期待値の線形性}) \\ &= \operatorname{Ex} [R^{2}] - 2\mu^{2} + \mu^{2} && (\because \ \text{\(\mu\) の定義}) \\ &= \operatorname{Ex} [R^{2}] - \mu^{2} && \\ &= \operatorname{Ex} [R^{2}] - \operatorname{Ex}^{2} [R] && (\because \ \text{\(\mu\) の定義}) \end{align*} \]

■

この補題からは、指示確率変数の分散を計算する非常に有用な公式が直ちに得られる:

系 20.3.2

\(B\) を指示確率変数 (Bernoulli 確率変数) とする。\(p ::= \operatorname{Pr} [B = 1]\) および \(q ::= 1 - p\) と定めると、次の等式が成り立つ:

\[ \operatorname{Var} [B] = pq = p(1 - p) \tag{20.5}\]

証明補題 19.4.2 より \(\operatorname{Ex} [B] = p\) が分かる。また、\(B\) の値は \(0\) または \(1\) なので \(B^{2} = B\) が分かる。よって等式 \(\text{(20.5)}\) は補題 20.3.1 から直ちに従う。 ■

20.3.2 障害までのステップ数の分散

第 19.4.6 項では、各ステップで障害を起こす確率が \(p\) のプロセスが初めて障害を起こすまでのステップ数の期待値が \(1/p\) だと示した。分散はどうだろうか？

プロセスが初めて障害を起こすまでのステップ数を表す確率変数を \(C\) とする。補題 20.3.1 から次の等式が分かる:

\[ \operatorname{Var} [C] = \operatorname{Ex} [C^{2}] - (1/p)^{2} \tag{20.6}\]

よって後は \(\operatorname{Ex} [C^{2}]\) を求めればよい。定義より

\[ \operatorname{Ex} [C^{2}] ::= \sum_{i\,\geq\,1} i^{2} q^{i-1} p \]

が分かる。この総和は第 14 章や第 16 章で学んだテクニックを使うと計算できるものの、第 19.4.6 項で \(C\) の期待値を計算したときと同様に条件付き期待値を使うとより簡単に計算できる。具体的には次の通りである。\(C^{2}\) は確率 \(p\) で最初の \(1\) 時間で障害を起こすときの値 \(1^{2}\) を取り、確率 \(q\) で最初の \(1\) 時間で障害を起こさないときの期待値 \(\operatorname{Ex} [(C + 1)^{2}]\) に等しくなる。よって次の等式を得る:

\[ \begin{aligned} \operatorname{Ex} [C^{2}] &= p \cdot 1^{2} + q \operatorname{Ex} [(C + 1)^{2}] \\ &= p + q \left( \operatorname{Ex} [C^{2}] + \frac{2}{p} + 1 \right) \\ &= p + q \operatorname{Ex} [C^{2}] + q \left( \frac{2}{p} + 1 \right) \end{aligned} \]

さらに変形すれば \(\operatorname{Ex} [C^{2}]\) が求まる:

\[ \begin{aligned} p \operatorname{Ex} [C^{2}] &= p + q \left( \frac{2}{p} + 1 \right) \\ &= \frac{p^{2} + q(2 + p)}{p} \\ \therefore \ \operatorname{Ex} [C^{2}] &= \frac{2-p}{p^{2}} \qquad (q ::= 1 - p \text{ を使った}) \end{aligned} \]

等式 \(\text{(20.6)}\) と合わせれば次の補題を得る:

補題 20.3.3

各ステップで障害を起こす確率が \(p\) のプロセスが初めて障害を起こすまでのステップ数を表す確率変数を \(C\) とする¹。このとき、次の等式が成り立つ:

\[ \operatorname{Var} [C] = \frac{q}{p^{2}} = \frac{1 - p}{p^{2}} \tag{20.7}\]

20.3.3 定数の扱い

\(aR + b\) の分散は \(R\) の分散から簡単に計算できる:

定理 20.3.4[分散の二乗乗算則 (Square Multiple Rule)]

任意の確率変数 \(R\) と定数 \(a\) に対して、次の等式が成り立つ:

\[ \operatorname{Var} [aR] = a^{2} \operatorname{Var} [R] \tag{20.8}\]

証明分散の定義から初めて期待値の線形性を繰り返し適用すれば示せる:

\[ \begin{aligned} \operatorname{Var} [aR] &::= \operatorname{Ex} [(aR - \operatorname{Ex} [aR])^{2}] \\ &= \operatorname{Ex} [(aR)^{2} - 2aR \cdot \operatorname{Ex} [aR] + \operatorname{Ex}^{2} [aR]] \\ &= \operatorname{Ex} [(aR)^{2}] - \operatorname{Ex} [2aR \cdot \operatorname{Ex} [aR]] + \operatorname{Ex}^{2} [aR] \\ &= a^{2} \operatorname{Ex} [R^{2}] - 2 \operatorname{Ex} [aR] \cdot \operatorname{Ex} [aR] + \operatorname{Ex}^{2} [aR] \\ &= a^{2} \operatorname{Ex} [R^{2}] - a^{2} \operatorname{Ex}^{2} [R] \\ &= a^{2} (\operatorname{Ex} [R^{2}] - \operatorname{Ex}^{2} [R]) \\ &= a^{2} \operatorname{Var} [R] \qquad (\because\ \text{\text{補題 }\href{#lemma-20-3-1}{20.3.1}}) \end{aligned} \]

■

定数の加算が分散を変化させないことはさらに簡単に確認できる。証明は読者に任せる:

定理 20.3.5

任意の確率変数 \(R\) と定数 \(b\) に対して、次の等式が成り立つ:

\[ \operatorname{Var} [R + b] = \operatorname{Var} [R] \tag{20.9}\]

標準偏差は分散の平方根であることを思い出せば、ここまでの結果から \(aR + b\) の標準偏差は \(R\) の標準偏差の \(|a|\) 倍だと分かる:

系 20.3.6

任意の確率変数 \(R\) と定数 \(a\), \(b\) に対して、次の等式が成り立つ:

\[ \sigma_{(aR + b)} = |a| \sigma_{R} \]

20.3.4 和の分散

一般に確率変数の和の分散はそれぞれの確率変数の分散の和と一致しない。しかし、確率変数が独立なら両者は一致する。さらに、この性質が成り立つために必要なのは全組独立性であり、相互独立性は必要にならない。この事実が重要になる状況もあるので、知っておいて損はないだろう。例えば第 17.4 節で触れた誕生日一致問題では、確率変数が相互独立ではなく全組独立でしかない。

定理 20.3.7

確率変数 \(R\), \(S\) が独立なら、次の等式が成り立つ:

\[ \operatorname{Var} [R + S] = \operatorname{Var} [R] + \operatorname{Var} [S] \tag{20.10}\]

証明 \(\operatorname{Ex} [R] = 0\) および \(\operatorname{Ex} [S] = 0\) と仮定しても一般性は失われない。なぜなら、示したい等式 \(\text{(20.10)}\) の \(R\) を \(R - \operatorname{Ex} [R]\) に、\(S\) を \(S - \operatorname{Ex} [S]\) に置き換えることは常に可能だからである。この置き換えで独立性は保たれ、定理 20.3.5 より分散も変化しない。

確率変数 \(T\) の期待値が \(0\) のとき \(\operatorname{Var} [T] = \operatorname{Ex} [T^{2}]\) が成り立つ。よって証明すべき等式は次の等式と同値である:

\[ \operatorname{Ex} [(R + S)^{2}] = \operatorname{Ex} [R^{2}] + \operatorname{Ex} [S^{2}] \tag{20.11}\]

また、\(R\) と \(S\) が独立という仮定より次の等式が分かる:

\[ \operatorname{Ex} [RS] = \operatorname{Ex} [R] \cdot \operatorname{Ex} [S] \tag{20.12}\]

後は期待値の線形性を使えば等式 \(\text{(20.11)}\) を証明できる:

\[ \begin{aligned} \operatorname{Ex} [(R + S)^{2}] &= \operatorname{Ex} [R^{2} + 2RS + S^{2}] \\ &= \operatorname{Ex} [R^{2}] + 2 \operatorname{Ex} [RS] + \operatorname{Ex} [S^{2}] \\ &= \operatorname{Ex} [R^{2}] + 2 \operatorname{Ex} [R] \cdot \operatorname{Ex} [S] + \operatorname{Ex} [S^{2}] \quad (\because\ \text{等式 \href{#eq-20-12}{(20.12)}}) \\ &= \operatorname{Ex} [R^{2}] + 2 \cdot 0 \cdot 0 + \operatorname{Ex} [S^{2}] \\ &= \operatorname{Ex} [R^{2}] + \operatorname{Ex} [S^{2}] \end{aligned} \]

■

一般に独立でない確率変数の分散が加法性を満たさない例は簡単に構築できる。例えば \(R = S\) とすると、等式 \(\text{(20.10)}\) は \(\operatorname{Var} [R + R] = \operatorname{Var} [R] + \operatorname{Var} [R]\) となる。しかし分散の二乗乗算則 (定理 20.3.4) からは、この等式が \(4 \operatorname{Var} [R] = 2 \operatorname{Var} [R]\) と同値だと分かる。つまり \(R = S\) のとき等式 \(\text{(20.10)}\) は \(\operatorname{Var} [R] = 0\) でない限り成立しない。

定理 20.3.7 の証明は任意個の確率変数に関する等式の証明に拡張できる (問題 20.19)。ここから次の定理が得られる:

定理 20.3.8[分散の全組独立加法性 (pairwise independent additivity of variance)]

確率変数 \(R_{1}\), \(R_{2}\), \(\ldots\), \(R_{n}\) が全組独立なら、次の等式が成り立つ:

\[ \operatorname{Var} [R_{1} + R_{2} + \cdots R_{n}] = \operatorname{Var} [R_{1}] + \operatorname{Var} [R_{2}] + \cdots + \operatorname{Var} [R_{n}] \tag{20.13}\]

この定理を使うと、パラメータが \(n\), \(p\) の二項定理に従う確率変数 \(J\) の分散を簡単に計算できる。第 19.5.3 項で見たように、\(\operatorname{Pr} [I_{k} = 1] = p\) を満たす相互独立な指示確率変数 \(I_{k}\) を定義すると \(J = \sum_{i=0}^{n} I_{k}\) が成り立つ。系 20.3.2 より \(I_{k}\) の分散は \(pq = p(1 - p)\) なので、\(J\) の分散は \(np(1 - p)\) である:

補題 20.3.9[二項分布に従う確率変数の分散]

パラメータが \(n\), \(p\) の二項定理に従う確率変数 \(J\) は次の等式を満たす:

\[ \operatorname{Var} [J] = npq = np (1 - p) \tag{20.14}\]

20.3.5 誕生日一致問題

第 17.4 節で見たように、講義室の学生が \(95\) 人いるなら、その中に同じ誕生日の \(2\) 人が間違いなく存在する。さらに言えば、誕生日が一致する学生の組がいくつか存在する可能性が高い。その期待値と、期待値が達成される確率を求めてよう。

任意の学生の組 \(P\) に対する事象 [\(P\) の誕生日が一致する] を集めた集合 \(\mathcal{E}\) は相互独立でない。例えば Aliceアリスと Bobボブ、そして Alice と Carolキャロルの誕生日が一致するとき、Bob と Carol の誕生日も必ず一致する！よって、この事象の集合 \(\mathcal{E}\) は \(3\) 次独立ですらない。

しかし、Alice と Bob の誕生日が同じと知っただけでは Carol と誕生日が同じ人に関する情報は何も得られない。つまり \(\mathcal{E}\) は全組独立ではある (問題 19.2)。よって分散の全組独立加法性 (定理 20.3.8) を使えば誕生日が一致する学生の組の個数の分散を計算でき、Chebyshev の定理 (定理 20.2.3) を使えばそのような組の個数が特定の範囲に収まる確率を計算できる。

具体的には次の通りである。一年が \(d\) 日で、学生が \(m\) 人いると仮定する。誕生日が一致する学生の組の個数を表す確率変数を \(M\) とする。\(n\) 人の学生の誕生日を \(B_{1}\), \(B_{2}\), \(\ldots\), \(B_{n}\) として、\(E_{i,j}\) を事象 [\(i\) 番目の学生と \(j\) 番目の学生が同じ誕生日を持つ] \(=\) [\(B_{i} = B_{j}\)] に対応する指示確率変数とする。この確率モデルに問題の設定を反映すると、\(B_{i}\) は相互独立な確率変数であり、\(E_{i,j}\) は全組独立な事象である。また、\(i \neq j\) のとき \(E_{i,j}\) の期待値は \(B_{i} = B_{j}\) の確率 \(1/d\) に等しい。

誕生日が一致する学生の組の個数は、\(E_{i,j}\) が \(1\) になる集合 \(\left\{ i, j \right\}\) (\(i \neq j\)) の個数に等しい。よって次の等式が分かる:

\[ M = \sum_{1 \leq i < j \leq n} E_{i,j} \tag{20.15}\]

期待値の線形性を使えば、\(M\) の期待値を簡単に計算できる:

\[ \operatorname{Ex} [M] = \operatorname{Ex} \left[ \sum_{1 \leq i < j \leq n} E_{i,j} \right] = \sum_{1 \leq i < j \leq n} \operatorname{Ex} [E_{i,j}] = \binom{n}{2} \cdot \frac{1}{d} \]

同様に、全組独立性を利用すれば \(M\) の分散を簡単に計算できる:

\[ \begin{aligned} \operatorname{Var} [M] &= \operatorname{Var} \left[ \sum_{1 \leq i < j \leq n} E_{i,j} \right] && \\[15pt] &= \sum_{1 \leq i < j \leq n} \operatorname{Var} [E_{i,j}] && \quad (\because\ \text{\text{定理 }\href{#theorem-20-3-8}{20.3.8}}) \\[15pt] &= \binom{n}{2} \cdot \frac{1}{d} \left( 1 - \frac{1}{d} \right) && \quad (\because\ \text{\text{系 }\href{#coro-20-3-2}{20.3.2}}) \end{aligned} \]

具体的な値を計算してみよう。一年が \(d = 365\) 日で学生が \(n = 95\) 人いるとき、\(\operatorname{Ex} [M] \approx 12.23\) および \(\operatorname{Var} [M] = 12.23 (1 - 1/365) < 12.2\) となる。Chebyshev の定理 (定理 20.2.3) からは次の不等式が分かる:

\[ \operatorname{Pr} [\left| M - \operatorname{Ex} [M] \right| \geq x] < \frac{12.2}{x^{2}} \]

\(x = 7\) とすれば、誕生日が同じ学生の組の個数が期待値 \(12.23\) から \(7\) 以内の範囲に収まる確率、つまり \(6\) 以上 \(19\) 以下になる確率は \(75\%\) を超えると結論できる。

言い換えれば、\(C\) をパラメータ \(p\) の幾何分布 (定義 19.4.7) に従う確率変数とする。 ↩︎