20.4 ランダムサンプリングによる推定

2010 年、マサチューセッツ州の民主党員は世論調査の結果に驚愕した。共和党候補 Scottスコット Brownブラウンが過半数の有権者に支持され、民主党の故 Teddyテディ Kennedyケネディ上院議員が 40 年以上にわたって守った上院議員の議席を奪うと予測されたからである。この結果を目にした民主党員は、議席を守るための熱心な (しかし最終的には失敗に終わる) 活動を開始した。

20.4.1 世論調査

選挙よりも前のある時点で、Scott Brown の支持率 (支持する有権者の割合) が \(p\) だったと仮定する。この未知の値 \(p\) を推定する方法を考えよう。有権者名簿から有権者を一様ランダムに選ぶプロセスが存在すると仮定する。このとき、そのプロセスで選択された有権者が Brown を支持するなら \(1\) となり、そうでないなら \(0\) となる確率変数 \(K\) を定義できる。

\(p\) を推定するには、\(n\) を大きな整数として、ランダムに¹選んだ \(n\) 人の有権者が Brown を支持する割合を求めればよい。つまり、\(i\) 番目に選択された有権者が Brown を支持する事象に対応する指示確率変数を \(K_{i}\) と定め、それらの和を \(S_{n}\) とする:

\[ S_{n} ::= \sum_{i=1}^{n} K_{i} \tag{20.16}\]

このとき確率変数 \(S_{n} / n\) が「ランダムに選んだ \(n\) 人の有権者が Brown を支持する割合」となる。この値が未知の割合 \(p\) の有用な近似値になるという多くの人が抱く直感は正しい。

つまりサンプルの結果から計算される値 \(S_{n} / n\) は実際の割合 \(p\) の統計的推定値 (statistical estimate) として利用できる。\(S_{n}\) が二項分布に従うことは分かっている。しかし、そのパラメータの中で私たちが選べるのは \(n\) だけで、\(p\) は未知である。

サンプル数をどこまで大きくすべきか？

条件「\(95\%\) 以上の確率で推定値 \(S_{n} / n\) と真の値 \(p\) の差が \(0.04\) 以下になる」が成り立つ \(n\) の値を求めてみよう。つまり、次の不等式が成り立つ \(n\) の値を考える:

\[ \operatorname{Pr} \left[\, \left| \frac{S_{n}}{n} - p \right| \leq 0.04 \,\right] \geq 0.95 \tag{20.17}\]

\(n\) が満たすべき条件は Chebyshev の定理を使うと簡単に求められる。

\(S_{n}\) は二項分布に従う。よって等式 \(\text{(20.14)}\) より次の不等式が分かる:

\[ \operatorname{Var} [S_{n}] = np(1 - p) \leq n \cdot \frac{1}{4} = \frac{n}{4} \tag{20.18}\]

中央の式変形では \(p(1 - p)\) が \(p = 1/2\) で最大値を取る事実 (確認せよ！) を利用している。ここから \(S_{n} / n\) の分散の上界が得られる:

Chebyshev の定理 (定理 20.2.3) より、次の関係が分かる:

\[ \operatorname{Pr} \left[\, \left| \frac{S_{n}}{n} - p \right| \geq 0.04 \,\right] \leq \frac{\operatorname{Var} [S_{n}/n]}{(0.04)^{2}} \leq \frac{1}{4n(0.04)^{2}} = \frac{156.25}{n} \tag{20.20}\]

推定値の信頼度を \(95\%\) 以上にするには、不等式 \(\text{(20.20)}\) の最右辺を \(1/20\) 以下にする必要がある。つまり \(n\) が満たすべき不等式は

\[ \frac{156.25}{n} \leq \frac{1}{20} \]

であり、これを解けば

\[ n \geq 3{,}125 \]

を得る。

第 20.5.2 項で紹介する手法を使えば、二項分布の裾をより厳密に評価することで \(n\) の下界を \(1/4\) 以下にできる。しかし、この分散だけを使う例は、従う確率変数が二項分布に限らない任意の確率変数に対しても適用可能なアプローチを示している。

20.4.2 全組独立サンプリング

第 20.4.1 項で見た世論調査における十分なサンプル数を決定する問題と、第 20.3.5 項で見た誕生日が一致する組の個数と分散を求める問題のアプローチは非常に似ている。そこで、これらの問題で得た結果を少しだけ一般化したものを全組独立サンプリング定理 (pairwise independent sampling theorem) としてまとめておく。この定理が一般化する点は二つある: まず、確率変数が取る値を \(0\) と \(1\) に制限する理由はない。また、全ての変数が同じ確率分布に従う必要もない。ただし議論を簡単にするため、全組独立な確率変数が従う確率分布は同じ期待値と分散を持つと仮定する。

定理 20.4.1[全組独立サンプリング定理 (pairwise independent sampling theorem)]

確率変数 \(G_{1}\), \(\ldots\), \(G_{n}\) が全組独立で、どれも平均 \(\mu\) と標準偏差 \(\sigma\) を持つと仮定する。\(S_{n}\) を次のように定める:

\[ S_{n} ::= \sum_{i=1}^{n} G_{i} \tag{20.21}\]

このとき、任意の正の実数 \(x\) に対して次の不等式が成り立つ:

\[ \operatorname{Pr} \left[\,\left| \frac{S_{n}}{n} - \mu \right| \geq x \,\right] \leq \frac{1}{n} \left( \frac{\sigma}{x} \right)^{\! 2} \]

証明まず、\(S_{n}/n\) の期待値が \(\mu\) だと示す:

\[ \begin{aligned} \operatorname{Ex} \left[ \frac{S_{n}}{n} \right] &= \operatorname{Ex} \left[ \frac{\sum_{i=1}^{n} G_{i}}{n} \right] && (\because\ \text{\(S_{n}\) の定義}) \\[12pt] &= \frac{\sum_{i=1}^{n} \operatorname{Ex} [G_{i}]}{n} && (\because\ \text{期待値の線形性}) \\[12pt] &= \frac{\sum_{i=1}^{n} \mu}{n} && (\because\ \text{定理の設定より \(\operatorname{Ex} [G_{i}] = \mu\)}) \\[12pt] &= \frac{n\mu}{n} = \mu && \end{aligned} \]

続いて、\(S_{n}/n\) の分散を \(\sigma\) と \(n\) を使って表す:

\[ \begin{align*} \operatorname{Var} \left[ \frac{S_{n}}{n} \right] &= \left( \frac{1}{n} \right)^{\! 2} \operatorname{Var} [S_{n}] && (\because\ \text{分散に対する二乗乗算則: \text{定理 }\href{/mcs/probability/deviation_from_mean/properties_of_variance/#theorem-20-3-4}{20.3.4}}) \\[12pt] &= \frac{1}{n^{2}} \operatorname{Var} \left[ \sum_{i=1}^{n} G_{i} \right] && (\because\ \text{\(S_{n}\) の定義}) \\[12pt] &= \frac{1}{n^{2}} \sum_{i=1}^{n} \operatorname{Var} \left[ G_{i} \right] && (\because\ \text{分散の全組独立加法性: \text{定理 }\href{/mcs/probability/deviation_from_mean/properties_of_variance/#theorem-20-3-8}{20.3.8}}) \\[12pt] &= \frac{1}{n^{2}} \cdot n \sigma^{2} = \frac{\sigma^{2}}{n} && \tag{20.22} \end{align*} \]

以上の情報があれば、Chebyshev の定理 (定理 20.2.3) から示したい結論が得られる:

\[ \begin{aligned} \operatorname{Pr} \left[\,\left| \frac{S_{n}}{n} - \mu \right| \geq x \,\right] &\leq \frac{\operatorname{Var} [S_{n}/n]}{x^{2}} && (\because \ \text{Chebyshev の定理}) \\[12pt] &= \frac{\sigma^{2}/n}{x^{2}} && (\because\ \text{等式 \href{#eq-20-22}{(20.22)}}) \\[12pt] &= \frac{1}{n} \left( \frac{\sigma}{x} \right)^{\! 2} && \end{aligned} \]

■

この全組独立サンプリング定理は、確率変数の独立したサンプルの平均が期待値に近づく速度を一般的な形で量的に表している。実は、この定理には大数の法則 (law of large numbers) と呼ばれる有名な系²がある: サンプル数を十分に多くすれば、\(100\%\) にいくらでも近い信頼度を持った期待値の推定が得られる。

系 20.4.2[大数の弱法則 (weak law of large numbers)]

確率変数 \(G_{1}\), \(\ldots\), \(G_{n}\) が全組独立で、どれも平均 \(\mu\) と分散 \(\sigma\) を持つと仮定する。\(S_{n}\) を次のように定める:

\[ S_{n} ::= \frac{\sum_{i=1}^{n}G_{i}}{n} \]

このとき、任意の実数 \(\varepsilon > 0\) に対して次の等式が成り立つ:

\[ \lim_{n \to \infty} \operatorname{Pr} [\left| S_{n} - \mu \right| \leq \varepsilon ] = 1 \]

20.4.3 推定値の信頼度

世論調査のサンプル数に話を戻すと、Chebyshev の定理を使って次の事実が分かった: \(3{,}125\) 人の有権者をサンプリングすれば、Brown の支持率からの差が \(0.04\) 以内の推定値が \(95\%\) の頻度で得られる。

有権者全体の人数に関する言及がないことに注目してほしい: なぜなら有権者が全部で何人いようと推定値の正確さは変わらないからである。確率論を学んでいない人は、サンプル対象の集合の大きさが必要なサンプル数に影響を及ぼすと強く信じていることがよくある。しかし上記の解析からは、有権者が \(1\) 万人でも、\(100\) 万人でも、\(1\) 億人でも、\(3{,}000\) 人を少し超える人数のサンプルが常に正確な推定値を与えると分かる。有権者の人数が意味を持つと考えている人を納得させる直感的な説明を考えてみるとよい。

\(3{,}125\) 人のランダムな有権者を実際にサンプルしたところ、Brown を支持すると答えた有権者が \(1{,}270\) 人だったとしよう。この結果が次の事実を意味すると考えたくなるかもしれない。しかし、それは間違っている:

誤った主張

\(0.95\) の確率で、Brown の支持率 \(p\) と \(1250/3125\) の差は \(0.04\) 以下である。例えば \(1250/3125 - 0.04 > 1/3\) なので、\(95\%\) の確率で有権者の \(3\) 分の \(1\) 以上が Brown を支持する。

第 18.9.3 項でも触れたように、この主張の誤りは現実世界の事実に関する確率 (「見込み」) を考えている点である。Brown の支持率 \(p\) の値は既に決まっているので、\(p\) に関する確率的な議論は意味を成さない。例えば \(p\) の実際の値が \(0.3\) だったとしよう。このとき「\(p\) と \(1250/3125\) の差が \(0.04\) 以下である確率」はいくつだろうか？もちろん、この質問には答えられない: 確率的試行が存在しないので、「そうでない」としか言えない。

有権者の支持割合を使ったこの例は、現実世界に関する決定済みの未知の量を推定する問題として典型的である。しかし、未知な値が全て確率変数になるわけではない。決定済みの値に対して確率を考えても間違った結論しか得られない。

本節で示された事実をより注意深く表現する文章を次に示す:

支援者の実際の割合 \(p\) を推定する確率的手続きを上記のように定義したとする。\(n = 3{,}125\) のとき、この手続きによって \(p\) との差が \(0.04\) 以下の推定値が生成される確率は \(0.95\) である。

この文章は長たらしいので、先ほどの誤った主張で使われるものとよく似た特別な言葉遣いが使われることが多い。世論調査業者は同じ結論を次のように表現するだろう:

\(95\%\) の信頼度 (confidence level) で、Brown の支持率は \(1250/3125 \pm 0.04\) である。

ここで信頼度は現実世界に関する値を推定する手続きの結果に関する確率を意味する。そのため「信頼度」という文字列を見たときは、推定値の生成に利用された確率的手続きの存在を意識するべきである。推定値の信憑性を判断するには、この手続きがどれほど忠実に実行されたかを知る必要がある。さらに重要なこととして、上記の信頼度を使って表現された結論は次のように書き換えられる:

Brown の支持率が \(1250/3125 \pm 0.04\) に収まるか、そうでなければ起こる可能性の低い (\(1/20\) の確率でしか起きない) ことが起こったかのどちらかである。

Brown の支持率がこの区間に収まるはずがないと経験から判断できる場合は、この信頼度の高さを信用しないことは十分に正当化される。

\(n\) 人の有権者は重複を許して選択される。つまり同じ有権者が \(2\) 回以上選択される可能性がある！ \(n\) 人の異なる有権者をランダムに選ぶようにすれば推定の質は少しだけ向上するものの、そうすると選択プロセスと以降の解析が質の向上に釣り合わないほど複雑になる。 ↩︎
正確に言うと、この系は大数の弱法則 (weak law of large numbers) と呼ばれる。この名前が示唆するように大数の強法則も存在するものの、こちらは本講義の範囲から外れる。 ↩︎