18.9 確率と信頼度
第 18.4.2 項で見た乳癌検査に似た問題をもう一つ考えよう。とある重要な問題を強調するために今回は極端な数字を用いる。
18.9.1 結核検査
恐ろしく正確な結核 (tuberculosis, TB) 検査が存在すると仮定する: この検査を TB に感染した人が受けると必ず TB が検出され、TB を持たない人が受けると \(99\%\) の確率で正しい結果が得られる!
この事実を数式で表現しよう。特定の人物を任意に固定し、\(TB\) を事象 [その人物が TB に感染している] として、\(pos\) を事象 [その人物に対する検査結果が陽性である] とする。このとき、前段落の仮定は次の二つの等式で表現できる:
この二つの等式は、考えている人物が TB に感染しているかどうかにかかわらず検査が \(99\%\) 以上の確率で正しい結果を出力することを意味する。注意深い統計学者は次のように1主張するだろう:
検査結果は信頼度 \(99\%\) で正しい。
ある人物に対する検査結果が陽性なら、次に示す二つの命題のちょうど一方のみが成り立つ:
-
その人物は TB に感染している。
-
起こる確率が非常に低い (\(100\) 回に \(1\) 回しか起こらない) 現象が起こった。
この二つの事実は次の命題を意味しているように思える:
ある人物に対する検査結果が陽性なら、その人物が TB に感染している確率は \(0.99\) である。
しかし、これは間違いである。
「検査結果の信頼度」と「陽性の検査結果が正しい確率」の違いを理解するために、あなたが陽性の検査結果を受け取ったときに何をすべきかを考えてみよう。系 18.9.1からは検査結果が間違っている確率が非常に低いと分かるので、一見すると「テストは正しく、私は TB に感染している」と思って行動することが合理的に思える。しかし、検査結果が間違っている確率より TB に感染している確率の方が格段に低いことが問題になる。つまり、系 18.9.1が示す二つの選択肢は極端に低い確率で起こる現象 (TB に感染すること) と、それなりに低い確率で起こる現象 (偽陽性が生じること) である。このように考えると、発生確率が極端に低い現象が起こったと考えるのは非合理的だと納得できるだろう: 検査結果が間違っていると考えるのが理にかなっている。
つまり、数字で見ると高い正確性を持つ検査であっても、陽性の検査結果をどれだけ深刻に受け取るべきかを判断するにはランダムな人物が TB に感染している確率も必要になる。検査結果が陽性だった人物が実際に TB に感染している確率を計算すると、TB を感染している人の割合も検査結果の重要性に影響することが判明する。では、この確率 \(\operatorname{Pr}[TB \, | \, pos]\) を計算してみよう。
18.9.2 オッズの更新
ベイズ更新
検査結果を結果の確率に変換する標準的な手法として、Bayes 則 (定理 18.4.1) を使うものがある。これを説明するために、まず確率ではなくオッズ (odds) の言葉でベイズ則を表現する。事象 \(H\) のオッズは \(H\) の確率を使って次のように定義される:
例えば、六面の公平なサイコロを振って \(4\) の目が出る事象を \(H\) とすれば、\(\operatorname{Pr}[H] = 1/6\) から次の等式が分かる:
この事実をギャンブラーは「\(4\) の目が出るオッズは \(5\) 対 \(1\) だ」などと表現する。
オッズは値としては確率と異なるものの、事象が起きる可能性を表す点では確率と変わらない。例えば、ある馬が競馬で勝つオッズが「\(3\) 対 \(1\)」なら、その馬に \(\$1\) を賭けて勝つと元手の \(\$1\) に加えて \(\$3\) が得られる。この馬が勝つ確率は \(1/4\) であり、一般に任意の事象 \(H\) に対して次の等式が成り立つ:
事象 \(E\) が起きたという条件の下で事象 \(H\) が起こる確率を表す条件付き確率 \(\operatorname{Pr}[H \, | \, E]\) と同じように、\(E\) の発生が判明したときの \(H\) のオッズを表す条件付きオッズ \(\operatorname{Odds}(H \, | \, E)\) も定義される:
この定義は次のように変形できる:
最後の行で使われている次の値は Bayes 因子 (Bayes factor) と呼ばれる:
つまり証拠 \(E\) (事象 \(E\) が起こったという情報) が与えられたときに \(H\) のオッズを更新するには、Bayes 係数を乗じればよい:
TB 検査のオッズ
等式 \(\text{(18.6)}\), \(\text{(18.7)}\) が示す検査結果の確率は、TB 検査の Bayes 因子を計算するのにちょうど必要な情報である:
これは、TB 検査の結果が陽性だと、その人物が TB を持つオッズが \(100\) 倍になることを意味する。つまり陽性の検査結果は TB の診断を助ける重要な証拠である。これは心強い結果だろう。一方で補題 18.9.2によると、検査結果が陽性だったランダムな人物が TB を持つオッズを計算するには、何の条件も無い状態でその人物が TB を持つ確率も必要となる。この値を考えよう。
アメリカ疾病予防管理センターによると、2011 年にアメリカで報告された TB の感染は \(11{,}000\) 件だった。報告されていないものを含めた実際の件数は \(30{,}000\) 件程度だと見積もることにしよう。アメリカの人口は \(3\) 億人を少し上回る程度だから、次の近似を得る:
ここからランダムな人物が TB に感染しているオッズが \(1/9{,}999\) だと分かる。よって次を得る:
言い換えれば、信頼度 \(99\%\) で正しい検査で陽性になったとしても、その人物が TB に感染しているオッズは \(100\) 対 \(1\) でしかない。\(99\%\) の信頼度も、TB に感染している極端に小さな確率に打ち勝つには十分でない。
18.9.3 おそらく正しい事実
これまでに分かったように、TB 検査の結果が陽性だったランダムな人物が TB に感染している確率は約 \(1/100\) である。では、もしあなたに対する検査結果が陽性なら、有能な医者は「あなたが TB に感染している確率は \(1/10{,}000\) から \(1/100\) に上がりました」と告げるだろうか? おそらくそんなことはない。
有能な医者は検査結果が陽性のランダムな人物が \(100\) 人に \(1\) 人の割合で TB に感染していることは理解しているに違いない。しかし、あなたはランダムな人物ではなく、あなたが TB に感染しているかどうかは現実世界に関する事実である。確かに、感染の有無は医者にもあなたにも正確には分からない。しかし、それは「あなたが TB に感染している」確率が定義できることを意味しない。この文章は正しいか正しくないかのどちらかであって、それを私たちは知らないというだけである。
もし深刻な病気を持つ「確率」 \(1/100\) が心配なら、追加の情報を使って確率を変えることもできる。例えば、アメリカではアメリカ出身者の TB 感染率は外国出身者の半分しかない。そのため、もしあなたがアメリカ出身のアメリカ人なら、「あなたが」 TB に感染している確率は半分になる。逆に、アジア・太平洋諸島出身者の TB 感染率はアメリカ出身の白人の \(25\) 倍に及ぶ。もし家族にアジア・太平洋諸島出身者がいるなら、TB 感染率は大きく上昇するだろう。
重要なのは次の点である: 医者があなたに告げる「TB に感染している確率」は、あなたに似た患者が TB に感染している確率 (と医者が考える値) であって、検査結果だけから決まるわけではない。医者は TB の感染に関係すると自身が考える個人的因子、あるいは誤診が及ぼす影響を考慮して判断を下す。これは重大な意味を持つ医学的な判断であって、数学的なものではない。異なる医者はあなたの異なる部分に注目し、異なる判断を下すだろう。あなたの「正しい」モデルは存在せず、従って「あなたが TB に感染している確率」の正しい値は存在しない。
18.9.4 極端な事象
公平なコインを投げたとき、定義より、表が出る確率と裏が出る確率は等しい。公平なコインを \(100\) 回投げたところ、その全てで表が出た状況を想像してほしい。もう一度そのコインを投げるとき、コインが表を向く確率はいくつだろうか?
「公平なコインを \(100\) 回投げても公平なままである」という常識的な仮定を置くなら、この質問の解答は定義より \(0.5\) である。しかし、この解答に納得しない賢明な人も多くいるだろう: 彼らは次の一投でもコインが表を向くことに大金を賭けるに違いない。
この現象はどのように考えれば納得できるだろうか? まず、公平なコインを \(100\) 回投げて \(100\) 回とも表を向く確率はとてつもなく小さい事実を認識しよう。例えば、公平なコインを投げて \(50\) 回連続で表が出る確率は \(2^{-50}\) である。この段落を読んでいる読者が今この瞬間に雷に打たれる確率が \(2^{-50}\) にほぼ等しいことを考えると、この確率がどれだけ小さいかの感覚が掴めるだろう。つまりまず間違いなく起こらない。
\(100\) 回はおろか \(50\) 回連続で表が出ることさえ確率がこれだけ小さいと、コインが公平という仮定の信憑性が低下する。問題の文章はコインが公平だと主張しているものの、これが間違っている可能性を考えずにはいるのは難しい: コインは公平ではなく、\(100\) 回連続で表が出ることが常識的な確率であり得るような偏りを持っているのではないか? 例えば、\(1\) 回のコイン投げで表が出る確率が \(0.99\) であるコインなら、\(100\) 回連続で表が出る確率は \(1/3\) を超える。
公平なコインと表が出る確率が \(0.99\) の不公平なコインがあるとしよう。この \(2\) 枚の中から \(1\) 枚を選び、それを \(100\) 回投げる試行を考える。ただし、公平なコインが選択される可能性が圧倒的に高いとする: 不公平なコインが選択される確率は「雷に打たれる」のと同じ確率 \(2^{-50}\) しかないとする。
\(E\) を事象 [\(100\) 回連続で表が出る] と定め、\(H\) を事象 [偏ったコインが選択される] と定める。このとき次の等式が成り立つ:
つまり \(100\) 回連続で表が出たなら、不公平なコインが選択されたオッズは \(0.36 \cdot 2^{50}\) を上回る。もし不公平なコインが選択されているなら、次の一投で表が出る確率は \(0.99\) である。言い換えれば、投げられたコインが不公平である可能性を非常に小さい確率で仮定することで、\(100\) 回連続で表が出たことを知ったときの「次も表が出るに決まっている」という直感を正当化できた。
何らかの未検証の事実が正しい確率を仮定して議論を進める手法を仮説検定問題に対する Bayesian アプローチと呼ぶ。投げられたコインが公平でない可能性に小さな確率を与えることで、Bayesian アプローチは次のコイン投げで表が出るオッズが \(1\) 対 \(99\) であるという推定に合理的な正当化を提供する。
18.9.5 次のコイン投げの結果の信頼度
もし確率ではなく信頼度を使い続ける場合は、「公平なコインが選択される確率」といった Bayesian な仮定は必要ない。\(100\) 回連続で表が出たなら、コインが不公平であるか、公平なコインが本当に \(100\) 回連続で表を出したかのいずれかだと私たちは知っている。しかし後者は事実上起こらないので、事実上 \(100\%\) の信頼度でコインは不公平である。よって、次のコイン投げの結果が表になることに \(99\%\) の信頼を持てる。
-
信頼度 (confidence) は何らかの値に対する統計的な推定値 (第 20.4.3 項) が正しい確率を表現するために使われることが多い。本書では仮説検定と推定の標準的なアプローチに説明において信頼度という単一の概念を使うことで議論を単純化している。
統計学者は仮説検定の文脈を議論するとき「偽陽性」の確率と「偽陰性」の確率を区別する。この例において健康な人物に対して「TB を持っている」と誤って判定する偽陽性の確率 \(0.01\) を検査の有意度 (significance) と呼び、TB に感染している人物に対して「TB に感染している」と判定する偽陰性の確率を \(1\) から引いた値を検査の検出力 (power) と呼ぶ。この例で使っている検査は最大の検出力 \(1\) を持つ。 ↩︎