18.6 Simpson のパラドックス

1973 年、有名な大学が大学院入試で性差別を行った疑いで捜査を受けた[7]。この捜査は一見すると決定的な証拠を理由に開始された: 1973 年の大学院入試において、男性の受験生は \(44\%\) が合格したのに対して、女性の受験生は \(35\%\) しか合格していなかった。

しかし、この疑いは全くの見当違いだった。各学科に対する個別の調査からは、性差別の明らかな証拠は見つからなかった上に、統計的な偏りが見つかった少数の学科の多くでは女性が優遇されていたと判明した。つまり、性差別があったとしたら、それは男性に対するものだった！

これらの矛盾する調査結果からは、どこかで誰かが (意図的かどうかは別にして) 計算ミスをしているように思える。しかし計算は全て正確だった。実は、この統計的現象は名前が付く程度には一般的である: Simpsonシンプソンのパラドックス (Simpson's paradox) とは、分割されたデータは全て同一の傾向を持つにもかかわらず、それがデータ全体の傾向と逆になる現象を指す。

条件付き確率を使って Simpson のパラドックスを説明してみよう。議論を簡単にするため、学科は EE (電子情報工学科) と CS (情報科学科) の二つしかないとする。ランダムな受験生を選択する試行を考え、次のように事象を定義する:

\[ \begin{aligned} A &::= [\text{受験生が受験した学科に合格する}] \\ F_{EE} &::= [\text{受験生は EE を受験する女性} ] \\ F_{CS} &::= [\text{受験生は CS を受験する女性} ] \\ M_{EE} &::= [\text{受験生は EE を受験する男性} ] \\ M_{CS} &::= [\text{受験生は CS を受験する男性} ] \end{aligned} \]

受験生は男性と女性のいずれかであり、両方の学科を受験する受験生はいないとする。つまり、事象 \(F_{EE}\), \(F_{CS}\), \(M_{EE}\), \(M_{CS}\) は排反だと仮定する。

これらの記号を使うと、捜査機関の主張 ── 男性の受験生は女性の受験生より合格する可能性が高い ── は次の不等式で表せる:

\[ \operatorname{Pr} [A \, | \, M_{EE} \cup M_{CS}] > \operatorname{Pr} [A \, | \, F_{EE} \cup F_{CS}] \]

これに対して、大学の調査結果が示した事実 ── 任意の学科において、女性の受験生は男性の受験生より合格する可能性が高い ── は次の不等式で表せる:

\[ \begin{aligned} \operatorname{Pr} [A \, | \, M_{EE}] &< \operatorname{Pr} [A \, | \, F_{EE}] \\ \operatorname{Pr} [A \, | \, M_{CS}] &< \operatorname{Pr} [A \, | \, F_{CS}] \\ \end{aligned} \]

大学全体と学科ごとの統計で不等号の向きが逆転する奇妙な現象が発生するデータを作るには、CS の合格率を EE より低く、さらに CS の受験生の女性比率を EE より格段に高く設定する必要がある¹。上記の不等式が全て成り立つ人工的なデータを表 \(\text{18.1}\) に示す。

\[ \def\arraystretch{1.2}\begin{array}{cl|rrr} & & \text{受験人数} & \text{合格人数} & \text{合格率} \\ \hline \text{CS} & \text{男性} & \text{\(5\)} & \text{\(2\)} & 40\% \\ & \text{女性} & \text{\(100\)} & \text{\(50\)} & 50\% \\ \hline \text{EE} & \text{男性} & \text{\(100\)} & \text{\(70\)} & 70\% \\ & \text{女性} & \text{\(5\)} & \text{\(4\)} & 80\% \\ \hline \text{全体} & \text{男性} & \text{\(105\)} & \text{\(72\)} & \approx 69\% \\ & \text{女性} & \text{\(105\)} & \text{\(54\)} & \approx 51\% \end{array} \]

表 18.1Simpson のパラドックスの例: 学科ごとに見ると女性の方が合格率が高いのに対して、全体を見ると男性の方が合格率が高い

最初は、あなたも当初の捜査機関と同様に大学全体の統計は性差別によってのみ説明されると考えていたかもしれない。しかし、学科ごとの統計によって性差別の疑いはめでたく晴れたように思える。...本当にそうだろうか？

これまでの議論のデータを変えずに言葉だけを次のように改変したとき、結論がどうなるかを考えてみてほしい:

「受験生が EE を受験する」 \(\to\) 「受験生の名前の文字数が奇数」
「受験生が CS を受験する」 \(\to\) 「受験生の名前の文字数が偶数」

常識的に考えて名前の文字数の偶奇性は合否や成績に関係ないので、名前の文字数が奇数あるいは偶数の集団を考えたときに女性の合格率が高い事実は「偶然」として無視されるだろう。そして大学全体のデータから判断して大学院入試で女性に対する性差別が存在したと結論するに違いない。

ここで注目してほしいのが、データの分割基準が受験した学科か名前の文字数の偶奇性かによって全く同じデータを解釈して得られる結論が変化している点である。言い換えれば「受験した学科はデータの分割基準として意味があるのに対して、名前の文字数の偶奇性はそうでない」という暗黙の「常識」が統計の解釈に影響している。これは「このデータは性差別が存在する (もしくは存在しない) という私たちの信念を裏付ける」と主張するのが循環論法であることを意味する。つまり、上記のデータの相関関係の解釈はそもそも入学試験に関係する物事の間の因果関係に関する私たちの信念に依存している²。これは、人々が絶えず無視する統計学の初歩的な標語の重要性を示す例だと言えるだろう: 相関関係は因果関係を意味しない。

捜査を受けた実際の大学では、英文学科や教育学科といった数学科目を要求しない学科の受験生に女性が多かった。そういったキャリアを女性が選択する理由に性的バイアスが関係している可能性はあるものの、その責任は大学にない。 ↩︎
この話題に関する詳細な議論が Causality: Models, Reasoning and Inference, Judea Pearl, Cambridge U. Press, 2001. にある。 ↩︎