ここのコメント欄の移転。
統計リテラシーの浸透により「擬似相関」という言葉がだいぶ市民権を得た気がする。ただ、一般的に「実質的な相関」があると考えられるものまで「擬似相関」とラベルがつけられてしまうこともある(上のコメント欄での議論がその典型)。
擬似相関は、「第3の変数Zが、XとYに同時に影響を与えているため、XとYが見かけ上相関しているもの」を指す(というわけで、ここでは「因果の流れがが逆」の場合はとりあえず擬似相関と呼ばないことにする)。ここでのポイントは、第3の変数が介在しているからといって、必ずしも「擬似相関」ではないという点だ。第3の変数が介在していたとしても、因果の向き次第では、「間接効果」となる。
図の左が擬似相関で、右が間接効果。間接効果が「擬似」的な関係でないゆえんは、Xが変化すれば回り道はするもののYも変わる、という点。
上記のコメント欄では、ジェンダーと外国語学習意欲に関する相関が議論されていたので、ジェンダーに関する擬似相関/間接効果の極端な例を考えてみた。とくに擬似相関のほうは、現実的に多くの例にあふれているわけではないが、いちおう想定はできる。
- 原因変数X
- ジェンダー
- 結果変数Y
- 道で馬糞を踏んでしまった経験
ここで、「男性のほうが馬糞を踏んだ経験が多い」という相関が見られたとする。
間接効果の例
間接効果は、たとえば「男性の方が、アウトドア志向が強い、そしてアウトドア志向が強いひとは(男女問わず)馬糞に遭遇しやすい」という推論。一般的なイメージともあうだろう。