こにしき(言葉・日本社会・教育)

関西学院大学(2016.04~)の寺沢拓敬のブログです(専門:言語社会学)。

統計解析のレクチャーで「無作為化」の話が重要な理由

統計解析のレクチャーでたまに「無作為化」の話がすっとばされることがある。僕の経験上、これは色々な不幸を引き起こす原因だと思う。


僕が思うに、無作為化が重要な理由は大雑把に言って次の3点。

  1. 結果を母集団に一般化ができる(無作為抽出での話)
  2. 実験群と統制群の間で「未知の交絡因子」を理論上均一にできる(無作為割り当てでの話)
  3. 有意性検定がチェックしている「偶然か否か」は、「無作為化に由来する偶然か否か」という意味である以上、無作為化は検定のキモ


分野によって無作為抽出も無作為割り当ても一般的でない(or 実施困難な)分野もあるだろう。したがって、1番目と2番目は必須というわけではない。


一方、有意性検定をまったくやらない計量系の研究領域というのはちょっと考えにくいので、3番目はほとんどの分野に当てはまる意義だと思う。しかも、3番目の点は、有意性検定を理解するうえで一番やっかいな「難所」の一つである。とくに無作為抽出の話を経由せずに、この点を理解するのはなかなか難しいと思う。


SLAや英語教育学や社会言語学の教科書ではよくあることだけれど、無作為化手続きをしていないデータを事例に検定を教えるのは初学者を大いに混乱させると思う。実際、僕がとても混乱した。母集団が存在しないのに、母集団を想像しなければならないので認知的負担がとても大きいはずだ。どうせ架空のデータなのだから「無作為割り当てをした」とか「無作為に選んできた」という設定にしたほうが初学者に優しいのではないだろうか。


個人的には、選挙の出口調査が素材としては最適だと思う。年に何回も目にする機会があって馴染み深い素材だし、第一、有意性検定の趣旨にぴったり合っている。「ごく一部の投票者へのアンケートから全体の投票結果を予測する」という点。そして、「予測するのは当選か否か(得票率ではない)」という点も、「帰無仮説を棄却するか否か」というロジックとぴったり合っている。でもまあ、未成年にはちょっとなじみが薄いかもね。


余談。

初学者が必ず疑問に思うのが「無作為化されていないデータだって有意性検定をしている研究者は一杯いるでしょ?」という点。この疑問は正しい。無作為化されていないデータで有意性検定をするのは、一種の「逸脱用法」である。しかし、多くの量的研究の研究者は、逸脱であることをわきまえたうえで、あくまでレトリックとして有意性情報を利用している。


ただ、ごくたまにだけれど、「逸脱」を理解した上でレトリックとして使っている人なのか、それとも普通に理解していない人なのか、論文を読むだけではちょっと簡単に判断できない人がいる。これはとても困る。