こにしき(言葉・日本社会・教育)

関西学院大学(2016.04~)の寺沢拓敬のブログです(専門:言語社会学)。

方法論:外国語教育研究・応用言語学における「社会調査の2次分析」

先日、某学会から発表の「不採択」通知を受け取った。不採択の理由は「使用するデータが2006年のもので古い」というものだった(これが全てでその他の不採択理由はない)。私が「2006年」のデータを用いたことにはきわめて合理的な理由があったので、査読者の指摘に当初はたいへん困惑した。しかしながら、こうした「データが古いからだめ」という批判自体が、私の用いた「社会調査の2次分析」に対する無理解に起因するものだと思われる。したがって、社会調査の2次分析とはどういう手法なのか、オープンな場所で丁寧に説明しておいたほうがよいと思う。後に続く研究者(の卵)が、査読者の無理解によって、この分野に幻滅しないためにも。

社会調査の「2次分析」とは

社会調査の2次分析(以下、「2次分析」)とは、どのような手法だろうか。ひとことでいえば、官公庁や研究機関、放送機関など、人的・予算的な余裕のある団体が行った大規模な社会調査・世論調査を、研究者がいわば「貸してもらって」分析する計量分析のことである。もっとも整備が早かったのが米国だが、日本でも2000年頃から、こうした学術データアーカイブが整備され出した。このおかげで、調査団体や偉い先生とまったく「コネ」のない研究者・院生(たとえば私がそうだった)であっても、申請さえきちんとすればデータの貸与を受けることができる。

代表的なデータアーカイブ


社会科学(たとえば労働経済学や社会学の社会階層研究など)ではメジャーな手法である。言語政策研究も、およそ半分は社会科学に含まれると思うので、親和性はかなり高いはずである。外国語教育研究であっても、指導論や教室内分析の枠を越えて、政策や社会分析にも目配りをするならば、無縁ではないだろう。この手法は、おおざっぱにいえば、計量研究のサーベイ研究に分類されるので、伝統的な質問紙調査と分析手法の多くを共有している。ただし、無視できない違いもあるので、単純に質問紙調査の規模を大きくしたものと考えるとミスリーディングである。ここでは、メリットとデメリットをあげることで、その共通点・相違点を紹介したい。

「2次分析」のメリット

「2次分析」のメリットは、たとえば、

(1) 分析者のコストが小さい
調査設計・パイロット調査・本調査遂行・データクリーニングなどの「面倒な」手間を省くことができ、分析者はデータを受け取り次第すぐ分析が開始できる
(2) ケース数が多い
一般的に数千、データによっては数万ケースが分析可能。
(3) 調査設計の信頼性
一般的に社会調査の専門家や統計学者が調査を設計し、専門調査員が回収しているため、杜撰なデザイン・調査になる危険性が少ない
(4) 代表性が高い
一般的に、回答者はランダムサンプリングに基づいて抽出されている。


というものがある。ここで最も重要なのが (4)である。もちろん (1) 〜 (3) もかなり重要であるが、「2次分析」でなければできない、というわけではない。たとえ院生であっても、一生懸命血を吐くような努力をすれば(じっさいに血を吐くかもしれないが)不可能なものではない。しかしながら、(4)の「代表性の確保」については、研究者が個人的な研究プロジェクトとして行うのはほぼ不可能であり、その点で「2次分析」のもっともユニークなメリットだと言える。

ランダムサンプリングの意義

もし「日本人全体の平均的な意識」のように、「全体」を分析の焦点にするのであれば、代表性の確保が不可欠である。統計調査で、代表性を確保するためには、回答者が、母集団(たとえば、「日本に住んでいる有権者」全体)の「縮図」になっていなければならない。こうした目的のために一般的に用いられるのが、ランダムサンプリングという方法(あるいはそれに準じた抽出方法)である。新聞社の選挙速報用出口調査や、内閣府世論調査はほとんどランダムサンプリングで行われている。


ランダムサンプリングとは、簡単に言えば、回答者が特定のグループに偏らないようにする方法である。これはしばしばスープの味見に喩えられる。スープの「平均的な味」を知るためには、スープをきちんとかき混ぜなければならない。この「かき混ぜる」という作業が、ランダムサンプリングに相当する。


ただし、この重要性が、しばしば伝わらないことがある。もちろん「普通」の生活者であれば、スープをかき混ぜずに、上澄みを何百回も味見しても、スープの平均的な味にたどりつけないことは十分理解できるだろう。しかしながら、これが統計調査に「応用」されると、直感が働かなくなる人がしばしば存在する(スープと違って、抽象度が高い話なので無理もないけれど)。じっさい、アンケートをできるだけ多くの人にばらまけば、正確な結果になるという誤解はしばしば耳にする。こうした「誤解」が最悪な形で現れてしまった例が、たとえば、1936年アメリカ大統領選の選挙予想で、『リテラリー・ダイジェスト』誌が喫した歴史的な「敗北」である(→参考:アメリカ大統領選挙の番狂わせ(前編)〜 標本調査における偏り�@|統計学習の指導のために(先生向け)


したがって、「2次分析」を採用する場合は、積極的にこの意義を強調しておく必要がある。

「2次分析」のデメリット

一方、デメリットは、メリットの丁度裏返しである。

(1) 融通性はゼロ

分析者がゼロから設問を作ることはできないため、分析者の問題関心をダイレクトに反映した設問は少ない。。その点で、単に統計解析の知識だけではなくて、既存の設問を加工したり別の設問と合成したり、といった「職人技」が必要となる。

なお、裏技的な手法として、調査プロジェクトのメンバーとして調査設計の段階から参加するという方法がある(私もJGSS-2010は、このステータスで参加した)。このようなアプローチをとれば、自分の欲しいと思える設問を(きちんとその意義をプレゼンできれば)入れることも可能である。

(2) 調査実施時期と分析時期のタイムラグ

一般的に、無作為抽出調査は、教室でアンケートを配るタイプの調査よりも数千〜数万倍の時間がかかる(「人×時間」で計算)。一カ所で質問紙が回収できる教室内アンケートと、調査地点が全国に点在し調査員が回答候補者を一軒一軒たずねてまわる社会調査を比べてみれば、その手間に大きなギャップがあることはわかるだろう。


そして、調査だけでなく、調査後のデータ整形にもふつう膨大な時間がかかる。とくに、文章で書かれた部分を含む回答の場合、文章を数字に変換しなければならない。社会調査には、回答者の職業を、信頼性の関係上、選択肢から選ぶ方式ではなく、口頭で記述してもらう場合も多いのため、この作業は必要となる。


さらに、データ整形が終わったとしても、すぐ「2次分析」が可能になるわけではない。なぜなら、一般的に、調査設計を担当した研究者による「1次分析」が一段落し、データがアーカイブに寄託・公開されてから、はじめて「2次分析」は可能になるからである。調査にもよるが、調査実施から数年で公開されるような調査はほとんどない(JGSSだと、調査からおよそ3〜4年後に公開)。たとえば、John Robinsonらの、『Language Policy』誌に2006年に掲載された論文は、米国GSSの2000年版のデータを分析しており、そのタイムラグは6年である。

最後に

以上のとおり、「2次分析」は、伝統的な質問紙調査に比べ、きわめて強力なメリットと、かなり深刻なデメリットをあわせ持つことがわかる。分析者の問題関心によって、つまり、どちらをどれだけ重視するかによって、使用の妥当性が変わってくるもので、一概に、「ランダムサンプリングだから素晴らしい」とか「データが古いからだめ」とか結論づけられる代物ではない。

教科書

この分野の日本語で読める教科書↓(英語はいっぱいある)

社会調査の公開データ―2次分析への招待

社会調査の公開データ―2次分析への招待