英語教育において良いエビデンスを得るためのリサーチデザイン：内的妥当性・外的妥当性（その3）

以下の記事のつづきです。

外的妥当性（代表性）

「母集団」というキーワード

本節では、外的妥当性について論じる。

外的妥当性の定義を再度述べると、特定の集団を対象にした当該の研究結果から、他の集団（理想的には母集団）に関する知見をどれだけ引き出せるかの程度である。こう考えるならば、ランダムサンプリングだけでなく、事例研究における転移可能性（＝当該研究が他研究にどれだけ知見を提供できるか）も当然含まれ得る（後述）。

このように、外的妥当性を担保する方法には様々なものがあるが、共通するアイディアは母集団である。ひとつが、母集団の値（真の値）を、眼前の研究結果から幅を持って推測する方法である。これを「母集団推測」型と呼ぼう。これらは、その幅を統計的に推測するものと事後に解釈的に推測するものに下位分類される。

もうひとつが、母集団の特定の場所に、眼前の研究結果を位置づけるもので、「母集団との関係の詳述」型と呼べる。母集団の真値を推測する代わりに、当該研究がその真値からどれだけずれているかを述べるわけである。この作業は完全に解釈的（非確率論的）に行われる。

以上の構図をイメージ化したものが図NNNである。

f:id:TerasawaT:20200412120852p:plain

図NNN 外的妥当性を担保する方法

母集団を推測する：ランダムサンプリング、便宜的サンプリング、研究統合

ランダムサンプリング

手元の限られたサンプルから母集団全体の真値自体を確定することはできないが、ランダムにとられたサンプルであれば、統計的な幅を持って推測できる。このメカニズムは直感的にもわかりやすいだろう。「スープの味を知りたいなら、鍋全体をよくかきまぜたうえで、一、二さじ味見をすればよい」という比喩は有名だが、同様に、母集団からランダムに取り出された被験者・調査参加者が「全体の縮図」になっていると想像することは難しくない。

直感的に理解しやすいメカニズムとは対照的に、具体的な実施方法については（少なくとも英語教育研究では）あまり理解されていないと思われる。以下、どのように実施がなされているか簡潔に紹介する。

名簿の確定

どんな調査にせよ母集団を定義することは重要だが、ランダムサンプリングではさらに名簿レベルでの具体的定義が必須である。この名簿のことをサンプリング台帳と呼ぶ。たとえば、母集団を概念的に「日本人」と定義するのなら、「すべての日本人」が理論上掲載されている名簿を確定しなくてはならない。日本の大規模社会調査では、住民基本台帳や選挙人名簿がよく用いられてきた¹。

また、日本の高校生を母集団にした場合、高校生全員のリストはおそらく入手できないため、次善の策として、複数名簿を組み合わせた多段階抽出が採用される。つまり、まず、国内の全中学校のリストをもとに k 校を抽出し、調査を依頼する。了承が取れ次第、調査校の在校生名簿に基づいて n 人を抽出するといった手続きである。

こうした点からわかるとおり、ランダムサンプリングの実施上のハードルは非常に高い。サンプリング台帳にアクセスすることは容易ではなく、そもそも使用可能な名簿自体が存在しないことも多い。さらに、調査段階で調査員は多数の場所を駆け回らなくてはいけないので、教室で質問紙をばらまく調査と比べ物にならないほど時間と労力がかかる。

したがって、ランダムサンプリングによる社会調査・学校調査のほとんどが、必然的に多数の研究者（および大学院生）が参加する大規模なプロジェクトになる。もっとも、コストは多大であるが、同時に非常に強力な手法であり、コストの問題を解決できる場合（例、外部資金の獲得）、ランダムサンプリングを選択することは望ましい。

緻密な調査遂行

なお、その強力さが発揮されるためには、サンプリングだけでは十分ではなく、きめ細かい調査遂行も求められる。ランダムに抽出されたサンプルが母集団の適切な代表値になるのは、回答脱落（不在者や回答拒否者など）がランダムに生じている場合だけである。偶然以外の事情で回答脱落が起きた場合、その結果はどんどん歪んでいく（たとえば、平日昼間にしか調査を行わなければ就労者は脱落するかもしれないし、学校への調査依頼が説明不足の場合、すでに縁故がある学校に偏るかもしれない）。

実際の調査では、回答脱落が起きないように細心の注意が必要になるが、細心の注意を払えば払うほど、コストは倍増していく²。この点も、ランダムサンプリングのハードルの高さである。

非ランダムサンプリング

ランダムサンプリングができない場合、サンプルの選択に恣意性が入らざるを得ず、外的妥当性は大幅に低下する。ただ、だからといって、非ランダムサンプリングの調査がすべて等しく劣っているというわけではなく、その質にはグラデーションがある。

表NNNに、英語教育で行われている代表的な調査を、母集団に対する想定という観点から整理した。

		サンプリング方法	母集団に対する想定	母集団推測	事例研究的
1	実査	ランダムサンプリング	サンプリング台帳と乱数をもとに抽出された人＝母集団の縮図	○	－
2		代表性に配慮した非ランダムサンプリング（エリアサンプリング等）	台帳・乱数の代わりに、種々の考慮（地域、属性等）を経て抽出した人＝母集団の縮図	△	－
3		特定の場所（教室等）での配布	その場所にいる人＝母集団の縮図	×	×～○
4		特定の組織（学校等）を通じて関係者に配布	その組織の関係者＝母集団の縮図	×	×～○
5	ウェブ調査	モニター利用調査	調査モニターのプール＝母集団。プールから抽出されたサンプル＝母集団の縮図	×／△	×～△
6		チェーンメール風ばらまき調査	たまたま回答した人＝母集団の縮図	×	×

○：優、△：可、×：劣

1番目のランダムサンプリング以外はすべて、非ランダムサンプリングである。

2番目は、ランダムネスによらず人為的に母集団の縮図になるように対処したサンプリングである。たとえば、学校の特徴（たとえば、国公私立、偏差値、都市度、学校規模、学科等）を調査設計者が総合的に考慮して、もっとも偏りが出ないと考えられる学校に調査を依頼する。

この考慮は、主観的・解釈的なものであり、母集団の真値の幅を客観的に推定できるものではない。たとえば、ある処遇が英語力向上に効果があったという研究結果を前にしても、当該サンプルが高学力層に偏っていると感じる人にとっては、「この効果は過大評価ではないか。学力が低い層も混ざっていたら効果は限定的に成るのでは」と主張するかもしれない。

この点は、客観的に結論が出るわけではないので、主観を擦り合わせるべく、丁寧な議論が行われなくてはならない。つまり、「こういう点からこのサンプルは偏っていない、代表性がある」ということが説得的に示す必要がある。

事例研究としての量的研究

3番目・4番目の教室や関係者に配付する調査は、英語教育研究で最もよく行われているタイプだと思われる。事後的な考慮が特になければ、特定の場所にいた人・特定の組織の関係者を「母集団の縮図」と見なすことになるわけで、いかにも恣意的であり、外的妥当性は低い。

しかしながら、配布対象が緩やかにコントロールできているという点では、妥当性が皆無というわけではない。たとえば、教室で質問紙を配付する場合、「○○大学の××の授業をとった学生（8割以上が△△学部）の回答」のようにサンプルの特徴づけが可能である。サンプルに関する文脈を詳述することで、当該研究の結果を母集団全体のどの位置に位置付けられるか議論できる。その点で、この手の調査は、母集団を推測するというよりも事例研究の一環として理解すべきだろう。

ここでの事例研究とは、理論的な貢献度の高い事例に注目し、その事例を総合的に調査・分析する研究である（ジョージ・ベネット, 2013）。事例研究において結果から母集団の真値を推測することは、不可能であるし、そもそも求められていない。そうではなく、当該の事例が母集団とどのような関係にあるか――たとえば、典型的な事例なのか、周辺的か、あるいは逸脱的か――を詳述することで、当該研究から得られる知見の位置づけを明確にすることが求められる。

その詳述が説得的であればあるほど、調査対象がイメージしやすくなり、ひいては母集団（および母集団内の下位集団）を理解するうえでのヒントになる。これは、一般的には転移可能性と呼ばれ、外的妥当性として説明されることはあまりないと思われるが、母集団との関係を示唆するものという点では外的妥当性の構成要素として見なしてもよいだろう。

ウェブ調査

5番目・6番目は、近年、急速に広がっているウェブ調査である。その拡大とは裏腹に、ウェブ調査の外的妥当性を全否定する意見も少なくない。ただし、実際のところ、マシなものもあればほとんど無意味なものまで、その質にはグラデーションがある。

5番目はウェブ調査会社に依頼し、同社のモニターを利用するタイプである。この場合、調査会社のモニターが母集団と見なされることになる。日本の有名調査会社の場合、モニター登録者数は非常に多く、数百万人を越えるものもある。また、幅広い層からモニターを集めたことを謳う調査会社もある（もっとも、企業としてそう言うほかないわけで、どれだけ信じていいかは不明である）。

そのため、モニターがあたかも「日本人の縮図」であるかのように錯覚しやすい。しかしながら、人数の多さは代表性を担保しない。また、この場合、調査回答者は、例外なく「調査会社のモニターに応募・登録し、かつ、調査依頼が来たらわざわざ回答する人」であり、「一般の人々」と等質と想定していいのか疑問が残る。ただし、モニターの基本属性に合わせてターゲットを限定することは可能であり、その点では、コントロールの度合いは比較的高い。その場合、事例研究として位置づけることも可能かもしれない。

一方、6番目、メール・SNSなどで質問紙をまるでチェーンメールのようにばらまく調査には、外的妥当性はほとんどないと言わざるを得ない。サンプリングをしていないという点以上に問題なのが、配布の文脈が完全に不明である点である。どのような人に質問紙が渡ったのかを事後的に考慮することができないので、事例研究として扱うこともできない。

システマティックレビュー・メタ分析

サンプリングとは発想が異なるが、外的妥当性を向上させるもう一つの方法が、複数の研究統合である。 EBM/EBPPの文脈では、システマティックレビューやメタ分析として浸透している。

システマティックレビュー・メタ分析の考え方をごく簡潔にのべると次の通りである。まず、特定の「処遇→アウトカム」を検証した過去の研究を、データベース等を使って網羅的に調べる。入手できた個々の研究を整理し、とくに因果効果の推定値を取り出す。その数値を統計的に統合する（この最後の段階のみを「メタ分析」と呼ぶこともある）。³

たとえば、ある指導法の英語力への効果を検証した研究を考えてみよう。指導法の名前でデータベースで検索すると、研究A（被験者10人）、研究B（同10人）、研究C（同100人）という3つの研究が該当した。各研究は、それぞれ 0.1, 0.1, 1.0 という効果を報告していたとする（例なので、数値の単位は無視されたい）。

この数値を統合するとき、最も原始的な方法が3つの値の平均をとるものである（つまり、(0.1 + 0.1 + 1.0) ÷ 3 = 0.4）。しかし、素直に考えれば、被験者数が異なる3つの研究を単純に平均化するのは不自然であり、研究Cにもっと重みをつけるのがフェアだろう。こうした点を考慮すると、研究Cの重みを受けて、0.4よりももっと大きな数値が、統合された値として算出される。⁴。

NNN節で見たとおり、研究の統合は、個々の研究よりもエビデンスの質が高いとされている。なぜ高くなるかといえば、外的妥当性が向上すると考えられているからにほかならない。つまり、個々の研究だけ見ていると、その研究のサンプルに引きづられた推論しかできないが、多くの研究を集めればよりバランスの取れた推論が可能になるということである。

しかしながら、この「多く集めればより妥当な結論が導ける」という前提には統計学的な根拠があるわけではない。たとえば、「普通の人」から適切に被験者が集められた研究Dと、きわめて特殊な集団から被験者が集められた研究Eがあったとしたときは、研究Dだけに注目するべきであり、研究Eとの統合はむしろ質を悪化させてしまう。

とはいえ、どのサンプルが「普通の人」でどのサンプルが「きわめて特殊」なのか自明であることは通常ないので、次善の策として、できるだけ多く集め、そのうえで、あまりに極端な研究は研究者の判断で除外するという方針がとられる。

研究者の判断に依存する点からわかるとおり、システマティックレビューにおける外的妥当性の担保はすぐれて解釈的な作業である。もっとも、これまでの議論と同様、解釈的な要素が混入しているからといって即「非科学的」と退けられるわけではなく、むしろ、個々の解釈（どういう基準で研究を収集したか、どのような研究が集まったか、何を外れ値として除外したか）を丁寧に述べることで、合意可能性を担保する努力が求められる。

外的妥当性の不備の例

最後に、既存の英語教育研究では、外的妥当性の点でどのような問題があったか、それらは今後どのように乗り越えられるのかを論じたい。

前述のとおり、英語教育では、外的妥当性の重要性は浸透していない。リサーチメソッドの教科書にサンプリング法について言及のないものもあるほどである。そうした状況を反映してか、「たくさん集めれば正確になる」という素朴な信念（誤信念）は蔓延している（たとえば、TOEFLの国別スコアを「受験者数が多いから信憑性がある」という根拠で国際比較に使う研究者がいるが、これは典型的な誤信念である）。本章で再三強調したとおり、真に重要なのはどれだけたくさん集めるかではなく、いかに母集団に配慮しながら集めるかである。

サンプリングの考慮

英語教育においても、大規模研究プロジェクトとして行われる研究においては、ランダムサンプリングと言わずとも何らかの適切なサンプリング方法が、まずは模索されるべきである。

既存の研究では、研究者のアクセスしやすい学校や人が恣意的に選ばれている場合も多い。こうせざるを得ない事情があることも理解できる。しかしながら、豊富な予算・人的リソースを投入できる大規模プロジェクトならば、縁故サンプリングありきですすめるのではなく、代表性に考慮したサンプリングがまずは検討されるべきである。そのためには、研究プロジェクトに（英語指導や言語習得の専門家だけでなく）調査法の専門知識をもった研究者が含まれるべきであることも指摘しておきたい。

事例研究という発想の転換

もっとも、研究者や大学院生が個人で行う実証研究では、代表性を考慮したサンプリングはしたくてもできない場合も多い。その場合には、事例研究として位置づけるという発想の転換が必要だろう。つまり、当該研究対象を、因果効果の数値だけに抽象化して論ずるのをやめ、むしろ現象を総合的に理解するための丁寧な記述に戦略を転換するのである。

事例研究として位置づけるのであれば、数値データだけでは不十分である。あるプログラムを導入した学校の調査であれば、学校の特徴や生徒のプログラムに対する反応、アウトカムに至るまでのプロセスなど包括的に記述することが必要である。必然的に、質的データ（インタビュー、授業観察など）のウェイトが上がることになる。

最後に、英語教育研究で（とくに卒論・修論のレベルで）頻繁に行われているチェーンメール風ばらまきアンケートであるが、こちらは、どのような工夫をしても外的妥当性の改善の余地はまったくないと言わざるを得ない。有意義な研究とするには、事例研究として対象集団の総合的理解に軌道修正するか、あるいは、サンプリングを丁寧に設計するかのどちらかしかないはずである。

なお、住民基本台帳にせよ選挙人名簿にせよ、概念上の「日本人」にあくまで近似するものである。抽出台帳の不完全性ゆえに、統計からこぼれ落ちてしまう「日本人」がいる（たとえば、在外邦人、自他ともに「日本人」という意識をもつ外国籍者）。この点は、社会調査論で昔から指摘されてきた難問である。↩
たとえば、大規模社会調査では、最初の調査依頼時にアクセスできなかったとしても（あるいは、断られたとしても）、繰り返し調査を依頼する。多数回の依頼によって、特定のタイプの人々の回答脱落は防げるとされている。↩
システマティックレビュー・メタ分析は、すでに多くの解説書が出ている。和書としては、山田・井上 (2012) 、岡田・小野寺 (2018) などを参照されたい。↩
実際には、研究Cの重みは単純に研究A・研究Bの10倍になるわけではない。重みは被験者数ではなく分散に基づいて計算されるからである。また、統計的仮定によっても重みの計算方法は異なる。↩