こにしき(言葉・日本社会・教育)

関西学院大学(2016.04~)の寺沢拓敬のブログです(専門:言語社会学)。

英語教育において良いエビデンスを得るためのリサーチデザイン:内的妥当性・外的妥当性(その1)

以下の記事のつづきです。

なお、一連の記事は、拙編著『 英語教育のエビデンス: これからの英語教育研究のために 』を執筆していたときの下書きです。(2022年10月20日追記)


NNN章の図NNNで示したとおり、英語教育において良いエビデンスを得るには、概略的に言って、(1) 因果効果の科学的推論、(2) 処遇の定義・測定方法の合意形成、(3) アウトカムの定義・測定方法の合意形成が必要である。

以上のうち、本章では形式的に論じやすい (1) に焦点をあてる。 特に、そのコアを成す原理である内的妥当性・外的妥当性について具体的に論じたい。

エビデンス階層について

具体的な議論に入る前に、エビデンス階層と内的/外的妥当性の関係をあらためて確認したい。

NNN章で論じたとおり、エビデンス階層は、エビデンスの質を格付けするシステムである。 格付けを構成する原理が、内的妥当性・外的妥当性で、これらがそれぞれ高いほど良いエビデンスということになる。

両者はまったく別種の原理であるが、あえて共通点を見出すと、推定におけるバイアスの低減にかかわるという点で似ている。 つまり、内的妥当性は因果効果における選択バイアスに、外的妥当性は被験者(あるいは調査参加者)のサンプリングバイアスにそれぞれ対応するものである。

また、バイアスを低減するには、大別して2つのアプローチがある。 ひとつが、確率の力、すなわちランダムネスを利用した非人為的な方法であり、 もうひとつが、事後的に様々な工夫を行うことによる非確率的、つまり人為的な方法である。 一般的に言って、バイアスを確率的に評価できる前者が圧倒的に強力である。 一方、後者は、様々な仮定に基づきながら分析結果を構成するため、どうしても恣意的な部分が残る。

以上を整理すると表NNNのようになる。 内的/外的妥当性、横の行にバイアス低減の方法(非人為的/人為的)が並ぶ。


I. 内的妥当性 E. 外的妥当性
P. 確率的(非人為的)方法 (PI) ランダム割当による比較(RCT) (PE) ランダムサンプリング
N. 非確率的(人為的)方法 (NI) 様々な統計的因果推論方法 (NE-1) 研究を多数集めて統合(システマティックレビュー/メタアナリシス)
(NE-2) 理論・背景知識・常識に照らして妥当なサンプリング
(NE-3) 文脈に関する豊富な記述

ここで最も強力な方法は、言うまでもなく、内的/外的妥当性いずれにもランダムネスを利用する PI & PE の組み合わせである。 つまり、ランダムサンプリングで集めた被験者をに対し、処遇をランダムに割り当てて、その後、アウトカムを比較する方法だが、現実的には非常に難しい1

したがって、次の方策として、内的/外的妥当性のいずれかに強力な確率的方法を用い、残りの一方を人為的な工夫で対処することが考えられる。 事実、医療(EBM)において一般的なエビデンス階層で最良のエビデンスとされているものは、内的妥当性を毀損するバイアスを確率的に制御(PI)したうえで、メタアナリシスにより外的妥当性にかかわるバイアスを人為的に低減(NE)したものである。2

一方、教育政策や一般度の高い教育実践など、多くの人が関与する処遇については、まずランダムサンプリングで外的妥当性を確率的に考慮(PE)したうえで、それを人為的工夫(具体的には統計手法)で内的妥当性の向上を図る(NI)というアプローチも当然ありえる。

以上の議論が示しているのは、「RCTのシステマティックレビュー」が常に最善の選択というわけではなく、分野や現象、文脈によって、異なるエビデンス階層(観察データを用いた方法)があり得るということである。 エビデンスに基づく教育(EBE)をめぐっては、推進派も慎重派もしばしばRCTの評価をめぐって論を戦わせてきたが、そもそもそのような焦点化は、医療(EBM)の特定の手続きに過度に引きづられた議論である。 エビデンス概念一般という点からは少々的を外していると思われる。

そもそも階層化する必要があるのか

以上をさらに敷衍すると、エビデンスの質を考える上で本当に重要なのは、外的/内的妥当性であって、階層(レベル分け)ではないと述べることも可能である。

事実、その点にはすでに批判がある。 Stegenga (2014) は、エビデンス階層のカテゴリカルな格付け方法は、個々の実証研究を分類する方法として精度が悪く、また、硬直的すぎるとして、全面的に廃棄すべきだとしている。 ここまで強硬な批判でなかったとしても、エビデンス階層のレベル分けを固定的にとらえる見方は旗色が悪い たとえば、NNN章で見たエビデンス階層(表NNN)の提案元であるオックスフォードEBMセンターからして、これはランキングではなく、実際の運用は柔軟にすべきであると注意を喚起している (Howick et al. 2011)。

「RCTのシステマティックレビュー」を最上位に置くというアイディアも、限られた時間のなかで個々の患者に最適な処遇を探すという文脈で発展してきたものであると考えたほうがよいだろう。 たしかに、このような研究の文脈でランダムサンプリングは想定しづらい (「特定の病気の患者全員」という母集団を設定するのがまず困難であるし、仮に可能だとしても、そこからランダムに選ばれた患者に実験に協力してもらうのは至難の業だろう)。 対象が集団である場合には、別の優先順位の付け方があり得るし、エビデンスを評価する時間が十分にあるのなら、そもそも優先順位をつける必要すらないかもしれない(個々の研究を丁寧に見ればよい)。

もしエビデンス階層という考え方を棄却するならば、「エビデンスに基づいた英語教育」という枠組みの存在意義にすら疑問が湧いてくる。 この疑問はもっともだが、だとしても、内的/外的妥当性という原理の重要性は揺るがないし、これらの原理にしたがって研究の質を評価するというアイディアは依然貴重であると思われる。

NNN章の議論と合わせて考えると、階層的な格付けシステムよりも、ドメイン知識も統合したチェックリスト型の評価ガイドラインのほうが有用ではないかと考えられる。図NNNにそのイメージを記した。

チェックリストの例

図NNNのうち、処遇・アウトカムの定義・測定はドメイン知識にかかわる多くの知見を文脈に即しながら検討しなければならないので一筋縄にはいかないが、内的/外的妥当性については形式的に議論しやすい。 この2原理は、英語教育研究のリサーチメソッドの教科書でも体系的に説明されることはあまり多くないようであり、ここで論じておくことは意義があるだろう。 以下、内的/外的妥当性の向上方法にどのようなものがあるか、それぞれ具体的に論じていこう。


つづく



  1. ランダムサンプリングかつランダム割当の数少ない実行例として、大規模調査で行われる質問紙実験がある(母集団からランダムに抽出された調査参加者に対し、異なる質問紙をランダムに与えることで、質問文(刺激文)の影響を見る実験)。しかしながら、一般的な教育研究においてこの種の研究デザインが利用できる文脈はほとんどないと考えられる。

  2. ただし、これはあくまで「一般的」な話である。医療においても、外的妥当性(サンプリング)により高い優先順位がつくことがあるからである。たとえば、Concato (2004) によると、RCTは、運用上、被験者を特定のタイプの患者に限定せざるを得ない、つまり外的妥当性が毀損される場合があり、その場合、サンプリングに配慮した観察研究のほうが良い成果を出す可能性がある。