こにしき(言葉・日本社会・教育)

関西学院大学(2016.04~)の寺沢拓敬のブログです(専門:言語社会学)。

どれだけエビデンス概念を英語教育に適用できるか/できないか(その2)

昨日の記事の続きです。


英語教育研究との接点

では、英語教育研究がEBPPから(批判的に)学ぶには、どの論点に焦点化することが生産的だろうか。 結論から言うと、筆者は次のように考える。

  • エビデンスの定義は「因果効果の実証研究を格付けしたもの」とする (a-1)
  • 主として「つくる」「つたえる」の次元を検討する (b-1/b-2)
  • EBPP運動をとりまく社会的文脈は別稿に譲る

以上の境界設定は、かなり技術論寄りであり、社会的・政治的運動であるEBPPを、技術的な次元に矮小化する危険性があることは事実である。 しかしながら、既存の英語教育研究・英語教育政策を前提にすれば、この限定化には意義があると考える。

第1に、エビデンスの格付けというアイディアの有用性である。 英語教育研究では、国内外を問わず、EBMの誕生のはるか以前から、因果効果について論じる伝統があった(たとえば、「○○教授法を用いれば、英語力が伸びるか」「英語学習の開始年齢を早くすれば、英語力は向上するか」という問い)。 一方で、こうした研究成果の質が体系的に評価されることは少ない。その結果、知見は玉石混淆の状況であり、教育実践に活かされる形で研究統合が行われているとは言い難い。 こうした問題点を踏まえれば、エビデンスの「格付け」の側面を強調することには意義があるだろう。 この点の詳細はNNN節で検討する。

第2に、エビデンスを「つくる」「つたえる」に焦点化し、「つかう」は扱わない理由は、英語教育研究が「つくる」の段階に達していないからである。 EBMやEBPPで言うところの「つかう」は、実務者・政策決定者が研究成果を参照しながら、何をなすべきかを選択することであり、そのためにはエビデンスを集積したデータベースが不可欠である。 たとえば、医療(EBM)ではコクラン共同計画によるものが、社会政策ではキャンベル共同計画によるものが有名である。

しかしながら、英語教育分野にはそれに匹敵するものはない。 現場の英語教員が、自身の実践を改善するべく実証研究を探そうとしても、参照可能なデータベースはなく1、自ら一次文献に当たらざるを得ない(これは「つかう」というより実質的に「つたえる」の活動に近い)。 こうした状況を踏まえれば、とりあえず「つかう」以前の段階に焦点化して議論を展開することが無難だろう(詳細はNNN節)。

第三に、EBPP運動の社会背景・影響力についての検討を割愛する理由である。 当然ながら、この論点は英語教育研究も無縁ではない。 むしろ、前述の通り、英語教育研究は因果効果という考え方と親和的であり、また、認知科学から大きく影響を受けている(とりわけ心理学・言語学の影響が大きい)。 こうした事情から、非量的研究や社会科学研究はどちらかといえば低調であり、とりわけ教育研究一般と比較したときその低調ぶりは際立っている。

こうした状況を踏まえれば、「エビデンス(あるいは数値主義)の暴走」に警鐘を鳴らす意義は大きい。 しかしながら、以上の懸念は、EBPPという運動に起因するものというよりは、英語教育研究の固有の学的状況に起因するものであり、したがって、「英語教育研究批判」として包括的に検討したほうが生産的だろう2

エビデンスの格付け」とは?

英語教育界に蔓延する「効果」語り

前述の通り、英語教育研究には、特定の処遇の効果を実証的に検討する伝統があり、これは他の教育研究のなかでも特に際立った特徴である。 たとえば、英語教育では「○○を指導することの効果」「効果的な○○指導法」といったレトリックが浸透しているが、他の教育研究では、ストレートな因果関係で教育行為を論じることに慎重な場合も少なくない。 その背景の一つは、英語力のような数量化に馴染みやすいアウトカムばかりではないためだと考えられる。

教室指導と同様に、英語教育政策にも因果効果の枠組みが浸透している。 たとえば、近年の大学入試改革では「入試が変わらないから授業が変わらない/入試が変われば授業が変わる」という(不確かな)根拠をもとに、四技能型の民間試験の導入が推進されたことは記憶に新しい3。 また、小学校への英語教育導入も、早期開始が日本人の英語力向上に寄与するはずだという、(同じく不確かな)因果関係に基づいて推進された(寺沢, 2020)。

恣意的な選択という問題

因果効果という観点に注目する限り、英語教育は一見するとEBEの「先駆者」であるが、実際には以下の問題がある。

まず、権威主義によって、エビデンスの取捨選択が歪められるという問題である。 たとえば、著名な学者、いわゆる「カリスマ教師」、文部科学省教育委員会の人間、商業的に成功している出版物など、権威のある人物・媒体の主張は受け入れやすいが、その反面、研究成果に基づいた「地味」だが堅実な主張は埋もれてしまいやすい。

こうした歪みは、権威主義だけではなく、教師の指導ビリーフにも原因がある。 有効だと信じる指導法を支持してくれる研究結果は選択されやすく、反対に、都合が悪い結果は黙殺されやすいからである。

似たような状況は政策レベルでも起きている。 たとえば、日本の小学校英語教育の推進派は、とりわけその萌芽期は、早期英語教育の有効性を示した研究結果を選択的に強調する傾向があった。 文科省教育委員会も、小学校英語を導入する文脈においては、このような恣意的な取捨選択を多用してきた(寺沢, 2020)。

チェリーピッキングを避けるための格付け

こうした問題点は、「エビデンスのチェリーピッキング」(cherry picking of evidence) としてよく知られており (Parkhurst, 2006: Chap. 1)、その原因の少なくとも一部は、エビデンスを取捨選択するガイドラインを欠いていることだと考えられる。

事実、英語教育研究では、リサーチ方法論の隆盛にもかかわらず、研究の質を評価するガイドラインは発展していない4。 格付けは、研究者・教師が良識に基づいて行った研究に優劣をつけることに等しい。その意味で、非人間的な営みではあるが、こうした「有無を言わさぬ」格付けがあるからこそ、チェリーピッキングのリスクを軽減できている面は大きい。

エビデンス階層

もっとも、医療(EBM)は、質評価によるこうしたメリットをデメリットよりも重視したからこそ、格付けシステムが発展したと言える。 これは、エビデンス階層という名で知られている。

基本的な考え方

エビデンス階層の例を表NNNに示す。 これは、オックスフォード大学EBMセンターが2011年に発表した「治療による好影響に関するエビデンス階層」である (Oxford Centre of EBM, 2011)。 上層のエビデンスほど、意思決定に役立つものであるという宣言である。


  エビデンスの内容
Lv. 1(上層) ランダム化比較実験(実験群・対照群をランダムに割り当てた厳密な実験)のシステマティックレビュー
Lv. 2 個々のランダム化比較実験
劇的な効果を示した観察研究
Lv. 3 実験群・非実験群をランダムに割り当てていない比較研究
Lv. 4 症例を集めて比較した研究
Lv. 5(下層) 実験・調査データなしの、学理に基づく推論

表NNN オックスフォード大学EBMセンター「治療による好影響のエビデンス階層」(2011年)。筆者による意訳。


以下、もう少し具体的に説明しよう。

実証性

第1に、Lv. 4 と Lv. 5を分かつのは、実証的データの有無である。 たとえ既存の理論から考えて効果があると思われる処遇であっても、実際には効かないということは多々ある。 それは当然のことであり、当の「既存の理論」とはあくまで暫定的な理論だからである。 また、未知のメカニズムが効果を抑制している可能性も否定できない。 したがって、実際の効果を検証したもののほうが、机上の論理よりも、情報量が大きい。以上が、実証的データを優先する根拠である。

内的妥当性

第2に、Lv. 2・Lv. 3・Lv. 4の各境界はそれぞれの内的妥当性の強さに対応している。 内的妥当性とは、「処遇→アウトカム」における因果関係をどれだけ正確に、言い換えればどれだけバイアスが少なく、示すことができるかである。 たとえば、ある病気の患者に処遇Xを与えたところ治癒したとしたという事例があったとしよう(表のLv. 4 に相当)。 この事例が示唆に富むことは間違いないが、それだけで「処遇Xに効果があった」と結論づけるのは難しい。放っておいても(自然治癒力で)全く同じように治ったかもしれないし、本当に効いていたのはまったく注目されなかった別の処遇だったかもしれない。 したがって、効果をより正確に推定するためには、比較対照群(処遇Xを与えない群)を用意する必要がある(表のLv. 3に相当)

ただし、単に処置群・対照群を比較するだけでは不十分である。 「選択バイアス」が伴うからである。 たとえば、ある病気について重症者には処遇Xを与え、軽症者には何もしなかった(自然治癒力に任せる)という例で考えよう。 このとき、処遇の有無とアウトカム(治癒/非治癒)という2変数の関係だけを見ていると間違った結論を導きかねない(おそらく、「何もしなかった患者」のほうが治癒率が高くなるという矛盾めいた結果になる)。

このように処遇の有無が自発的に選択されるとき、因果関係の推定が不正確になる。 処遇・アウトカム以外の第三の変数(上の例では「重症者か軽症者か」)が介在するからである。 重症/軽症という変数であればまだわかりやすいが、これが未知の変数――あるいは研究者によって観測されていない変数――の場合、バイアスの大きさを事後的に評価するのは不可能である。

このバイアスの解決策が、ランダム化比較試験(RCT: Randomized Controlled Trial)である(表の Lv. 2 に相当)。 RCTは、患者に「処遇を与える/与えない」をランダムに決めてその後のアウトカムを比較する実験である。 ランダムに割り当てることにより、あらゆる第三の変数・未知の変数も、処置群と対照群にランダムに配分される。その結果、2つの群は処置の有無以外は等質の集団になり、これではじめて処遇Xの因果効果を正しく推定できる。

外的妥当性

第3に、Lv. 1 と Lv. 2 の境界は、外的妥当性に相当する。 外的妥当性とは、ある研究の結果が、他の集団(究極的には母集団)にもどれだけ適用できるかである。

たとえば、A氏という研究者が、RCTを用いて処遇Xの因果効果を推定したとしよう。 このとき、この効果はあくまでA氏が集めた実験参加者においては効果的だったという限定がつく。 したがって、B氏の実験参加者、C氏の実験参加者、D氏の…等々、他の人々にも同様の効果が得られる保証はない。

因果効果をリサーチする目的は、できるだけ多くの人に(究極的には人類全体に)効く方法を見つけることにあり、そのためには、特定のサンプルだけではなく、より多くの、より多様なサンプルにおける効果を知る必要がある。 ここでEBMが一般的に採用しているのは、システマティックレビューである(表 Lv. 1 に相当)。 個々のRCTの効果をメタアナリシスによって統合し、より大きな集団から得た一般的効果を推計する手法である。

格付けを貫く原理

以上、医療(EBM)を例に、エビデンス階層の実際を簡単に説明した。 EBMから英語教育研究が学ぶべきは、格付けのパッケージそのものではなく、格付けの背後にある原理である(当然ながら、医療で発展したパッケージをそのまま教育に転用できるはずがない)。

その原理とは、前述の実証データ、内的妥当性、外的妥当性の3点である。 実証データの重要性は論をまたないと思うが、慎重な考慮を必要とするのが内的妥当性と外的妥当性の順序である。

表NNNのEBMの例では、内的妥当性→外的妥当性の順序だった。 具体的に言えば、まずRCTで内的妥当性を担保した上で、さらに、システマティックレビューで外的妥当性を担保するという手続きである。

しかしながら、2つの妥当性はそもそもまったく別種のものであり、優先度が理論的に決まっているわけではない。 EBMの「内的妥当性→外的妥当性」という順序はあくまで医療分野における慣習的なものと理解すべきだろう(もっとも、「慣習的」とは言っても、きちんとした理由のある「慣習」である。後述)。 したがって、あらゆる分野がEBMの順序を踏襲する必然性はない。 つまり、「外的妥当性→内的妥当性」という順序も当然あり得るはずである。 さらに言えば、そもそも2つの妥当性に順序を想定する必要があるのかという議論もあり得る。これについては、NNN節で論じる。


(つづく)


  1. もちろん言語教育研究分野にもデータベースのプロジェクトはあるが――たとえば、Instruments for Research into Second Languages (IRIS) ――、前述の「玉石混淆」の問題点をクリアしているものはほぼない。そもそも、この手のデータベースの設計思想(「言語研究に学術的な貢献をする」)は、EBPPのそれ(「実務者の意思決定に貢献する」)とは大きく異なるだろう。

  2. 特に英米の英語教育研究あるいは応用言語学では、こうした状況への問い直しは近年特に進んでいる(e.g. Pennycook, 2001; Block, 2003; Atkinson, 2011)。

  3. この論拠に「不確かな」と注釈をつけざるを得ない理由は、寺沢 (2019未草) を参照。

  4. もちろん「より良いリサーチとは?」といった議論は行われているが、せいぜいリサーチ法の教科書などで散発的に論じられている程度である。また、言語教育研究・応用言語学におけるレビュー論文には、メタアナリシスをしているものも含めて、質に対する評価をしていないものが多い。もっとも、格付けによって質が劣るものをスクリーニングしてしまっては、研究の数が確保できないという事情もあるかもしれない。