2020-06-13

英語教育政策研究の理論と方法（その1）

研究ネタ

いま書いている論文（非査読）の下書きを貼っていきます。

1. はじめに

本稿の目的は、日本の英語教育政策に関する先行研究についてとくに方法論的な面から批判的に検討し、ありえるべき方向性を示すことである。なお、主たる検討対象は、日本の初等中等教育における英語科教育に関する政府（中央政府・地方政府）の政策に関する学術研究である。

1.1. 先行研究

日本の英語教育政策を対象にした研究は、国内外ですでに数多くなされてきた。代表的なもの（査読論文、およびそれに準じる学術系著書）¹に限定しても、Koike & Tanaka (1995), Butler & Iino (2005), Butler (2007), Seargeant (2008), Hashimoto (2011), Machida & Walsh (2014), Poole & Takahashi (2015), Imoto & Horiguchi (2015), Ng (2016), 山田 (2003), 奥野 (2007), 矢野 (2011), 寺沢 (2014), 広川 (2015), 江利川 (2018), 寺沢 (2018KATE), 寺沢 (2020) などがある。

このうち、非常に長いタイムスパンを対象にした政策史的研究（江利川 2018) と、戦後初期に焦点化した歴史的事例研究（寺沢 2014, 広川 2015) を除けば、ほぼすべてが1980年代以降の改革を対象としている。なかでも2000年代以降の事例が大半を占める。実際、2000年以降、英語教育改革は急加速し、いくつもの英語教育改革案が物議を醸したことは記憶に新しく（たとえば、英語第二公用語論、「『英語が使える日本人』の育成のための行動計画」、公立小学校への英語教育導入）、こうした「目立つ」政策の出現が、日本国内のみならず国外の英語教育・言語政策研究者の目を日本の事例に向けさせた一因だろう。

1.2. 類型化：「記述 vs. 規範」および「過程 vs. 内容 vs. 影響」

英語教育政策研究の視点・切り口は多岐にわたるので簡単に整理しよう。整理の上で便利な基準の一つが、人文社会科学で広く用いられている、規範的 vs. 記述的である（それぞれ「どうあるべきか？」「実際どうなっている（いた）のか？」という問い）。もう一つが、政策の一連の流れの中でどの側面に注目するかという観点であり、3つの理念型が指摘できる。第一に、ある政策が生まれるまでの過程・経緯（政治学の政策過程論における狭義の「政策過程」だけではなく、歴史的なダイナミズムもここに含まれるだろう）、第二に、その政策内容そのもの、そして第三に政策が実施された結果として生じた様々な影響である。

以上の2種類の類型を組み合わせたものが図NNNである。影響に関する規範的研究だけは現実に想定できないため、図の右下は空白になっているが、それ以外の計5つのパタンに類型化できる。

f:id:TerasawaT:20200613100301j:plain — 図NNN　英語教育政策研究の類型

5つのうち、より基礎的なものが、政策内容の記述的研究である。なぜなら、検討の対象とする政策において具体的に何が提案されているのかを確定しない限り、他のタイプの検討は不可能だからである（図の矢印は、各研究の前提・基礎をなしていることを表している）。ただし、この記述作業は、要するに、政府が宣言したことの（著者なりの）紹介・整理に過ぎないわけで、学術的新規性は必ずしも高くない。ゆえに、査読誌等の質の高い研究がこれのみに終始することはほとんどないだろう²。以上の理由から、図ではこのカテゴリを点線で表現した。

残る4つは、過程の記述的研究、過程の規範的研究、内容の規範的研究、そして、影響の記述的研究である。このなかで、数として多く、かつ、日本で最も存在感が高いと思われるのが、内容の規範的研究であり、これはいわゆる政策批判である（対照的に、過程の規範的研究は、政策決定の手続きに関する批判である）。

また、影響の記述的研究には、たとえば、 (a) 実施状況の事例研究（例、当該施策は実際のところどのように実行されたか？）、 (b) 当該プログラムの成果検証（例、児童生徒の英語力等は向上したか？）、 (c) 悪影響を含めた意図せざる結果の分析（例、施策を導入した結果、何が起きたか？）、 (d) 関与するアクターの政策受容（例、教育現場や子どもはどのように受け止めたか？）など様々なものが含まれる。(a) 以外のもの（とくに (d) ）が、狭義の政策研究（公共政策学）に含められることは必ずしも多くないだろうが、言語政策研究では一般的にこれらも言語政策の一要素と見なされる（Hult & Johnson, 2015）。

過程の記述的研究は、特定の英語教育政策がどのような審議過程・経緯で生まれてきたのかを記述するものであり、必然的に、当該政策が作り出された原因（背景要因）は何かという因果的説明を前提にする。国際誌における日本を対象にした英語教育政策研究の多くはこのタイプである（e.g. Butler, 2007; Seargeant, 2008). この理由として、国際誌では、特定の国の政策を対象にした規範的研究よりも、果的説明を抽出する理論志向の研究が好まれやすいという説明が考えられる。

ただし、説明モデルを提示するからこそ、このタイプの研究は規範的研究の基礎となりえる。たとえば、政策批判は、実質的には政策意図の批判である（逆に言えば、文章批判・文体批判などではない――「この政策文書の日本語がおかしい」「文体に格調がない」などといった批判はナンセンスである）。そして、政策の意図は、それまでの経緯を把握していなければ確定できない（たとえば、学習指導要領の文言は非常に抽象的・玉虫色であるため、文言だけを眺めていても、政策意図を明確に読み取るのは難しい）。過程が的確に理解されているほど、政策批判の鋭さは高まり、逆に、政策意図に対する理解が大雑把であれば、政策批判は「毒にも薬にもならない」ものになったり、最悪の場合、的外れなものになってしまう。

このように、過程の記述的研究は、国内外の英語教育政策研究において、特に重要な位置を占めている。しかしながら、後述するとおり、このタイプの先行研究は多くの問題点をはらんでおり、多くの改善が必要である。以下、本稿では、過程の記述的研究に焦点を当て、先行研究にはどのような問題があるか、そして、それをどのように修正していけばよいかを論じていく。

（つづく）

ただし、日本の英語教育政策（研究）を論じる上で、査読論文・学術系著書のみに限定するのは慎重でありたい。第一に、研究者による政策論は様々な媒体で発表される事が多く、その中には一般書やオピニオン誌での記事、紀要論文なども含まれる。第二に、狭義の英語教育政策研究者だけでなく、元・英語教育政策関係者とも呼び得る教育関係者（たとえば、教育行政出身の大学英語教員）が商業誌などで政策論を展開することも多い。↩
実際、紀要論文や商業誌の記事では、この手のもの――学習指導要領やその解説を右から左に流しただけのようなもの――はしばしば見かける。しかしながら、例外的に学術的価値を期待できる研究も想定可能である。それは、既知ではない政策に関する記述的研究である。たとえば、特定の地方自治体や他国の英語教育政策を記述的に紹介する場合がこれに相当する。一方、日本政府の政策を対象とした研究であっても、学習指導要領などではなく予算措置のような注目が集まりづらい部分に注目した研究は、記述だけでも十分価値のあるものになるだろう。↩

2020-05-11

De Swaan: 世界言語システム論と Q-value

Abram de Swaan の Words of the World を読了。

世界言語システムとは何か
各言語のコミュニケーション価値を表す指標、Q-value
頻出するアノマリー？
非常にざっくりしとした印象

Words of the World: The Global Language System

作者:De Swaan, Abram
発売日: 2002/01/21
メディア: ハードカバー

アブラム・デ・スワーン、オランダの社会学者。言語社会学者というわけではなく、広い意味での比較社会学の研究者らしい（この著作以前には福祉制度比較の研究をしていたとある）。また、タイムリーにも今月に日本語訳が出版される本は、ジェノサイドをテーマにしている（『殺人区画』アブラム・デ・スワーン(著) - 法政大学出版局）。

De Swaan の世界言語システム／グローバル言語システム論¹は、日本の英語教育学者／社会言語学者にはほとんど知られていないようだ（Google Scholar を検索したことによる印象）。自分も、5年前にとあるハンドブックを読むまでは知らなかったので人のことは言えないが、日本の学者は結構好きそうな議論のような気がするので意外。

世界言語システムとは何か

読み終わってから気づいたのだけど、ウィキペディアにものすごく親切丁寧な記事があった。

Global language system - Wikipedia

こんな良い仕事をしたのは誰！？これじゃ、本を読む必要がなくなっちゃうじゃないか（笑）

細かい論点は上の記事に譲るとして、世界言語システム論の基本的なアイディアは、かなり経済学寄りで、言語は超公共財 (hypercollective goods)であるというもの²。言語能力は所有／非所有をコントロールできる財ではなく、かつ、自分以外の他者が所有するとむしろ利益が上がる（ネットワーク外部性）。だから、人々は、ネットワーク外部性の観点から利益が上がりそうな言語を予想（expect）し、言語選択（L2としての学習言語の選択、子供への言語継承等）を繰り返すというもの。

各言語のコミュニケーション価値を表す指標、Q-value

世界言語システム論の唯一無二の特徴（議論の余地のある特徴でもある）が、Q-value である。各言語のコミュニケーション価値を相対的に表す指標である。この数値が高い言語は低い言語よりも、コミュニケーション可能な人口が潜在的に多いことを意味している。そして、「価値が高い」と人々が認識される言語ほど、人々の言語選択が増える。

Q-value のアイディア自体は明快かつ説得的だが、問題はその定義である。

以下が、 $言語_i$ のQ-value （ $Q_i$ ）の定義である。（言語が n 個あったとすると、Q-valueは $Q_1, Q_2, ... Q_n$ と n個がアウトプットされる）

$\displaystyle{ Q_i = 話者シェア_i \times 中心性_i = \frac{話者数_i}{全話者数} \times \frac{複言語話者数_i}{全複言語話者数} \\ }$

計算方法は小学校の算数レベルだが、その実質的な意味がよくわからない。「全人口に占めるX話者の割合」と「全多言語話者人口に占める〈X語を話す多言語使用者〉の割合」の積で表現するところはよくわからない。なぜそこが掛け算？³

頻出するアノマリー？

定義からして違和感のあるQ-value だが、実際、うまく説明できない場合があることはデ・スワーンも認め、詳細に分析している。

その代表として本書で事例研究が行われているのは、ルワンダとボツワナである。

両国とも、国内住民の多くがローカル言語（それぞれルワンダ語・ツワナ語）に通じており、Q-valueは旧宗主国の言語（フランス語・英語）よりも圧倒的に高い。にもかかわらず、国内の公的機能のほとんどが旧宗主国言語で行われている。

デ・スワンは、こうした事例を「アノマリー」（理論的予測から逸脱する部分）と呼び、詳細に分析している。歴史的・社会的機能がこのアノマリーを生じさせたとしている（それ自体はきわめて納得の行く説明である）。

しかし、そもそも理論がカチッとしていない以上、これはアノマリーなのだろうか？もともとの理論に歴史的・社会的要因を含めていれば「アノマリー」にはならなかったのでは？という違和感のほうが強い。

非常にざっくりしとした印象

Q-value の明快さは魅力的だが、あらゆる言語共同体におけるあらゆる言語レパートリーに関するコミュニケーション価値という指標は野心的すぎるのではないかと思った。というのも、グローバル化以前も以後も、言語選択において言語共同体は閉じてはいないわけで（とくに近代化が進んだ地域の場合）。常に、国際的な（＝共同体外の）言語状況を見ながら人は各言語への「期待 (expectation)」をふくらませるわけなので。

言語を固定するか、共同体を固定するかしないと、無難な指標はできないんじゃないかという気がした。

この用語から明らかな通り、ウォーラステインの世界システム論をベースにしている。↩
もっとも、言語は “hypercollective goods” であるというアイディアは、比喩ベース、常識ベースの議論にとどまる。集合財に関する経済学の理論研究や実証研究の成果に基づいて精緻化されているわけではない。↩
一応、「中心性はウェイトだよ」みたいなことが書いてあったが、このウェイトという説明もわかるようでよくわからない。実質的にどういうウェイト？↩

2020-05-10

OneDrive共有リンクの「編集を許可する」は、編集権限の付与だと理解していないと悲しい事故が起きる

オンライン授業の一環で、MSオフィス系ファイルを本学のOneDriveで配布していたところ、何度も事故が起きました（以下に説明）。

同僚の方々に協力していただき、いろいろ検証した結果、私が OneDrive共有リンクの考え方を根本的に勘違いしていたことがわかりました。ご協力いただいた方々、ありがとうございます。

OneDrive共有リンクの考え方は一言で言えば、「リンクを踏んだユーザーに編集権限を付与」のようです。

ファイルそのものの編集ステータスを操作するわけではなく、また、編集可に招待するゲートを操作するわけでもありません。一般的なオンラインストレージの考え方と、おそらくかなり発想がことなります。（私もDropboxのイメージで使っていたため失敗しました）

どういうことか、図解したほうがわかりやすいとおもうので、以下に掲載します。

図解

f:id:TerasawaT:20200510225538j:plain

f:id:TerasawaT:20200510225548j:plain

f:id:TerasawaT:20200510225556j:plain

要するに、一度編集許可リンクを踏んだユーザーは、「アクセス許可の管理」メニューから当該リンクを削除しない限り、編集できる状態が続くということです。

この「地雷ポイント」がクリティカルになる状況

この地雷ポイントで事故が起きるのは、

MSオフィス系ファイルを
オンライン編集ではなく、ダウンロードしたうえで編集してほしい

と考えて配布している場合です。

具体的には、エッセイやレポートのテンプレートを配付する場面です。

私の授業で起きた事故がまさにこれでした。

「このファイルはテンプレです。ダウンロードしたうえで自由に編集して下さい。この注意書きは提出前に消して下さい」といった注意書きを、ファイル冒頭に掲げていました。すると、受講生の一人が間違えて注意書きもろとも上書きしてしまいました。結果、後から訪れた人は「ダウンロードしてね」という指示など思いもよらず、上書き保存を繰り返すという事故につながりました。

ストレージのように考えるのは危険

ところで、そもそもこれがなぜ地雷なのかというと、共有リンクを生成する場合、「編集を許可する」はデフォルトなのです。これに気づかずファイルをばらまいてしまうと、後から気づいて「編集を許可する」のチェックボックスを外したとしても、最初のリンクを踏んだユーザーは編集が依然可能です。

しかも、私の場合は、最初のリンクを削除しなければ、いつまでたっても編集できるということに気づくのに事故発生から4日かかりました。さらに、ググってこの解決法をつきとめたわけではなく（私が閲覧したマ社および関係者の書いた記事には言及がありませんでした）、私が独自の検証をしてみて、それに気づきました。（マニュアルであればどこかに書いてあったのかもしれませんが）

というわけで、「オンライン編集」とは無縁のPDFや音声ファイルなどで配布している方にはまったく関係ありません。MSオフィス系ファイルに関係した地雷ポイントです。

また、グーグルドキュメントのように、最初からオンライン共同編集を想定している場合も、こういうのは「事故」とは呼ばないでしょう。

私のように、ストレージだと思いこんで、オフィス系ファイルを配布し、編集権限のコントロールが甘いと、この地雷はクリティカルになります。

なお、私はテンプレート等の配付には今後、OneDriveを使うのはやめます（従来どおり、Dropboxを使います）。今回の事故の原因は私のミスには違いありませんが、デフォの「編集を許可する」を「毎回きちんとミスなどなく解除する」自信がありません。もっと率直に言うと、この点は典型的なヒヤリハット案件（ミスを誘発する案件）だと思います。

どうかみなさまもご注意を。

2020-04-12

英語教育において良いエビデンスを得るためのリサーチデザイン：内的妥当性・外的妥当性（その3）

以下の記事のつづきです。

外的妥当性（代表性）

「母集団」というキーワード

本節では、外的妥当性について論じる。

外的妥当性の定義を再度述べると、特定の集団を対象にした当該の研究結果から、他の集団（理想的には母集団）に関する知見をどれだけ引き出せるかの程度である。こう考えるならば、ランダムサンプリングだけでなく、事例研究における転移可能性（＝当該研究が他研究にどれだけ知見を提供できるか）も当然含まれ得る（後述）。

このように、外的妥当性を担保する方法には様々なものがあるが、共通するアイディアは母集団である。ひとつが、母集団の値（真の値）を、眼前の研究結果から幅を持って推測する方法である。これを「母集団推測」型と呼ぼう。これらは、その幅を統計的に推測するものと事後に解釈的に推測するものに下位分類される。

もうひとつが、母集団の特定の場所に、眼前の研究結果を位置づけるもので、「母集団との関係の詳述」型と呼べる。母集団の真値を推測する代わりに、当該研究がその真値からどれだけずれているかを述べるわけである。この作業は完全に解釈的（非確率論的）に行われる。

以上の構図をイメージ化したものが図NNNである。

f:id:TerasawaT:20200412120852p:plain

図NNN 外的妥当性を担保する方法

母集団を推測する：ランダムサンプリング、便宜的サンプリング、研究統合

ランダムサンプリング

手元の限られたサンプルから母集団全体の真値自体を確定することはできないが、ランダムにとられたサンプルであれば、統計的な幅を持って推測できる。このメカニズムは直感的にもわかりやすいだろう。「スープの味を知りたいなら、鍋全体をよくかきまぜたうえで、一、二さじ味見をすればよい」という比喩は有名だが、同様に、母集団からランダムに取り出された被験者・調査参加者が「全体の縮図」になっていると想像することは難しくない。

直感的に理解しやすいメカニズムとは対照的に、具体的な実施方法については（少なくとも英語教育研究では）あまり理解されていないと思われる。以下、どのように実施がなされているか簡潔に紹介する。

名簿の確定

どんな調査にせよ母集団を定義することは重要だが、ランダムサンプリングではさらに名簿レベルでの具体的定義が必須である。この名簿のことをサンプリング台帳と呼ぶ。たとえば、母集団を概念的に「日本人」と定義するのなら、「すべての日本人」が理論上掲載されている名簿を確定しなくてはならない。日本の大規模社会調査では、住民基本台帳や選挙人名簿がよく用いられてきた¹。

また、日本の高校生を母集団にした場合、高校生全員のリストはおそらく入手できないため、次善の策として、複数名簿を組み合わせた多段階抽出が採用される。つまり、まず、国内の全中学校のリストをもとに k 校を抽出し、調査を依頼する。了承が取れ次第、調査校の在校生名簿に基づいて n 人を抽出するといった手続きである。

こうした点からわかるとおり、ランダムサンプリングの実施上のハードルは非常に高い。サンプリング台帳にアクセスすることは容易ではなく、そもそも使用可能な名簿自体が存在しないことも多い。さらに、調査段階で調査員は多数の場所を駆け回らなくてはいけないので、教室で質問紙をばらまく調査と比べ物にならないほど時間と労力がかかる。

したがって、ランダムサンプリングによる社会調査・学校調査のほとんどが、必然的に多数の研究者（および大学院生）が参加する大規模なプロジェクトになる。もっとも、コストは多大であるが、同時に非常に強力な手法であり、コストの問題を解決できる場合（例、外部資金の獲得）、ランダムサンプリングを選択することは望ましい。

緻密な調査遂行

なお、その強力さが発揮されるためには、サンプリングだけでは十分ではなく、きめ細かい調査遂行も求められる。ランダムに抽出されたサンプルが母集団の適切な代表値になるのは、回答脱落（不在者や回答拒否者など）がランダムに生じている場合だけである。偶然以外の事情で回答脱落が起きた場合、その結果はどんどん歪んでいく（たとえば、平日昼間にしか調査を行わなければ就労者は脱落するかもしれないし、学校への調査依頼が説明不足の場合、すでに縁故がある学校に偏るかもしれない）。

実際の調査では、回答脱落が起きないように細心の注意が必要になるが、細心の注意を払えば払うほど、コストは倍増していく²。この点も、ランダムサンプリングのハードルの高さである。

非ランダムサンプリング

ランダムサンプリングができない場合、サンプルの選択に恣意性が入らざるを得ず、外的妥当性は大幅に低下する。ただ、だからといって、非ランダムサンプリングの調査がすべて等しく劣っているというわけではなく、その質にはグラデーションがある。

表NNNに、英語教育で行われている代表的な調査を、母集団に対する想定という観点から整理した。

		サンプリング方法	母集団に対する想定	母集団推測	事例研究的
1	実査	ランダムサンプリング	サンプリング台帳と乱数をもとに抽出された人＝母集団の縮図	○	－
2		代表性に配慮した非ランダムサンプリング（エリアサンプリング等）	台帳・乱数の代わりに、種々の考慮（地域、属性等）を経て抽出した人＝母集団の縮図	△	－
3		特定の場所（教室等）での配布	その場所にいる人＝母集団の縮図	×	×～○
4		特定の組織（学校等）を通じて関係者に配布	その組織の関係者＝母集団の縮図	×	×～○
5	ウェブ調査	モニター利用調査	調査モニターのプール＝母集団。プールから抽出されたサンプル＝母集団の縮図	×／△	×～△
6		チェーンメール風ばらまき調査	たまたま回答した人＝母集団の縮図	×	×

○：優、△：可、×：劣

1番目のランダムサンプリング以外はすべて、非ランダムサンプリングである。

2番目は、ランダムネスによらず人為的に母集団の縮図になるように対処したサンプリングである。たとえば、学校の特徴（たとえば、国公私立、偏差値、都市度、学校規模、学科等）を調査設計者が総合的に考慮して、もっとも偏りが出ないと考えられる学校に調査を依頼する。

この考慮は、主観的・解釈的なものであり、母集団の真値の幅を客観的に推定できるものではない。たとえば、ある処遇が英語力向上に効果があったという研究結果を前にしても、当該サンプルが高学力層に偏っていると感じる人にとっては、「この効果は過大評価ではないか。学力が低い層も混ざっていたら効果は限定的に成るのでは」と主張するかもしれない。

この点は、客観的に結論が出るわけではないので、主観を擦り合わせるべく、丁寧な議論が行われなくてはならない。つまり、「こういう点からこのサンプルは偏っていない、代表性がある」ということが説得的に示す必要がある。

事例研究としての量的研究

3番目・4番目の教室や関係者に配付する調査は、英語教育研究で最もよく行われているタイプだと思われる。事後的な考慮が特になければ、特定の場所にいた人・特定の組織の関係者を「母集団の縮図」と見なすことになるわけで、いかにも恣意的であり、外的妥当性は低い。

しかしながら、配布対象が緩やかにコントロールできているという点では、妥当性が皆無というわけではない。たとえば、教室で質問紙を配付する場合、「○○大学の××の授業をとった学生（8割以上が△△学部）の回答」のようにサンプルの特徴づけが可能である。サンプルに関する文脈を詳述することで、当該研究の結果を母集団全体のどの位置に位置付けられるか議論できる。その点で、この手の調査は、母集団を推測するというよりも事例研究の一環として理解すべきだろう。

ここでの事例研究とは、理論的な貢献度の高い事例に注目し、その事例を総合的に調査・分析する研究である（ジョージ・ベネット, 2013）。事例研究において結果から母集団の真値を推測することは、不可能であるし、そもそも求められていない。そうではなく、当該の事例が母集団とどのような関係にあるか――たとえば、典型的な事例なのか、周辺的か、あるいは逸脱的か――を詳述することで、当該研究から得られる知見の位置づけを明確にすることが求められる。

その詳述が説得的であればあるほど、調査対象がイメージしやすくなり、ひいては母集団（および母集団内の下位集団）を理解するうえでのヒントになる。これは、一般的には転移可能性と呼ばれ、外的妥当性として説明されることはあまりないと思われるが、母集団との関係を示唆するものという点では外的妥当性の構成要素として見なしてもよいだろう。

ウェブ調査

5番目・6番目は、近年、急速に広がっているウェブ調査である。その拡大とは裏腹に、ウェブ調査の外的妥当性を全否定する意見も少なくない。ただし、実際のところ、マシなものもあればほとんど無意味なものまで、その質にはグラデーションがある。

5番目はウェブ調査会社に依頼し、同社のモニターを利用するタイプである。この場合、調査会社のモニターが母集団と見なされることになる。日本の有名調査会社の場合、モニター登録者数は非常に多く、数百万人を越えるものもある。また、幅広い層からモニターを集めたことを謳う調査会社もある（もっとも、企業としてそう言うほかないわけで、どれだけ信じていいかは不明である）。

そのため、モニターがあたかも「日本人の縮図」であるかのように錯覚しやすい。しかしながら、人数の多さは代表性を担保しない。また、この場合、調査回答者は、例外なく「調査会社のモニターに応募・登録し、かつ、調査依頼が来たらわざわざ回答する人」であり、「一般の人々」と等質と想定していいのか疑問が残る。ただし、モニターの基本属性に合わせてターゲットを限定することは可能であり、その点では、コントロールの度合いは比較的高い。その場合、事例研究として位置づけることも可能かもしれない。

一方、6番目、メール・SNSなどで質問紙をまるでチェーンメールのようにばらまく調査には、外的妥当性はほとんどないと言わざるを得ない。サンプリングをしていないという点以上に問題なのが、配布の文脈が完全に不明である点である。どのような人に質問紙が渡ったのかを事後的に考慮することができないので、事例研究として扱うこともできない。

システマティックレビュー・メタ分析

サンプリングとは発想が異なるが、外的妥当性を向上させるもう一つの方法が、複数の研究統合である。 EBM/EBPPの文脈では、システマティックレビューやメタ分析として浸透している。

システマティックレビュー・メタ分析の考え方をごく簡潔にのべると次の通りである。まず、特定の「処遇→アウトカム」を検証した過去の研究を、データベース等を使って網羅的に調べる。入手できた個々の研究を整理し、とくに因果効果の推定値を取り出す。その数値を統計的に統合する（この最後の段階のみを「メタ分析」と呼ぶこともある）。³

たとえば、ある指導法の英語力への効果を検証した研究を考えてみよう。指導法の名前でデータベースで検索すると、研究A（被験者10人）、研究B（同10人）、研究C（同100人）という3つの研究が該当した。各研究は、それぞれ 0.1, 0.1, 1.0 という効果を報告していたとする（例なので、数値の単位は無視されたい）。

この数値を統合するとき、最も原始的な方法が3つの値の平均をとるものである（つまり、(0.1 + 0.1 + 1.0) ÷ 3 = 0.4）。しかし、素直に考えれば、被験者数が異なる3つの研究を単純に平均化するのは不自然であり、研究Cにもっと重みをつけるのがフェアだろう。こうした点を考慮すると、研究Cの重みを受けて、0.4よりももっと大きな数値が、統合された値として算出される。⁴。

NNN節で見たとおり、研究の統合は、個々の研究よりもエビデンスの質が高いとされている。なぜ高くなるかといえば、外的妥当性が向上すると考えられているからにほかならない。つまり、個々の研究だけ見ていると、その研究のサンプルに引きづられた推論しかできないが、多くの研究を集めればよりバランスの取れた推論が可能になるということである。

しかしながら、この「多く集めればより妥当な結論が導ける」という前提には統計学的な根拠があるわけではない。たとえば、「普通の人」から適切に被験者が集められた研究Dと、きわめて特殊な集団から被験者が集められた研究Eがあったとしたときは、研究Dだけに注目するべきであり、研究Eとの統合はむしろ質を悪化させてしまう。

とはいえ、どのサンプルが「普通の人」でどのサンプルが「きわめて特殊」なのか自明であることは通常ないので、次善の策として、できるだけ多く集め、そのうえで、あまりに極端な研究は研究者の判断で除外するという方針がとられる。

研究者の判断に依存する点からわかるとおり、システマティックレビューにおける外的妥当性の担保はすぐれて解釈的な作業である。もっとも、これまでの議論と同様、解釈的な要素が混入しているからといって即「非科学的」と退けられるわけではなく、むしろ、個々の解釈（どういう基準で研究を収集したか、どのような研究が集まったか、何を外れ値として除外したか）を丁寧に述べることで、合意可能性を担保する努力が求められる。

外的妥当性の不備の例

最後に、既存の英語教育研究では、外的妥当性の点でどのような問題があったか、それらは今後どのように乗り越えられるのかを論じたい。

前述のとおり、英語教育では、外的妥当性の重要性は浸透していない。リサーチメソッドの教科書にサンプリング法について言及のないものもあるほどである。そうした状況を反映してか、「たくさん集めれば正確になる」という素朴な信念（誤信念）は蔓延している（たとえば、TOEFLの国別スコアを「受験者数が多いから信憑性がある」という根拠で国際比較に使う研究者がいるが、これは典型的な誤信念である）。本章で再三強調したとおり、真に重要なのはどれだけたくさん集めるかではなく、いかに母集団に配慮しながら集めるかである。

サンプリングの考慮

英語教育においても、大規模研究プロジェクトとして行われる研究においては、ランダムサンプリングと言わずとも何らかの適切なサンプリング方法が、まずは模索されるべきである。

既存の研究では、研究者のアクセスしやすい学校や人が恣意的に選ばれている場合も多い。こうせざるを得ない事情があることも理解できる。しかしながら、豊富な予算・人的リソースを投入できる大規模プロジェクトならば、縁故サンプリングありきですすめるのではなく、代表性に考慮したサンプリングがまずは検討されるべきである。そのためには、研究プロジェクトに（英語指導や言語習得の専門家だけでなく）調査法の専門知識をもった研究者が含まれるべきであることも指摘しておきたい。

事例研究という発想の転換

もっとも、研究者や大学院生が個人で行う実証研究では、代表性を考慮したサンプリングはしたくてもできない場合も多い。その場合には、事例研究として位置づけるという発想の転換が必要だろう。つまり、当該研究対象を、因果効果の数値だけに抽象化して論ずるのをやめ、むしろ現象を総合的に理解するための丁寧な記述に戦略を転換するのである。

事例研究として位置づけるのであれば、数値データだけでは不十分である。あるプログラムを導入した学校の調査であれば、学校の特徴や生徒のプログラムに対する反応、アウトカムに至るまでのプロセスなど包括的に記述することが必要である。必然的に、質的データ（インタビュー、授業観察など）のウェイトが上がることになる。

最後に、英語教育研究で（とくに卒論・修論のレベルで）頻繁に行われているチェーンメール風ばらまきアンケートであるが、こちらは、どのような工夫をしても外的妥当性の改善の余地はまったくないと言わざるを得ない。有意義な研究とするには、事例研究として対象集団の総合的理解に軌道修正するか、あるいは、サンプリングを丁寧に設計するかのどちらかしかないはずである。

なお、住民基本台帳にせよ選挙人名簿にせよ、概念上の「日本人」にあくまで近似するものである。抽出台帳の不完全性ゆえに、統計からこぼれ落ちてしまう「日本人」がいる（たとえば、在外邦人、自他ともに「日本人」という意識をもつ外国籍者）。この点は、社会調査論で昔から指摘されてきた難問である。↩
たとえば、大規模社会調査では、最初の調査依頼時にアクセスできなかったとしても（あるいは、断られたとしても）、繰り返し調査を依頼する。多数回の依頼によって、特定のタイプの人々の回答脱落は防げるとされている。↩
システマティックレビュー・メタ分析は、すでに多くの解説書が出ている。和書としては、山田・井上 (2012) 、岡田・小野寺 (2018) などを参照されたい。↩
実際には、研究Cの重みは単純に研究A・研究Bの10倍になるわけではない。重みは被験者数ではなく分散に基づいて計算されるからである。また、統計的仮定によっても重みの計算方法は異なる。↩

2020-04-02

英語教育において良いエビデンスを得るためのリサーチデザイン：内的妥当性・外的妥当性（その2）

以下の記事のつづきです。

内的妥当性

本節では、内的妥当性について検討する。

比較対象

具体的な方法論の前に、そもそも論として、比較対象を用意することの重要性を述べたい。このごく自明な点をあえて指摘したのは、英語教育にはしばしば比較対象なしで処遇の効果を主張する研究・報告が存在するからである。

たとえば、ある先進的な英語教育プログラムに挑戦した学校があったとする。この手の学校は、たいてい中間報告・最終報告などで成果を発表することになる。この際、もし生徒の英語力（あるいは別の能力・態度でもよい）が向上していた場合、プログラム導入の成果だとアピールする報告はよくある。これは、学校の報告書に限らず、研究者の学会発表にもしばしばあることである（たとえば、先進的プログラムに取り組む学校にアドバイザーとして入った研究者など）。

同校の成果を、同じプログラムを経験しなかった生徒の成果と比較しているわけではないので、プログラムの因果効果と主張するのは難しい。もっとも、そう言わざるを得ない事情もわかるが（補助金などを得ている場合はとくに「比較していないので効果はわかりません」などとは言いづらい）、いずれにせよ、内的妥当性は乏しいのである。

もっとも、教育研究において比較対象を用意できないことは少なくない。その際には、因果効果の考え方に厳密に依拠することは控えて、事例研究として包括的な記述を目指すのが本来の姿だろう。この点については、NNN節で述べる。

ランダム化比較試験（RCT）

では、ランダム化比較試験（RCT）について述べる。

NNN章での説明の繰り返しになるが、RCTは、その名の通り、処遇のする／しないを被験者にランダムに割り当てたうえで、一定期間後にアウトカムを比較し、因果効果を推定する。一般的に、内的妥当性の面で最も強力な手法である。

たとえば、ある新しい英単語学習法Xの効果を検討したいとしよう。集めた被験者を「学習法Xで学ぶ群」「通常の学習法で学ぶ群」にランダムに振り分け、それぞれ単語を学んでもらう。その後、学習の効果を測定・比較する。以上が、この例にRCTを適用した場合である。

もし、学習法Xを使う／使わないの割当をランダムにではなく被験者や実験者の都合で選んでしまうと（たとえば、「組ごとに取り組みを変えざるを得ず、A組には学習法Xで、B組には通常の方法で学ばせた」）、アウトカムに実は重大な影響を与えている第三の変数（共変量とも言う）が、一方の群で特に効いていたという可能性を拭いきれない。たとえば、A組にはある塾に通っている生徒が多く、その塾では実際に効果的な英単語学習法Zを使わせていたとする。このとき、A組の生徒の英単語力をお仕上げたのは、学習法Xというより学習法Zだった可能性が高くなってしまう。

まとめると、RCTは、処遇をランダムに割り当てることで、未知の要因も含めて両群を等質化することができ、だからこそ、アウトカムの差を因果効果の推定値として見なすことができるのである。上の例で言えば、その塾が学習法Zを使わせているという事実を、実験者がまったく知らなかったとしても統制可能になるということである。なぜなら、その塾への通学／非通学もランダムに配分されるからである。

非RCT（準実験・観察データ）

ランダム割当を用いない準実験・観察データの場合、事後的に内的妥当性を担保することになる。提案されている統計手法は多岐にわたるため、それらを逐一解説する余裕はないが、背後にあるアイディアは共通している。それは、処遇とアウトカムの間に介在する共変量について、何らかの仮定に基づいて、統計的にバランスをとるというものである。

この点を図示したものが図NNNである。

f:id:TerasawaT:20200402162304p:plain

図NNN 共変量の調整に関する違い

図に示したとおり、RCTの場合にも共変量（未知の変数も含む）の介在があるが、ランダム割当で両群を等質化できれば、無視できると考えられる。一方、ランダム割当を行わない場合、そのままでは共変量がアンバランスになっている危険性があり、これの調整なしには因果効果が推定できない。

共変量の調整方法として、様々なものが提案されており、解説書も数多い。英語教育研究で使用頻度が高そうなものは、たとえば、重回帰分析、共分散分析（ANCOVA）、共分散構造分析（構造方程式モデリング: SEM）、層別解析、傾向スコア、差の差分析などである。

各手法の細かな説明は解説書に譲るが¹、共変量調整の手続きが最もイメージしやすいのは層別解析だろう。層別解析は、その名の通り、共変量を複数の階層にわけ、それぞれの層で別個に効果を計算する手法である。

前述の英単語学習法Xに関する研究を例にとろう。学習法の選択を生徒の選択に任せたため、動機づけの強い生徒は学習法Xを、そうでない生徒は通常の学習法を選ぶという傾向が生じたとする。このとき、Xで学んだ群と学ばなかった群の成果をそのまま比較すると、前者のほうが有利になり、学習法Xの効果を過大評価しかねない。フェアな比較をするには、たとえば「動機づけ〈高い〉群、〈やや高い〉群、〈中程度〉群 … 」のように層化したうえで、各層でそれぞれ効果を検討すればよい。

しかしながら、これは、動機づけが重要な共変量であることがあらかじめ当たりが付いているときだけにできる対処である。未知の変数はまったくお手上げであり、そうでなくとも、調査後に重要性に気づいた変数（つまり、測定していない変数）についても対処できない。

この問題は、層別解析だけでなく、上述の共変量調整法すべてについてまわる問題であり、これが人為的方法の重大な限界である。

内的妥当性の不備の例

以上が内的妥当性を向上させる方法に関する簡単な説明であるが、英語教育研究では、この点を逸脱する研究がしばしば行われてきた。節の最後に、「反面教師」としての内的妥当性の不備の例を2点論じたい。

比較対象を欠いた分析

第1が、前述した、比較対象を用意しない成果報告である。たしかに、たとえばモデル校や「イノベーティブな教授法」の成果を実際に目のあたりにすると、たとえ比較対象がなかったとしても、その指導こそが成果をもたらしたのだとつい思いたくなってしまう（たとえば、「○○さんは子ども全員を東大に入れた」という驚異的な成果を目にすると、つい「○○さんの子育て法・教育法を使えば学力が上がる」と考えやすい ²）。

しかし、比較を欠いたがゆえに、因果効果を見誤る例は枚挙にいとまがない。なかでも、教育で特に注意すべきが、学習者の発達的な力である。学習者は、極端な場合、放っておいても成長する場合がある（幼児は通常、集中的なトレーニングなどしなくても、語彙をどんどん習得していく）。したがって、ある成果が処遇の結果なのか発達の結果なのかわからない場合は多い。

また、プログラム外の様々な要因が学習者に与える点にも注意が必要である。たとえば、先進的な教育プログラムを導入した学校の生徒は、そのプログラムからだけではなく、学校内外の様々な環境（塾、自学用教材、家族、マスメディア等）を通しても学習を深めるはずである。こうした環境要因によって、極端な話、放っておいても成果が出る可能性もゼロではない。この点を真剣に考えるならば、やはり、比較の視点は不可欠である。

共変量に対する考慮のない分析

内的妥当性に不備がある英語教育研究の2つ目の例が、共変量への考慮のない研究である。英語教育では、t検定や分散分析など、処遇とアウトカムの2変数だけが介在する統計手法が頻繁に用いられる。

こうした手法は、ランダム割当を伴う実験の文脈で発達したものであり、RCTで用いるのは問題ないが、準実験や観察データではバイアスが生じる危険性を抱えている。

英語教育では、ランダム割当ができない場面も多く、その際には共変量調整によって内的妥当性の向上の努力が必要である。しかしながら、適切ではない場面でも t検定や分散分析が広く行われている現状がある。

たしかに、考え得る共変量のすべてを測定・調整することは容易ではない。しかし、現実的に調整可能な変数があるにもかかわらず、調整を行っていない研究は実際に多い。いわば「t検定・分散分析」万能幻想があるためだと思われるが、研究計画の段階から共変量調整を想定した設計をすべきである。

理論的な説明も丁寧になされている解説書として星野 (2009) が、わかりやすい入門書として岩波データサイエンス (2015?) や安井 (2020 効果検証入門) などがある。また、啓蒙的なものとして、中室・津川 (2017) も良書である。↩
この論法はメディアなど至るところで見かけ、なぜか説得力はあるもが、実際にはその因果関係は不明である。極端な例だが、もし○○さんが独自の教育法などせず、完全放任の子育てをしていたら、子供たちは全員東大どころか、もっと上のレベルに達していた（20代でノーベル××賞をとっていた）かもしれない。○○さんの教育法は、類まれな天才児たちを適度に「スポイル」したという可能性である。「完全放任をしていた場合」が、このときの比較対象である。↩

2020-03-30

英語教育において良いエビデンスを得るためのリサーチデザイン：内的妥当性・外的妥当性（その1）

以下の記事のつづきです。

なお、一連の記事は、拙編著『英語教育のエビデンス: これからの英語教育研究のために』を執筆していたときの下書きです。（2022年10月20日追記）

NNN章の図NNNで示したとおり、英語教育において良いエビデンスを得るには、概略的に言って、(1) 因果効果の科学的推論、(2) 処遇の定義・測定方法の合意形成、(3) アウトカムの定義・測定方法の合意形成が必要である。

以上のうち、本章では形式的に論じやすい (1) に焦点をあてる。特に、そのコアを成す原理である内的妥当性・外的妥当性について具体的に論じたい。

エビデンス階層について

具体的な議論に入る前に、エビデンス階層と内的／外的妥当性の関係をあらためて確認したい。

NNN章で論じたとおり、エビデンス階層は、エビデンスの質を格付けするシステムである。格付けを構成する原理が、内的妥当性・外的妥当性で、これらがそれぞれ高いほど良いエビデンスということになる。

両者はまったく別種の原理であるが、あえて共通点を見出すと、推定におけるバイアスの低減にかかわるという点で似ている。つまり、内的妥当性は因果効果における選択バイアスに、外的妥当性は被験者（あるいは調査参加者）のサンプリングバイアスにそれぞれ対応するものである。

また、バイアスを低減するには、大別して2つのアプローチがある。ひとつが、確率の力、すなわちランダムネスを利用した非人為的な方法であり、もうひとつが、事後的に様々な工夫を行うことによる非確率的、つまり人為的な方法である。一般的に言って、バイアスを確率的に評価できる前者が圧倒的に強力である。一方、後者は、様々な仮定に基づきながら分析結果を構成するため、どうしても恣意的な部分が残る。

以上を整理すると表NNNのようになる。内的／外的妥当性、横の行にバイアス低減の方法（非人為的／人為的）が並ぶ。

	I. 内的妥当性	E. 外的妥当性
P. 確率的（非人為的）方法	(PI) ランダム割当による比較（RCT）	(PE) ランダムサンプリング
N. 非確率的（人為的）方法	(NI) 様々な統計的因果推論方法	(NE-1) 研究を多数集めて統合（システマティックレビュー／メタアナリシス） (NE-2) 理論・背景知識・常識に照らして妥当なサンプリング (NE-3) 文脈に関する豊富な記述

ここで最も強力な方法は、言うまでもなく、内的／外的妥当性いずれにもランダムネスを利用する PI & PE の組み合わせである。つまり、ランダムサンプリングで集めた被験者をに対し、処遇をランダムに割り当てて、その後、アウトカムを比較する方法だが、現実的には非常に難しい¹。

したがって、次の方策として、内的／外的妥当性のいずれかに強力な確率的方法を用い、残りの一方を人為的な工夫で対処することが考えられる。事実、医療（EBM）において一般的なエビデンス階層で最良のエビデンスとされているものは、内的妥当性を毀損するバイアスを確率的に制御（PI）したうえで、メタアナリシスにより外的妥当性にかかわるバイアスを人為的に低減（NE）したものである。²

一方、教育政策や一般度の高い教育実践など、多くの人が関与する処遇については、まずランダムサンプリングで外的妥当性を確率的に考慮（PE）したうえで、それを人為的工夫（具体的には統計手法）で内的妥当性の向上を図る（NI）というアプローチも当然ありえる。

以上の議論が示しているのは、「RCTのシステマティックレビュー」が常に最善の選択というわけではなく、分野や現象、文脈によって、異なるエビデンス階層（観察データを用いた方法）があり得るということである。エビデンスに基づく教育（EBE）をめぐっては、推進派も慎重派もしばしばRCTの評価をめぐって論を戦わせてきたが、そもそもそのような焦点化は、医療（EBM）の特定の手続きに過度に引きづられた議論である。エビデンス概念一般という点からは少々的を外していると思われる。

そもそも階層化する必要があるのか

以上をさらに敷衍すると、エビデンスの質を考える上で本当に重要なのは、外的／内的妥当性であって、階層（レベル分け）ではないと述べることも可能である。

事実、その点にはすでに批判がある。 Stegenga (2014) は、エビデンス階層のカテゴリカルな格付け方法は、個々の実証研究を分類する方法として精度が悪く、また、硬直的すぎるとして、全面的に廃棄すべきだとしている。ここまで強硬な批判でなかったとしても、エビデンス階層のレベル分けを固定的にとらえる見方は旗色が悪いたとえば、NNN章で見たエビデンス階層（表NNN）の提案元であるオックスフォードEBMセンターからして、これはランキングではなく、実際の運用は柔軟にすべきであると注意を喚起している (Howick et al. 2011)。

「RCTのシステマティックレビュー」を最上位に置くというアイディアも、限られた時間のなかで個々の患者に最適な処遇を探すという文脈で発展してきたものであると考えたほうがよいだろう。たしかに、このような研究の文脈でランダムサンプリングは想定しづらい（「特定の病気の患者全員」という母集団を設定するのがまず困難であるし、仮に可能だとしても、そこからランダムに選ばれた患者に実験に協力してもらうのは至難の業だろう）。対象が集団である場合には、別の優先順位の付け方があり得るし、エビデンスを評価する時間が十分にあるのなら、そもそも優先順位をつける必要すらないかもしれない（個々の研究を丁寧に見ればよい）。

もしエビデンス階層という考え方を棄却するならば、「エビデンスに基づいた英語教育」という枠組みの存在意義にすら疑問が湧いてくる。この疑問はもっともだが、だとしても、内的／外的妥当性という原理の重要性は揺るがないし、これらの原理にしたがって研究の質を評価するというアイディアは依然貴重であると思われる。

NNN章の議論と合わせて考えると、階層的な格付けシステムよりも、ドメイン知識も統合したチェックリスト型の評価ガイドラインのほうが有用ではないかと考えられる。図NNNにそのイメージを記した。

図NNNのうち、処遇・アウトカムの定義・測定はドメイン知識にかかわる多くの知見を文脈に即しながら検討しなければならないので一筋縄にはいかないが、内的／外的妥当性については形式的に議論しやすい。この2原理は、英語教育研究のリサーチメソッドの教科書でも体系的に説明されることはあまり多くないようであり、ここで論じておくことは意義があるだろう。以下、内的／外的妥当性の向上方法にどのようなものがあるか、それぞれ具体的に論じていこう。

つづく

ランダムサンプリングかつランダム割当の数少ない実行例として、大規模調査で行われる質問紙実験がある（母集団からランダムに抽出された調査参加者に対し、異なる質問紙をランダムに与えることで、質問文（刺激文）の影響を見る実験）。しかしながら、一般的な教育研究においてこの種の研究デザインが利用できる文脈はほとんどないと考えられる。↩
ただし、これはあくまで「一般的」な話である。医療においても、外的妥当性（サンプリング）により高い優先順位がつくことがあるからである。たとえば、Concato (2004) によると、RCTは、運用上、被験者を特定のタイプの患者に限定せざるを得ない、つまり外的妥当性が毀損される場合があり、その場合、サンプリングに配慮した観察研究のほうが良い成果を出す可能性がある。↩

2020-03-28

どれだけエビデンス概念を英語教育に適用できるか／できないか（その3）

以下の記事のつづきです。

医療と教育の共通点・相違点

ここまでは、言ってみれば医療（EBM）内部での議論である。以下より、英語教育との接点に論点を移したい。

「医療と教育は違う」

教育は医療のメタファーで頻繁に語られるが、同時に「教育は医療と違う」というフレーズも人口に膾炙している。 EBM/EBEの文脈で言えば、たとえば次のような相違点が指摘されてきた。

医療と違い、教育においてランダム化比較試験（RCT）は倫理的に不可能である
たとえ倫理面がクリアされたとしても、RCTは現実的にも難しい
医療の目標はわかりやすい（例、治癒や生存）。一方、教育の目標は多様である
医療のアウトカムは数値化しやすいが、教育のアウトカムは質的に検討するべきものも多い
教育は、多数の変数が介在する複雑なプロセスである
教育は、介入の効果が判明するのに長い時間がかかる

上記の特徴づけは、的を射ていないものもあるが¹、たしかに厳密なRCTが困難である点はそのとおりである（完全なランダム割当には二重盲検法が必要だが、教育において二重盲検法が実現できる状況はほぼ皆無である）。また、教育行為の多くは中長期的なスパンでアウトカムを考える必要があるのも事実だろう。

処遇やアウトカムの定義・測定

もうひとつ、あまり指摘されない重要な違いを付け加えたい。それは、処遇の定義およびアウトカムの定義・測定に関するものである。教育は、医療に比べ、この面の合意がきわめて難しいのである。

医療の場合、どのような処遇を標準的とするか（たとえば、投薬の量や間隔、手続き）について基礎科学（基礎医学、生理学、薬学等）による膨大なサポートがある。アウトカムの定義・測定方法（例、特定の指標が何単位あがったら改善と見るか）も同様である。もっとも、何を「処遇」「アウトカム」と見なすかは究極的には価値判断に依存するものであり、科学の力で自動的に決まるわけではない。そうではなく、科学に基づいているという事実が、医療コミュニティ内の合意可能性を高めるのである。

一方、教育では、処遇・アウトカムの定義・測定に関して、基礎科学による根拠づけを得にくい。指導を例にすれば、「指導法Xとは、○○を××というように教えること」と概念的に定義することは可能だが、反面、科学的指標に依存した形で指導法を定義することは難しい。アウトカムの測定についても、心理測定による基礎づけがある少数の学力指標を除けば、多くの人が納得できる測定法は少ないだろう。

結局のところ、定義には、常識・レトリック・論争中の科学といった説得力の弱い根拠に基づくことになる。そのため、教育関係者が容易に合意に至れるような基盤は期待できないのである。

以上の議論を、図NNNに模式的に示した。

f:id:TerasawaT:20200328153458p:plain — EBMとの違い

EBMのように、教育が科学化できる――正確に言えば、科学による正当化することで合意可能性が向上できる――領域は、処遇とアウトカムの間の因果推論の部分だけであることを示している。一方、それ以外の部分は、討議を通した合意形成によるしかない。これが、教育（を含む社会政策領域）において、エビデンス選択は本質的にネゴシーエションであると評されるゆえんである (Parkhurst, 2016)。

社会政策領域での合意形成は、高度に政治的な過程であり (ナトリ－, M. ほか, 2015)、真摯な学術的議論を積み重ねていけば自動的に実現できるわけではない。しかし、だからこそ、学術コミュニティは、研究知見をアピールすることで政策過程に積極的に関わっていかなければならない。

教育の政策過程においても、処遇やアウトカムに関して荒唐無稽な定義が（主に非専門家から）飛び出すことがある。たとえば、早寝早起き朝ごはん、大学英語入試の民間試験による代替、「生きる力」、グローバル人材としての資質等々。

こうした奇抜な定義を、無難かつ有益無害で合意可能なものに、修正・最適化していくには、その分野固有の知識、つまりドメイン知識が不可欠である。ドメイン知識に基づいて議論するからこそ、クリアな線が引けなくとも、多くの人が合意可能な妥協点が探れるのである。そして、その段階でやっと「エビデンスベースト○○」の枠組みを導入できるスタートラインに至る。英語教育研究者は、「処遇→アウトカムの」因果推論に関する見識だけでなく、いやそれ以上に、定義・測定のドメイン知識にかかわる文脈で貢献していかなくてはならないだろう²。

エビデンスベースト英語教育における残余領域

ここまで、EBPP/EBEの枠組みは、英語教育研究との相性が比較的良い（あくまで他の教育分野と比べて「比較的」だが）という前提で議論してきた。一方、そうではない文脈もある。質的研究である。

事実、EBM/EBPP/EBEは明らかに量的研究を前提にしている（エビデンス階層がその典型である）。では、質的研究との接点はどこにあるのだろうか。以下、本章の締めくくりとして、英語教育研究における質的研究が、EBEといかに接続（不）可能か論じたい。

質的研究

前述の通り、英語教育研究は伝統的に量的研究が支配的な分野である。一方、質的研究は長らく非主流派の位置に甘んじてきたが（寺沢, 2019くろしお）、近年は着実に存在感が増している。それにしたがって、英語教育でも、量的研究・質的研究双方の位置づけをめぐる議論が深まりつつある。同様に、EBEと質的研究の関係がどうあるべきかも議論を深めていく必要があるだろう³。

私見としては、質的研究がEBEにとり得る態度として次の3つがあると考える。

「ドメイン知識に貢献」型: エビデンスのコアにある因果効果とは、すぐれて量的研究的な概念である。「○○指導法の効果」のような問いは質的研究の守備範囲ではない。一方で、処遇やアウトカムの定義をめぐる議論など、ドメイン知識にかかわる領域については、質的研究は大いに貢献できるだろう。
事例研究型: 因果効果は質的研究も検討可能である。その代表例が、事例研究である。教育現象では「効果」が生じる複雑な文脈を総合的に検討する必要がある。そう考えれば、要素還元主義的な「実験」などよりも、事例研究の貢献度の方がむしろ大きい。エビデンス階層のような格付けシステムも、こうした観点を反映するように根本的に修正すべきである。
相対化機能重視型: 質的研究は、量的研究のように、教育現象を静的に捉えない。常に流動的かつ複数的で複雑なプロセスとして見る。そもそも、現象の記述（たとえば「○○は××を向上させた」）は観察者に依存するわけで、固定的に確定できるものではない。であれば、社会に蔓延する「エビデンスに基づく効果的な○○」といった過度に単純化された言説に対し、批判・相対化するような対抗言説を編んでいくことこそが質的研究の役目である。

上記の説明にも示されているが、3つのアプローチは、認識論的前提に大きな違いがある。つまり、「因果効果」という概念をどう理解するか、そして、経験主義 (empiricism) を前提にするかしないかという点で明確に見解の相違がある。その点を整理したのが、表NNNである。

	因果効果に対する態度	経験主義 (empiricism) に対する態度
1. 「ドメイン知識に貢献」型	限定的に理解	経験的
2. 事例研究型	緩やかに理解	経験的
3. 相対化機能重視型	因果効果という概念自体に批判的	解釈的・批判的 (critical)

表NNN 各アプローチの特徴

これらのアプローチのうち、どれが最も現実的かを議論するのは筆者の力量を越えている。ただ、たまたま「質的研究」という総称的ラベルがついているが、そもそも根本的に別種のアプローチであり、優劣をつける議論はあまり生産的ではないように思われる。それぞれの立場に立つ英語教育研究者が相互に対話していくべき論点であろう。

おわりに

本章では、EBPPの英語教育研究の適用可能性を、因果効果、エビデンス階層、医療との相違といった観点から検討してきた。結論として言えることは、英語教育研究者の多くが関心を持っているテーマはEBPPとの枠組みと比較的親和的であるが、反面、教育における因果効果の検討には固有の困難さがあり、医療（EBM）並みに標準化された枠組みを「輸入」することはほとんど期待できない。

直輸入できる事例がないという事実は、英語教育研究が自ら枠組みを構築する必要があることを意味している。その際は、総論だけでなく各論レベルで根本的な再検討が必要になるだろう。たとえば、エビデンス階層は、現在、モデルとして流通しているもの――RCTのシステマティックレビューが最上位に来るもの――で本当に良いのか等である。この点に関連する方法論的な検討は、NNN章で行う。

文献

略（すみません）

的を射ていないと考えられる部分は次の点である。第1に、倫理的にRCTをクリアする方法は多数研究されている（そもそも、EBMが患者をモルモットにできるわけもなく、倫理的な手続きを踏んでいる）。第2に、医療にもRCT実施が困難な現象もあり（例、疫学的対象）、RCTが困難なことが、即、EBPPの困難さを意味するわけではない。第3に、医療が目指すものも、究極的な目標という点でいえば多様性に富む（たとえば、患者のQOLや権利、あるいは家族を含めた幸福）。教育についても、「治癒・生存」並みにわかりやすい指標は（その合意可能性はともかく）想定可能である（たとえば、学力テストの点数）。第4に、人体の「小宇宙」という言葉があるように、医療行為にも多数の変数が介在する。むしろ、その多数の変数の介在をランダム化によって統制しようとする試みこそがRCTである。↩
そもそも因果推論に関する実験デザイン・統計手法において、英語教育研究者は、データサイエンティストや経済学者にはかなわない。そうである以上、英語教育研究者の存在意義は、ドメイン知識が活かされる文脈にこそあると筆者は考える。↩
医療（EBM）にはすでに多くの蓄積があり、ナラティブのような質的データを統合する試みも提案されているが（ポープほか, 2009; シャロンほか, 2011）、現在でも標準的な位置を占めているとは言いがたい。↩