こにしき(言葉・日本社会・教育)

関西学院大学(2016.04~)の寺沢拓敬のブログです(専門:言語社会学)。

De Swaan: 世界言語システム論と Q-value

Abram de Swaan の Words of the World を読了。

Words of the World: The Global Language System

Words of the World: The Global Language System

  • 作者:De Swaan, Abram
  • 発売日: 2002/01/21
  • メディア: ハードカバー

アブラム・デ・スワーン、オランダの社会学者。言語社会学者というわけではなく、広い意味での比較社会学の研究者らしい(この著作以前には福祉制度比較の研究をしていたとある)。また、タイムリーにも今月に日本語訳が出版される本は、ジェノサイドをテーマにしている(『殺人区画』アブラム・デ・スワーン(著) - 法政大学出版局 )。

De Swaan の世界言語システム/グローバル言語システム論1は、日本の英語教育学者/社会言語学者にはほとんど知られていないようだ(Google Scholar を検索したことによる印象)。自分も、5年前にとあるハンドブックを読むまでは知らなかったので人のことは言えないが、日本の学者は結構好きそうな議論のような気がするので意外。

世界言語システムとは何か

読み終わってから気づいたのだけど、ウィキペディアにものすごく親切丁寧な記事があった。

こんな良い仕事をしたのは誰!?これじゃ、本を読む必要がなくなっちゃうじゃないか(笑)

細かい論点は上の記事に譲るとして、世界言語システム論の基本的なアイディアは、かなり経済学寄りで、言語は超公共財 (hypercollective goods)であるというもの2。 言語能力は所有/非所有をコントロールできる財ではなく、かつ、自分以外の他者が所有するとむしろ利益が上がる(ネットワーク外部性)。 だから、人々は、ネットワーク外部性の観点から利益が上がりそうな言語を予想(expect)し、言語選択(L2としての学習言語の選択、子供への言語継承等)を繰り返すというもの。

各言語のコミュニケーション価値を表す指標、Q-value

世界言語システム論の唯一無二の特徴(議論の余地のある特徴でもある)が、Q-value である。各言語のコミュニケーション価値を相対的に表す指標である。この数値が高い言語は低い言語よりも、コミュニケーション可能な人口が潜在的に多いことを意味している。 そして、「価値が高い」と人々が認識される言語ほど、人々の言語選択が増える。

Q-value のアイディア自体は明快かつ説得的だが、問題はその定義である。

以下が、 言語_i のQ-value Q_i)の定義である。(言語が n 個あったとすると、Q-value Q_1, Q_2, ... Q_n と n個がアウトプットされる)

\displaystyle{

Q_i = 話者シェア_i \times 中心性_i

= \frac{話者数_i}{全話者数} \times  \frac{複言語話者数_i}{全複言語話者数} \\

}

計算方法は小学校の算数レベルだが、その実質的な意味がよくわからない。「全人口に占めるX話者の割合」と「全多言語話者人口に占める〈X語を話す多言語使用者〉の割合」の で表現するところはよくわからない。なぜそこが掛け算?3

頻出するアノマリー

定義からして違和感のあるQ-value だが、実際、うまく説明できない場合があることはデ・スワーンも認め、詳細に分析している。

その代表として本書で事例研究が行われているのは、ルワンダボツワナである。

両国とも、国内住民の多くがローカル言語(それぞれルワンダ語・ツワナ語)に通じており、Q-value旧宗主国の言語(フランス語・英語)よりも圧倒的に高い。にもかかわらず、国内の公的機能のほとんどが旧宗主国言語で行われている。

デ・スワンは、こうした事例を「アノマリー」(理論的予測から逸脱する部分)と呼び、詳細に分析している。歴史的・社会的機能がこのアノマリーを生じさせたとしている(それ自体はきわめて納得の行く説明である)。

しかし、そもそも理論がカチッとしていない以上、これはアノマリーなのだろうか?もともとの理論に歴史的・社会的要因を含めていれば「アノマリー」にはならなかったのでは?という違和感のほうが強い。

非常にざっくりしとした印象

Q-value の明快さは魅力的だが、あらゆる言語共同体におけるあらゆる言語レパートリーに関するコミュニケーション価値という指標は野心的すぎるのではないかと思った。というのも、グローバル化以前も以後も、言語選択において言語共同体は閉じてはいないわけで(とくに近代化が進んだ地域の場合)。常に、国際的な(=共同体外の)言語状況を見ながら人は各言語への「期待 (expectation)」をふくらませるわけなので。

言語を固定するか、共同体を固定するかしないと、無難な指標はできないんじゃないかという気がした。


  1. この用語から明らかな通り、ウォーラステインの世界システム論をベースにしている。

  2. もっとも、言語は “hypercollective goods” であるというアイディアは、比喩ベース、常識ベースの議論にとどまる。集合財に関する経済学の理論研究や実証研究の成果に基づいて精緻化されているわけではない。

  3. 一応、「中心性はウェイトだよ」みたいなことが書いてあったが、このウェイトという説明もわかるようでよくわからない。実質的にどういうウェイト?

OneDrive共有リンクの「編集を許可する」は、編集権限の付与だと理解していないと悲しい事故が起きる

オンライン授業の一環で、MSオフィス系ファイルを本学のOneDriveで配布していたところ、何度も事故が起きました(以下に説明)。

同僚の方々に協力していただき、いろいろ検証した結果、私が OneDrive共有リンクの考え方を根本的に勘違いしていたことがわかりました。ご協力いただいた方々、ありがとうございます。

OneDrive共有リンクの考え方は一言で言えば、「リンクを踏んだユーザーに編集権限を付与」のようです。

ファイルそのものの編集ステータスを操作するわけではなく、また、編集可に招待するゲートを操作するわけでもありません。一般的なオンラインストレージの考え方と、おそらくかなり発想がことなります。(私もDropboxのイメージで使っていたため失敗しました)

どういうことか、図解したほうがわかりやすいとおもうので、以下に掲載します。

図解

f:id:TerasawaT:20200510225538j:plain


f:id:TerasawaT:20200510225548j:plain


f:id:TerasawaT:20200510225556j:plain


要するに、一度編集許可リンクを踏んだユーザーは、「アクセス許可の管理」メニューから当該リンクを削除しない限り、編集できる状態が続くということです。

この「地雷ポイント」がクリティカルになる状況

この地雷ポイントで事故が起きるのは、

  • MSオフィス系ファイルを
  • オンライン編集ではなく、ダウンロードしたうえで編集してほしい

と考えて配布している場合です。

具体的には、エッセイやレポートのテンプレートを配付する場面です。

私の授業で起きた事故がまさにこれでした。

「このファイルはテンプレです。ダウンロードしたうえで自由に編集して下さい。この注意書きは提出前に消して下さい」といった注意書きを、ファイル冒頭に掲げていました。すると、受講生の一人が間違えて注意書きもろとも上書きしてしまいました。結果、後から訪れた人は「ダウンロードしてね」という指示など思いもよらず、上書き保存を繰り返すという事故につながりました。

ストレージのように考えるのは危険

ところで、そもそもこれがなぜ地雷なのかというと、共有リンクを生成する場合、「編集を許可する」はデフォルトなのです。これに気づかずファイルをばらまいてしまうと、後から気づいて「編集を許可する」のチェックボックスを外したとしても、最初のリンクを踏んだユーザーは編集が依然可能です。

しかも、私の場合は、最初のリンクを削除しなければ、いつまでたっても編集できるということに気づくのに事故発生から4日かかりました。さらに、ググってこの解決法をつきとめたわけではなく(私が閲覧したマ社および関係者の書いた記事には言及がありませんでした)、私が独自の検証をしてみて、それに気づきました。(マニュアルであればどこかに書いてあったのかもしれませんが)

というわけで、「オンライン編集」とは無縁のPDFや音声ファイルなどで配布している方にはまったく関係ありません。MSオフィス系ファイルに関係した地雷ポイントです。

また、グーグルドキュメントのように、最初からオンライン共同編集を想定している場合も、こういうのは「事故」とは呼ばないでしょう。

私のように、ストレージだと思いこんで、オフィス系ファイルを配布し、編集権限のコントロールが甘いと、この地雷はクリティカルになります。

なお、私はテンプレート等の配付には今後、OneDriveを使うのはやめます(従来どおり、Dropboxを使います)。今回の事故の原因は私のミスには違いありませんが、デフォの「編集を許可する」を「毎回きちんとミスなどなく解除する」自信がありません。もっと率直に言うと、この点は典型的なヒヤリハット案件(ミスを誘発する案件)だと思います。

どうかみなさまもご注意を。

英語教育において良いエビデンスを得るためのリサーチデザイン:内的妥当性・外的妥当性(その3)

以下の記事のつづきです。


外的妥当性(代表性)

「母集団」というキーワード

本節では、外的妥当性について論じる。

外的妥当性の定義を再度述べると、特定の集団を対象にした当該の研究結果から、他の集団(理想的には母集団)に関する知見をどれだけ引き出せるかの程度である。 こう考えるならば、ランダムサンプリングだけでなく、事例研究における転移可能性(=当該研究が他研究にどれだけ知見を提供できるか)も当然含まれ得る(後述)。

このように、外的妥当性を担保する方法には様々なものがあるが、共通するアイディアは母集団である。 ひとつが、母集団の値(真の値)を、眼前の研究結果から幅を持って推測する方法である。 これを「母集団推測」型と呼ぼう。 これらは、その幅を統計的に推測するものと事後に解釈的に推測するものに下位分類される。

もうひとつが、母集団の特定の場所に、眼前の研究結果を位置づけるもので、「母集団との関係の詳述」型と呼べる。 母集団の真値を推測する代わりに、当該研究がその真値からどれだけずれているかを述べるわけである。 この作業は完全に解釈的(非確率論的)に行われる。

以上の構図をイメージ化したものが図NNNである。


f:id:TerasawaT:20200412120852p:plain

図NNN 外的妥当性を担保する方法


母集団を推測する:ランダムサンプリング、便宜的サンプリング、研究統合

ランダムサンプリング

手元の限られたサンプルから母集団全体の真値自体を確定することはできないが、ランダムにとられたサンプルであれば、統計的な 幅を持って推測できる。 このメカニズムは直感的にもわかりやすいだろう。 「スープの味を知りたいなら、鍋全体をよくかきまぜたうえで、一、二さじ味見をすればよい」という比喩は有名だが、同様に、母集団からランダムに取り出された被験者・調査参加者が「全体の縮図」になっていると想像することは難しくない。

直感的に理解しやすいメカニズムとは対照的に、具体的な実施方法については(少なくとも英語教育研究では)あまり理解されていないと思われる。 以下、どのように実施がなされているか簡潔に紹介する。

名簿の確定

どんな調査にせよ母集団を定義することは重要だが、ランダムサンプリングではさらに名簿レベルでの具体的定義が必須である。 この名簿のことをサンプリング台帳と呼ぶ。 たとえば、母集団を概念的に「日本人」と定義するのなら、「すべての日本人」が理論上掲載されている名簿を確定しなくてはならない。 日本の大規模社会調査では、住民基本台帳や選挙人名簿がよく用いられてきた1

また、日本の高校生を母集団にした場合、高校生全員のリストはおそらく入手できないため、次善の策として、複数名簿を組み合わせた多段階抽出が採用される。 つまり、まず、国内の全中学校のリストをもとに k 校を抽出し、調査を依頼する。 了承が取れ次第、調査校の在校生名簿に基づいて n 人を抽出するといった手続きである。

こうした点からわかるとおり、ランダムサンプリングの実施上のハードルは非常に高い。 サンプリング台帳にアクセスすることは容易ではなく、そもそも使用可能な名簿自体が存在しないことも多い。 さらに、調査段階で調査員は多数の場所を駆け回らなくてはいけないので、教室で質問紙をばらまく調査と比べ物にならないほど時間と労力がかかる。

したがって、ランダムサンプリングによる社会調査・学校調査のほとんどが、必然的に多数の研究者(および大学院生)が参加する大規模なプロジェクトになる。 もっとも、コストは多大であるが、同時に非常に強力な手法であり、コストの問題を解決できる場合(例、外部資金の獲得)、ランダムサンプリングを選択することは望ましい。

緻密な調査遂行

なお、その強力さが発揮されるためには、サンプリングだけでは十分ではなく、きめ細かい調査遂行も求められる。 ランダムに抽出されたサンプルが母集団の適切な代表値になるのは、回答脱落(不在者や回答拒否者など)がランダムに生じている場合だけである。 偶然以外の事情で回答脱落が起きた場合、その結果はどんどん歪んでいく (たとえば、平日昼間にしか調査を行わなければ就労者は脱落するかもしれないし、学校への調査依頼が説明不足の場合、すでに縁故がある学校に偏るかもしれない)。

実際の調査では、回答脱落が起きないように細心の注意が必要になるが、細心の注意を払えば払うほど、コストは倍増していく2。 この点も、ランダムサンプリングのハードルの高さである。

非ランダムサンプリング

ランダムサンプリングができない場合、サンプルの選択に恣意性が入らざるを得ず、外的妥当性は大幅に低下する。 ただ、だからといって、非ランダムサンプリングの調査がすべて等しく劣っているというわけではなく、その質にはグラデーションがある。

表NNNに、英語教育で行われている代表的な調査を、母集団に対する想定という観点から整理した。


サンプリング方法 母集団に対する想定 母集団推測 事例研究的
1 実査 ランダムサンプリング サンプリング台帳と乱数をもとに抽出された人=母集団の縮図
2 代表性に配慮した非ランダムサンプリング(エリアサンプリング等) 台帳・乱数の代わりに、種々の考慮(地域、属性等)を経て抽出した人=母集団の縮図
3 特定の場所(教室等)での配布 その場所にいる人=母集団の縮図 × ×~○
4 特定の組織(学校等)を通じて関係者に配布 その組織の関係者=母集団の縮図 × ×~○
5 ウェブ調査 モニター利用調査 調査モニターのプール=母集団。プールから抽出されたサンプル=母集団の縮図 ×/△ ×~△
6 チェーンメール風ばらまき調査 たまたま回答した人=母集団の縮図 × ×


○:優、△:可、×:劣



1番目のランダムサンプリング以外はすべて、非ランダムサンプリングである。

2番目は、ランダムネスによらず人為的に母集団の縮図になるように対処したサンプリングである。 たとえば、学校の特徴(たとえば、国公私立、偏差値、都市度、学校規模、学科等)を調査設計者が総合的に考慮して、もっとも偏りが出ないと考えられる学校に調査を依頼する。

この考慮は、主観的・解釈的なものであり、母集団の真値の幅を客観的に推定できるものではない。 たとえば、ある処遇が英語力向上に効果があったという研究結果を前にしても、当該サンプルが高学力層に偏っていると感じる人にとっては、「この効果は過大評価ではないか。学力が低い層も混ざっていたら効果は限定的に成るのでは」と主張するかもしれない。

この点は、客観的に結論が出るわけではないので、主観を擦り合わせるべく、丁寧な議論が行われなくてはならない。 つまり、「こういう点からこのサンプルは偏っていない、代表性がある」ということが説得的に示す必要がある。

事例研究としての量的研究

3番目・4番目の教室や関係者に配付する調査は、英語教育研究で最もよく行われているタイプだと思われる。 事後的な考慮が特になければ、特定の場所にいた人・特定の組織の関係者を「母集団の縮図」と見なすことになるわけで、いかにも恣意的であり、外的妥当性は低い。

しかしながら、配布対象が緩やかにコントロールできているという点では、妥当性が皆無というわけではない。 たとえば、教室で質問紙を配付する場合、「○○大学の××の授業をとった学生(8割以上が△△学部)の回答」のようにサンプルの特徴づけが可能である。 サンプルに関する文脈を詳述することで、当該研究の結果を母集団全体のどの位置に位置付けられるか議論できる。 その点で、この手の調査は、母集団を推測するというよりも事例研究の一環として理解すべきだろう。

ここでの事例研究とは、理論的な貢献度の高い事例に注目し、その事例を総合的に調査・分析する研究である(ジョージ・ベネット, 2013)。 事例研究において結果から母集団の真値を推測することは、不可能であるし、そもそも求められていない。 そうではなく、当該の事例が母集団とどのような関係にあるか――たとえば、典型的な事例なのか、周辺的か、あるいは逸脱的か――を詳述することで、当該研究から得られる知見の位置づけを明確にすることが求められる。

その詳述が説得的であればあるほど、調査対象がイメージしやすくなり、ひいては母集団(および母集団内の下位集団)を理解するうえでのヒントになる。 これは、一般的には転移可能性と呼ばれ、外的妥当性として説明されることはあまりないと思われるが、母集団との関係を示唆するものという点では外的妥当性の構成要素として見なしてもよいだろう。

ウェブ調査

5番目・6番目は、近年、急速に広がっているウェブ調査である。 その拡大とは裏腹に、ウェブ調査の外的妥当性を全否定する意見も少なくない。 ただし、実際のところ、マシなものもあればほとんど無意味なものまで、その質にはグラデーションがある。

5番目はウェブ調査会社に依頼し、同社のモニターを利用するタイプである。 この場合、調査会社のモニターが母集団と見なされることになる。 日本の有名調査会社の場合、モニター登録者数は非常に多く、数百万人を越えるものもある。 また、幅広い層からモニターを集めたことを謳う調査会社もある(もっとも、企業としてそう言うほかないわけで、どれだけ信じていいかは不明である)。

そのため、モニターがあたかも「日本人の縮図」であるかのように錯覚しやすい。 しかしながら、人数の多さは代表性を担保しない。 また、この場合、調査回答者は、例外なく「調査会社のモニターに応募・登録し、かつ、調査依頼が来たらわざわざ回答する人」であり、「一般の人々」と等質と想定していいのか疑問が残る。 ただし、モニターの基本属性に合わせてターゲットを限定することは可能であり、その点では、コントロールの度合いは比較的高い。その場合、事例研究として位置づけることも可能かもしれない。

一方、6番目、メール・SNSなどで質問紙をまるでチェーンメールのようにばらまく調査には、外的妥当性はほとんどないと言わざるを得ない。 サンプリングをしていないという点以上に問題なのが、配布の文脈が完全に不明である点である。 どのような人に質問紙が渡ったのかを事後的に考慮することができないので、事例研究として扱うこともできない。

ステマティックレビュー・メタ分析

サンプリングとは発想が異なるが、外的妥当性を向上させるもう一つの方法が、複数の研究統合である。 EBM/EBPPの文脈では、システマティックレビューやメタ分析として浸透している。

ステマティックレビュー・メタ分析の考え方をごく簡潔にのべると次の通りである。 まず、特定の「処遇→アウトカム」を検証した過去の研究を、データベース等を使って網羅的に調べる。 入手できた個々の研究を整理し、とくに因果効果の推定値を取り出す。 その数値を統計的に統合する(この最後の段階のみを「メタ分析」と呼ぶこともある)。3

たとえば、ある指導法の英語力への効果を検証した研究を考えてみよう。 指導法の名前でデータベースで検索すると、研究A(被験者10人)、研究B(同10人)、研究C(同100人)という3つの研究が該当した。 各研究は、それぞれ 0.1, 0.1, 1.0 という効果を報告していたとする(例なので、数値の単位は無視されたい)。

この数値を統合するとき、最も原始的な方法が3つの値の平均をとるものである (つまり、(0.1 + 0.1 + 1.0) ÷ 3 = 0.4)。 しかし、素直に考えれば、被験者数が異なる3つの研究を単純に平均化するのは不自然であり、研究Cにもっと重みをつけるのがフェアだろう。 こうした点を考慮すると、研究Cの重みを受けて、0.4よりももっと大きな数値が、統合された値として算出される。4

NNN節で見たとおり、研究の統合は、個々の研究よりもエビデンスの質が高いとされている。 なぜ高くなるかといえば、外的妥当性が向上すると考えられているからにほかならない。 つまり、個々の研究だけ見ていると、その研究のサンプルに引きづられた推論しかできないが、多くの研究を集めればよりバランスの取れた推論が可能になるということである。

しかしながら、この「多く集めればより妥当な結論が導ける」という前提には統計学的な根拠があるわけではない。 たとえば、「普通の人」から適切に被験者が集められた研究Dと、きわめて特殊な集団から被験者が集められた研究Eがあったとしたときは、研究Dだけに注目するべきであり、研究Eとの統合はむしろ質を悪化させてしまう。

とはいえ、どのサンプルが「普通の人」でどのサンプルが「きわめて特殊」なのか自明であることは通常ないので、次善の策として、できるだけ多く集め、そのうえで、あまりに極端な研究は研究者の判断で除外するという方針がとられる。

研究者の判断に依存する点からわかるとおり、システマティックレビューにおける外的妥当性の担保はすぐれて解釈的な作業である。 もっとも、これまでの議論と同様、解釈的な要素が混入しているからといって即「非科学的」と退けられるわけではなく、むしろ、個々の解釈(どういう基準で研究を収集したか、どのような研究が集まったか、何を外れ値として除外したか)を丁寧に述べることで、合意可能性を担保する努力が求められる。

外的妥当性の不備の例

最後に、既存の英語教育研究では、外的妥当性の点でどのような問題があったか、それらは今後どのように乗り越えられるのかを論じたい。

前述のとおり、英語教育では、外的妥当性の重要性は浸透していない。 リサーチメソッドの教科書にサンプリング法について言及のないものもあるほどである。 そうした状況を反映してか、「たくさん集めれば正確になる」という素朴な信念(誤信念)は蔓延している (たとえば、TOEFLの国別スコアを「受験者数が多いから信憑性がある」という根拠で国際比較に使う研究者がいるが、これは典型的な誤信念である)。 本章で再三強調したとおり、真に重要なのはどれだけたくさん集めるかではなく、いかに母集団に配慮しながら集めるかである。

サンプリングの考慮

英語教育においても、大規模研究プロジェクトとして行われる研究においては、ランダムサンプリングと言わずとも何らかの適切なサンプリング方法が、まずは模索されるべきである。

既存の研究では、研究者のアクセスしやすい学校や人が恣意的に選ばれている場合も多い。 こうせざるを得ない事情があることも理解できる。 しかしながら、豊富な予算・人的リソースを投入できる大規模プロジェクトならば、縁故サンプリングありきですすめるのではなく、代表性に考慮したサンプリングがまずは検討されるべきである。 そのためには、研究プロジェクトに(英語指導や言語習得の専門家だけでなく)調査法の専門知識をもった研究者が含まれるべきであることも指摘しておきたい。

事例研究という発想の転換

もっとも、研究者や大学院生が個人で行う実証研究では、代表性を考慮したサンプリングはしたくてもできない場合も多い。 その場合には、事例研究として位置づけるという発想の転換が必要だろう。 つまり、当該研究対象を、因果効果の数値だけに抽象化して論ずるのをやめ、むしろ現象を総合的に理解するための丁寧な記述に戦略を転換するのである。

事例研究として位置づけるのであれば、数値データだけでは不十分である。あるプログラムを導入した学校の調査であれば、学校の特徴や生徒のプログラムに対する反応、アウトカムに至るまでのプロセスなど包括的に記述することが必要である。必然的に、質的データ(インタビュー、授業観察など)のウェイトが上がることになる。

最後に、英語教育研究で(とくに卒論・修論のレベルで)頻繁に行われているチェーンメール風ばらまきアンケートであるが、こちらは、どのような工夫をしても外的妥当性の改善の余地はまったくないと言わざるを得ない。 有意義な研究とするには、事例研究として対象集団の総合的理解に軌道修正するか、あるいは、サンプリングを丁寧に設計するかのどちらかしかないはずである。


  1. なお、住民基本台帳にせよ選挙人名簿にせよ、概念上の「日本人」にあくまで近似するものである。抽出台帳の不完全性ゆえに、統計からこぼれ落ちてしまう「日本人」がいる(たとえば、在外邦人、自他ともに「日本人」という意識をもつ外国籍者)。この点は、社会調査論で昔から指摘されてきた難問である。

  2. たとえば、大規模社会調査では、最初の調査依頼時にアクセスできなかったとしても(あるいは、断られたとしても)、繰り返し調査を依頼する。多数回の依頼によって、特定のタイプの人々の回答脱落は防げるとされている。

  3. ステマティックレビュー・メタ分析は、すでに多くの解説書が出ている。和書としては、山田・井上 (2012) 、岡田・小野寺 (2018) などを参照されたい。

  4. 実際には、研究Cの重みは単純に研究A・研究Bの10倍になるわけではない。重みは被験者数ではなく分散に基づいて計算されるからである。また、統計的仮定によっても重みの計算方法は異なる。

英語教育において良いエビデンスを得るためのリサーチデザイン:内的妥当性・外的妥当性(その2)

以下の記事のつづきです。


内的妥当性

本節では、内的妥当性について検討する。

比較対象

具体的な方法論の前に、そもそも論として、比較対象を用意することの重要性を述べたい。 このごく自明な点をあえて指摘したのは、英語教育にはしばしば比較対象なしで処遇の効果を主張する研究・報告が存在するからである。

たとえば、ある先進的な英語教育プログラムに挑戦した学校があったとする。 この手の学校は、たいてい中間報告・最終報告などで成果を発表することになる。 この際、もし生徒の英語力(あるいは別の能力・態度でもよい)が向上していた場合、プログラム導入の成果だとアピールする報告はよくある。 これは、学校の報告書に限らず、研究者の学会発表にもしばしばあることである (たとえば、先進的プログラムに取り組む学校にアドバイザーとして入った研究者など)。

同校の成果を、同じプログラムを経験しなかった生徒の成果と比較しているわけではないので、プログラムの因果効果と主張するのは難しい。 もっとも、そう言わざるを得ない事情もわかるが(補助金などを得ている場合はとくに「比較していないので効果はわかりません」などとは言いづらい)、いずれにせよ、内的妥当性は乏しいのである。

もっとも、教育研究において比較対象を用意できないことは少なくない。その際には、因果効果の考え方に厳密に依拠することは控えて、事例研究として包括的な記述を目指すのが本来の姿だろう。 この点については、NNN節で述べる。

ランダム化比較試験(RCT)

では、ランダム化比較試験(RCT)について述べる。

NNN章での説明の繰り返しになるが、RCTは、その名の通り、処遇のする/しないを被験者にランダムに割り当てたうえで、一定期間後にアウトカムを比較し、因果効果を推定する。 一般的に、内的妥当性の面で最も強力な手法である。

たとえば、ある新しい英単語学習法Xの効果を検討したいとしよう。 集めた被験者を「学習法Xで学ぶ群」「通常の学習法で学ぶ群」にランダムに振り分け、それぞれ単語を学んでもらう。 その後、学習の効果を測定・比較する。 以上が、この例にRCTを適用した場合である。

もし、学習法Xを使う/使わないの割当をランダムにではなく被験者や実験者の都合で選んでしまうと(たとえば、「組ごとに取り組みを変えざるを得ず、A組には学習法Xで、B組には通常の方法で学ばせた」)、アウトカムに実は重大な影響を与えている第三の変数(共変量とも言う)が、一方の群で特に効いていたという可能性を拭いきれない。 たとえば、A組にはある塾に通っている生徒が多く、その塾では実際に効果的な英単語学習法Zを使わせていたとする。このとき、A組の生徒の英単語力をお仕上げたのは、学習法Xというより学習法Zだった可能性が高くなってしまう。

まとめると、RCTは、処遇をランダムに割り当てることで、未知の要因も含めて両群を等質化することができ、だからこそ、アウトカムの差を因果効果の推定値として見なすことができるのである。 上の例で言えば、その塾が学習法Zを使わせているという事実を、実験者がまったく知らなかったとしても統制可能になるということである。 なぜなら、その塾への通学/非通学もランダムに配分されるからである。

非RCT(準実験・観察データ)

ランダム割当を用いない準実験・観察データの場合、事後的に内的妥当性を担保することになる。 提案されている統計手法は多岐にわたるため、それらを逐一解説する余裕はないが、背後にあるアイディアは共通している。 それは、処遇とアウトカムの間に介在する共変量について、何らかの仮定に基づいて、統計的にバランスをとるというものである。

この点を図示したものが図NNNである。


f:id:TerasawaT:20200402162304p:plain

図NNN 共変量の調整に関する違い


図に示したとおり、RCTの場合にも共変量(未知の変数も含む)の介在があるが、ランダム割当で両群を等質化できれば、無視できると考えられる。 一方、ランダム割当を行わない場合、そのままでは共変量がアンバランスになっている危険性があり、これの調整なしには因果効果が推定できない。

共変量の調整方法として、様々なものが提案されており、解説書も数多い。 英語教育研究で使用頻度が高そうなものは、たとえば、重回帰分析、共分散分析(ANCOVA)、共分散構造分析(構造方程式モデリング: SEM)、層別解析、傾向スコア、差の差分析などである。

各手法の細かな説明は解説書に譲るが1、共変量調整の手続きが最もイメージしやすいのは層別解析だろう。 層別解析は、その名の通り、共変量を複数の階層にわけ、それぞれの層で別個に効果を計算する手法である。

前述の英単語学習法Xに関する研究を例にとろう。 学習法の選択を生徒の選択に任せたため、動機づけの強い生徒は学習法Xを、そうでない生徒は通常の学習法を選ぶという傾向が生じたとする。 このとき、Xで学んだ群と学ばなかった群の成果をそのまま比較すると、前者のほうが有利になり、学習法Xの効果を過大評価しかねない。 フェアな比較をするには、たとえば「動機づけ〈高い〉群、〈やや高い〉群、〈中程度〉群 … 」のように層化したうえで、各層でそれぞれ効果を検討すればよい。

しかしながら、これは、動機づけが重要な共変量であることがあらかじめ当たりが付いているときだけにできる対処である。 未知の変数はまったくお手上げであり、そうでなくとも、調査後に重要性に気づいた変数(つまり、測定していない変数)についても対処できない。

この問題は、層別解析だけでなく、上述の共変量調整法すべてについてまわる問題であり、これが人為的方法の重大な限界である。

内的妥当性の不備の例

以上が内的妥当性を向上させる方法に関する簡単な説明であるが、英語教育研究では、この点を逸脱する研究がしばしば行われてきた。 節の最後に、「反面教師」としての内的妥当性の不備の例を2点論じたい。

比較対象を欠いた分析

第1が、前述した、比較対象を用意しない成果報告である。 たしかに、たとえばモデル校や「イノベーティブな教授法」の成果を実際に目のあたりにすると、たとえ比較対象がなかったとしても、その指導こそが成果をもたらしたのだとつい思いたくなってしまう (たとえば、「○○さんは子ども全員を東大に入れた」という驚異的な成果を目にすると、つい「○○さんの子育て法・教育法を使えば学力が上がる」と考えやすい 2)。

しかし、比較を欠いたがゆえに、因果効果を見誤る例は枚挙にいとまがない。 なかでも、教育で特に注意すべきが、学習者の発達的な力である。 学習者は、極端な場合、放っておいても成長する場合がある(幼児は通常、集中的なトレーニングなどしなくても、語彙をどんどん習得していく)。 したがって、ある成果が処遇の結果なのか発達の結果なのかわからない場合は多い。

また、プログラム外の様々な要因が学習者に与える点にも注意が必要である。 たとえば、先進的な教育プログラムを導入した学校の生徒は、そのプログラムからだけではなく、学校内外の様々な環境(塾、自学用教材、家族、マスメディア等)を通しても学習を深めるはずである。 こうした環境要因によって、極端な話、放っておいても成果が出る可能性もゼロではない。 この点を真剣に考えるならば、やはり、比較の視点は不可欠である。

共変量に対する考慮のない分析

内的妥当性に不備がある英語教育研究の2つ目の例が、共変量への考慮のない研究である。 英語教育では、t検定や分散分析など、処遇とアウトカムの2変数だけが介在する統計手法が頻繁に用いられる。

こうした手法は、ランダム割当を伴う実験の文脈で発達したものであり、RCTで用いるのは問題ないが、準実験や観察データではバイアスが生じる危険性を抱えている。

英語教育では、ランダム割当ができない場面も多く、その際には共変量調整によって内的妥当性の向上の努力が必要である。 しかしながら、適切ではない場面でも t検定や分散分析が広く行われている現状がある。

たしかに、考え得る共変量のすべてを測定・調整することは容易ではない。 しかし、現実的に調整可能な変数があるにもかかわらず、調整を行っていない研究は実際に多い。 いわば「t検定・分散分析」万能幻想があるためだと思われるが、研究計画の段階から共変量調整を想定した設計をすべきである。


  1. 理論的な説明も丁寧になされている解説書として星野 (2009) が、わかりやすい入門書として岩波データサイエンス (2015?) や安井 (2020 効果検証入門) などがある。また、啓蒙的なものとして、中室・津川 (2017) も良書である。

  2. この論法はメディアなど至るところで見かけ、なぜか説得力はあるもが、実際にはその因果関係は不明である。極端な例だが、もし○○さんが独自の教育法などせず、完全放任の子育てをしていたら、子供たちは全員東大どころか、もっと上のレベルに達していた(20代でノーベル××賞をとっていた)かもしれない。○○さんの教育法は、類まれな天才児たちを適度に「スポイル」したという可能性である。「完全放任をしていた場合」が、このときの比較対象である。

英語教育において良いエビデンスを得るためのリサーチデザイン:内的妥当性・外的妥当性(その1)

以下の記事のつづきです。


NNN章の図NNNで示したとおり、英語教育において良いエビデンスを得るには、概略的に言って、(1) 因果効果の科学的推論、(2) 処遇の定義・測定方法の合意形成、(3) アウトカムの定義・測定方法の合意形成が必要である。

以上のうち、本章では形式的に論じやすい (1) に焦点をあてる。 特に、そのコアを成す原理である内的妥当性・外的妥当性について具体的に論じたい。

エビデンス階層について

具体的な議論に入る前に、エビデンス階層と内的/外的妥当性の関係をあらためて確認したい。

NNN章で論じたとおり、エビデンス階層は、エビデンスの質を格付けするシステムである。 格付けを構成する原理が、内的妥当性・外的妥当性で、これらがそれぞれ高いほど良いエビデンスということになる。

両者はまったく別種の原理であるが、あえて共通点を見出すと、推定におけるバイアスの低減にかかわるという点で似ている。 つまり、内的妥当性は因果効果における選択バイアスに、外的妥当性は被験者(あるいは調査参加者)のサンプリングバイアスにそれぞれ対応するものである。

また、バイアスを低減するには、大別して2つのアプローチがある。 ひとつが、確率の力、すなわちランダムネスを利用した非人為的な方法であり、 もうひとつが、事後的に様々な工夫を行うことによる非確率的、つまり人為的な方法である。 一般的に言って、バイアスを確率的に評価できる前者が圧倒的に強力である。 一方、後者は、様々な仮定に基づきながら分析結果を構成するため、どうしても恣意的な部分が残る。

以上を整理すると表NNNのようになる。 内的/外的妥当性、横の行にバイアス低減の方法(非人為的/人為的)が並ぶ。


I. 内的妥当性 E. 外的妥当性
P. 確率的(非人為的)方法 (PI) ランダム割当による比較(RCT) (PE) ランダムサンプリング
N. 非確率的(人為的)方法 (NI) 様々な統計的因果推論方法 (NE-1) 研究を多数集めて統合(システマティックレビュー/メタアナリシス)
(NE-2) 理論・背景知識・常識に照らして妥当なサンプリング
(NE-3) 文脈に関する豊富な記述

ここで最も強力な方法は、言うまでもなく、内的/外的妥当性いずれにもランダムネスを利用する PI & PE の組み合わせである。 つまり、ランダムサンプリングで集めた被験者をに対し、処遇をランダムに割り当てて、その後、アウトカムを比較する方法だが、現実的には非常に難しい1

したがって、次の方策として、内的/外的妥当性のいずれかに強力な確率的方法を用い、残りの一方を人為的な工夫で対処することが考えられる。 事実、医療(EBM)において一般的なエビデンス階層で最良のエビデンスとされているものは、内的妥当性を毀損するバイアスを確率的に制御(PI)したうえで、メタアナリシスにより外的妥当性にかかわるバイアスを人為的に低減(NE)したものである。2

一方、教育政策や一般度の高い教育実践など、多くの人が関与する処遇については、まずランダムサンプリングで外的妥当性を確率的に考慮(PE)したうえで、それを人為的工夫(具体的には統計手法)で内的妥当性の向上を図る(NI)というアプローチも当然ありえる。

以上の議論が示しているのは、「RCTのシステマティックレビュー」が常に最善の選択というわけではなく、分野や現象、文脈によって、異なるエビデンス階層(観察データを用いた方法)があり得るということである。 エビデンスに基づく教育(EBE)をめぐっては、推進派も慎重派もしばしばRCTの評価をめぐって論を戦わせてきたが、そもそもそのような焦点化は、医療(EBM)の特定の手続きに過度に引きづられた議論である。 エビデンス概念一般という点からは少々的を外していると思われる。

そもそも階層化する必要があるのか

以上をさらに敷衍すると、エビデンスの質を考える上で本当に重要なのは、外的/内的妥当性であって、階層(レベル分け)ではないと述べることも可能である。

事実、その点にはすでに批判がある。 Stegenga (2014) は、エビデンス階層のカテゴリカルな格付け方法は、個々の実証研究を分類する方法として精度が悪く、また、硬直的すぎるとして、全面的に廃棄すべきだとしている。 ここまで強硬な批判でなかったとしても、エビデンス階層のレベル分けを固定的にとらえる見方は旗色が悪い たとえば、NNN章で見たエビデンス階層(表NNN)の提案元であるオックスフォードEBMセンターからして、これはランキングではなく、実際の運用は柔軟にすべきであると注意を喚起している (Howick et al. 2011)。

「RCTのシステマティックレビュー」を最上位に置くというアイディアも、限られた時間のなかで個々の患者に最適な処遇を探すという文脈で発展してきたものであると考えたほうがよいだろう。 たしかに、このような研究の文脈でランダムサンプリングは想定しづらい (「特定の病気の患者全員」という母集団を設定するのがまず困難であるし、仮に可能だとしても、そこからランダムに選ばれた患者に実験に協力してもらうのは至難の業だろう)。 対象が集団である場合には、別の優先順位の付け方があり得るし、エビデンスを評価する時間が十分にあるのなら、そもそも優先順位をつける必要すらないかもしれない(個々の研究を丁寧に見ればよい)。

もしエビデンス階層という考え方を棄却するならば、「エビデンスに基づいた英語教育」という枠組みの存在意義にすら疑問が湧いてくる。 この疑問はもっともだが、だとしても、内的/外的妥当性という原理の重要性は揺るがないし、これらの原理にしたがって研究の質を評価するというアイディアは依然貴重であると思われる。

NNN章の議論と合わせて考えると、階層的な格付けシステムよりも、ドメイン知識も統合したチェックリスト型の評価ガイドラインのほうが有用ではないかと考えられる。図NNNにそのイメージを記した。

f:id:TerasawaT:20200330100359p:plain
チェックリストの例

図NNNのうち、処遇・アウトカムの定義・測定はドメイン知識にかかわる多くの知見を文脈に即しながら検討しなければならないので一筋縄にはいかないが、内的/外的妥当性については形式的に議論しやすい。 この2原理は、英語教育研究のリサーチメソッドの教科書でも体系的に説明されることはあまり多くないようであり、ここで論じておくことは意義があるだろう。 以下、内的/外的妥当性の向上方法にどのようなものがあるか、それぞれ具体的に論じていこう。


つづく



  1. ランダムサンプリングかつランダム割当の数少ない実行例として、大規模調査で行われる質問紙実験がある(母集団からランダムに抽出された調査参加者に対し、異なる質問紙をランダムに与えることで、質問文(刺激文)の影響を見る実験)。しかしながら、一般的な教育研究においてこの種の研究デザインが利用できる文脈はほとんどないと考えられる。

  2. ただし、これはあくまで「一般的」な話である。医療においても、外的妥当性(サンプリング)により高い優先順位がつくことがあるからである。たとえば、Concato (2004) によると、RCTは、運用上、被験者を特定のタイプの患者に限定せざるを得ない、つまり外的妥当性が毀損される場合があり、その場合、サンプリングに配慮した観察研究のほうが良い成果を出す可能性がある。

どれだけエビデンス概念を英語教育に適用できるか/できないか(その3)

以下の記事のつづきです。


医療と教育の共通点・相違点

ここまでは、言ってみれば医療(EBM)内部での議論である。 以下より、英語教育との接点に論点を移したい。

「医療と教育は違う」

教育は医療のメタファーで頻繁に語られるが、同時に「教育は医療と違う」というフレーズも人口に膾炙している。 EBM/EBEの文脈で言えば、たとえば次のような相違点が指摘されてきた。

  • 医療と違い、教育においてランダム化比較試験(RCT)は倫理的に不可能である
  • たとえ倫理面がクリアされたとしても、RCTは現実的にも難しい
  • 医療の目標はわかりやすい(例、治癒や生存)。一方、教育の目標は多様である
  • 医療のアウトカムは数値化しやすいが、教育のアウトカムは質的に検討するべきものも多い
  • 教育は、多数の変数が介在する複雑なプロセスである
  • 教育は、介入の効果が判明するのに長い時間がかかる

上記の特徴づけは、的を射ていないものもあるが1、 たしかに厳密なRCTが困難である点はそのとおりである(完全なランダム割当には二重盲検法が必要だが、教育において二重盲検法が実現できる状況はほぼ皆無である)。 また、教育行為の多くは中長期的なスパンでアウトカムを考える必要があるのも事実だろう。

処遇やアウトカムの定義・測定

もうひとつ、あまり指摘されない重要な違いを付け加えたい。 それは、処遇の定義およびアウトカムの定義・測定に関するものである。 教育は、医療に比べ、この面の合意がきわめて難しいのである。

医療の場合、どのような処遇を標準的とするか(たとえば、投薬の量や間隔、手続き)について基礎科学(基礎医学、生理学、薬学等)による膨大なサポートがある。 アウトカムの定義・測定方法(例、特定の指標が何単位あがったら改善と見るか)も同様である。 もっとも、何を「処遇」「アウトカム」と見なすかは究極的には価値判断に依存するものであり、科学の力で自動的に決まるわけではない。 そうではなく、科学に基づいているという事実が、医療コミュニティ内の合意可能性を高めるのである。

一方、教育では、処遇・アウトカムの定義・測定に関して、基礎科学による根拠づけを得にくい。 指導を例にすれば、「指導法Xとは、○○を××というように教えること」と概念的に定義することは可能だが、反面、科学的指標に依存した形で指導法を定義することは難しい。 アウトカムの測定についても、心理測定による基礎づけがある少数の学力指標を除けば、多くの人が納得できる測定法は少ないだろう。

結局のところ、定義には、常識・レトリック・論争中の科学といった説得力の弱い根拠に基づくことになる。 そのため、教育関係者が容易に合意に至れるような基盤は期待できないのである。

以上の議論を、図NNNに模式的に示した。

f:id:TerasawaT:20200328153458p:plain
EBMとの違い

EBMのように、教育が科学化できる――正確に言えば、科学による正当化することで合意可能性が向上できる――領域は、処遇とアウトカムの間の因果推論の部分だけであることを示している。 一方、それ以外の部分は、討議を通した合意形成によるしかない。 これが、教育(を含む社会政策領域)において、エビデンス選択は本質的にネゴシーエションであると評されるゆえんである (Parkhurst, 2016)。

社会政策領域での合意形成は、高度に政治的な過程であり (ナトリ-, M. ほか, 2015)、真摯な学術的議論を積み重ねていけば自動的に実現できるわけではない。 しかし、だからこそ、学術コミュニティは、研究知見をアピールすることで政策過程に積極的に関わっていかなければならない。

教育の政策過程においても、処遇やアウトカムに関して荒唐無稽な定義が(主に非専門家から)飛び出すことがある。 たとえば、早寝早起き朝ごはん、大学英語入試の民間試験による代替、「生きる力」、グローバル人材としての資質等々。

こうした奇抜な定義を、無難かつ有益無害で合意可能なものに、修正・最適化していくには、その分野固有の知識、つまりドメイン知識が不可欠である。 ドメイン知識に基づいて議論するからこそ、クリアな線が引けなくとも、多くの人が合意可能な妥協点が探れるのである。 そして、その段階でやっと「エビデンスベースト○○」の枠組みを導入できるスタートラインに至る。 英語教育研究者は、「処遇→アウトカムの」因果推論に関する見識だけでなく、いやそれ以上に、定義・測定のドメイン知識にかかわる文脈で貢献していかなくてはならないだろう2

エビデンスベースト英語教育における残余領域

ここまで、EBPP/EBEの枠組みは、英語教育研究との相性が比較的良い(あくまで他の教育分野と比べて「比較的」だが)という前提で議論してきた。 一方、そうではない文脈もある。質的研究である。

事実、EBM/EBPP/EBEは明らかに量的研究を前提にしている(エビデンス階層がその典型である)。 では、質的研究との接点はどこにあるのだろうか。 以下、本章の締めくくりとして、英語教育研究における質的研究が、EBEといかに接続(不)可能か論じたい。

質的研究

前述の通り、英語教育研究は伝統的に量的研究が支配的な分野である。 一方、質的研究は長らく非主流派の位置に甘んじてきたが(寺沢, 2019くろしお)、近年は着実に存在感が増している。 それにしたがって、英語教育でも、量的研究・質的研究双方の位置づけをめぐる議論が深まりつつある。 同様に、EBEと質的研究の関係がどうあるべきかも議論を深めていく必要があるだろう3

私見としては、質的研究がEBEにとり得る態度として次の3つがあると考える。

  1. ドメイン知識に貢献」型: エビデンスのコアにある因果効果とは、すぐれて量的研究的な概念である。「○○指導法の効果」のような問いは質的研究の守備範囲ではない。一方で、処遇やアウトカムの定義をめぐる議論など、ドメイン知識にかかわる領域については、質的研究は大いに貢献できるだろう。
  2. 事例研究型: 因果効果は質的研究も検討可能である。その代表例が、事例研究である。教育現象では「効果」が生じる複雑な文脈を総合的に検討する必要がある。そう考えれば、要素還元主義的な「実験」などよりも、事例研究の貢献度の方がむしろ大きい。エビデンス階層のような格付けシステムも、こうした観点を反映するように根本的に修正すべきである。
  3. 相対化機能重視型: 質的研究は、量的研究のように、教育現象を静的に捉えない。常に流動的かつ複数的で複雑なプロセスとして見る。そもそも、現象の記述(たとえば「○○は××を向上させた」)は観察者に依存するわけで、固定的に確定できるものではない。であれば、社会に蔓延する「エビデンスに基づく効果的な○○」といった過度に単純化された言説に対し、批判・相対化するような対抗言説を編んでいくことこそが質的研究の役目である。

上記の説明にも示されているが、3つのアプローチは、認識論的前提に大きな違いがある。 つまり、「因果効果」という概念をどう理解するか、そして、経験主義 (empiricism) を前提にするかしないかという点で明確に見解の相違がある。 その点を整理したのが、表NNNである。


因果効果に対する態度 経験主義 (empiricism) に対する態度
1. 「ドメイン知識に貢献」型 限定的に理解 経験的
2. 事例研究型 緩やかに理解 経験的
3. 相対化機能重視型 因果効果という概念自体に批判的 解釈的 ・批判的 (critical)

表NNN 各アプローチの特徴


これらのアプローチのうち、どれが最も現実的かを議論するのは筆者の力量を越えている。 ただ、たまたま「質的研究」という総称的ラベルがついているが、そもそも根本的に別種のアプローチであり、優劣をつける議論はあまり生産的ではないように思われる。 それぞれの立場に立つ英語教育研究者が相互に対話していくべき論点であろう。


おわりに

本章では、EBPPの英語教育研究の適用可能性を、因果効果、エビデンス階層、医療との相違といった観点から検討してきた。 結論として言えることは、英語教育研究者の多くが関心を持っているテーマはEBPPとの枠組みと比較的親和的であるが、反面、教育における因果効果の検討には固有の困難さがあり、医療(EBM)並みに標準化された枠組みを「輸入」することはほとんど期待できない。

直輸入できる事例がないという事実は、英語教育研究が自ら枠組みを構築する必要があることを意味している。 その際は、総論だけでなく各論レベルで根本的な再検討が必要になるだろう。 たとえば、エビデンス階層は、現在、モデルとして流通しているもの――RCTのシステマティックレビューが最上位に来るもの――で本当に良いのか等である。 この点に関連する方法論的な検討は、NNN章で行う。

文献

略(すみません)


  1. 的を射ていないと考えられる部分は次の点である。第1に、倫理的にRCTをクリアする方法は多数研究されている(そもそも、EBMが患者をモルモットにできるわけもなく、倫理的な手続きを踏んでいる)。第2に、医療にもRCT実施が困難な現象もあり(例、疫学的対象)、RCTが困難なことが、即、EBPPの困難さを意味するわけではない。第3に、医療が目指すものも、究極的な目標という点でいえば多様性に富む(たとえば、患者のQOLや権利、あるいは家族を含めた幸福)。教育についても、「治癒・生存」並みにわかりやすい指標は(その合意可能性はともかく)想定可能である(たとえば、学力テストの点数)。第4に、人体の「小宇宙」という言葉があるように、医療行為にも多数の変数が介在する。むしろ、その多数の変数の介在をランダム化によって統制しようとする試みこそがRCTである。

  2. そもそも因果推論に関する実験デザイン・統計手法において、英語教育研究者は、データサイエンティストや経済学者にはかなわない。そうである以上、英語教育研究者の存在意義は、ドメイン知識が活かされる文脈にこそあると筆者は考える。

  3. 医療(EBM)にはすでに多くの蓄積があり、ナラティブのような質的データを統合する試みも提案されているが(ポープほか, 2009; シャロンほか, 2011)、現在でも標準的な位置を占めているとは言いがたい。

どれだけエビデンス概念を英語教育に適用できるか/できないか(その2)

昨日の記事の続きです。


英語教育研究との接点

では、英語教育研究がEBPPから(批判的に)学ぶには、どの論点に焦点化することが生産的だろうか。 結論から言うと、筆者は次のように考える。

  • エビデンスの定義は「因果効果の実証研究を格付けしたもの」とする (a-1)
  • 主として「つくる」「つたえる」の次元を検討する (b-1/b-2)
  • EBPP運動をとりまく社会的文脈は別稿に譲る

以上の境界設定は、かなり技術論寄りであり、社会的・政治的運動であるEBPPを、技術的な次元に矮小化する危険性があることは事実である。 しかしながら、既存の英語教育研究・英語教育政策を前提にすれば、この限定化には意義があると考える。

第1に、エビデンスの格付けというアイディアの有用性である。 英語教育研究では、国内外を問わず、EBMの誕生のはるか以前から、因果効果について論じる伝統があった(たとえば、「○○教授法を用いれば、英語力が伸びるか」「英語学習の開始年齢を早くすれば、英語力は向上するか」という問い)。 一方で、こうした研究成果の質が体系的に評価されることは少ない。その結果、知見は玉石混淆の状況であり、教育実践に活かされる形で研究統合が行われているとは言い難い。 こうした問題点を踏まえれば、エビデンスの「格付け」の側面を強調することには意義があるだろう。 この点の詳細はNNN節で検討する。

第2に、エビデンスを「つくる」「つたえる」に焦点化し、「つかう」は扱わない理由は、英語教育研究が「つくる」の段階に達していないからである。 EBMやEBPPで言うところの「つかう」は、実務者・政策決定者が研究成果を参照しながら、何をなすべきかを選択することであり、そのためにはエビデンスを集積したデータベースが不可欠である。 たとえば、医療(EBM)ではコクラン共同計画によるものが、社会政策ではキャンベル共同計画によるものが有名である。

しかしながら、英語教育分野にはそれに匹敵するものはない。 現場の英語教員が、自身の実践を改善するべく実証研究を探そうとしても、参照可能なデータベースはなく1、自ら一次文献に当たらざるを得ない(これは「つかう」というより実質的に「つたえる」の活動に近い)。 こうした状況を踏まえれば、とりあえず「つかう」以前の段階に焦点化して議論を展開することが無難だろう(詳細はNNN節)。

第三に、EBPP運動の社会背景・影響力についての検討を割愛する理由である。 当然ながら、この論点は英語教育研究も無縁ではない。 むしろ、前述の通り、英語教育研究は因果効果という考え方と親和的であり、また、認知科学から大きく影響を受けている(とりわけ心理学・言語学の影響が大きい)。 こうした事情から、非量的研究や社会科学研究はどちらかといえば低調であり、とりわけ教育研究一般と比較したときその低調ぶりは際立っている。

こうした状況を踏まえれば、「エビデンス(あるいは数値主義)の暴走」に警鐘を鳴らす意義は大きい。 しかしながら、以上の懸念は、EBPPという運動に起因するものというよりは、英語教育研究の固有の学的状況に起因するものであり、したがって、「英語教育研究批判」として包括的に検討したほうが生産的だろう2

エビデンスの格付け」とは?

英語教育界に蔓延する「効果」語り

前述の通り、英語教育研究には、特定の処遇の効果を実証的に検討する伝統があり、これは他の教育研究のなかでも特に際立った特徴である。 たとえば、英語教育では「○○を指導することの効果」「効果的な○○指導法」といったレトリックが浸透しているが、他の教育研究では、ストレートな因果関係で教育行為を論じることに慎重な場合も少なくない。 その背景の一つは、英語力のような数量化に馴染みやすいアウトカムばかりではないためだと考えられる。

教室指導と同様に、英語教育政策にも因果効果の枠組みが浸透している。 たとえば、近年の大学入試改革では「入試が変わらないから授業が変わらない/入試が変われば授業が変わる」という(不確かな)根拠をもとに、四技能型の民間試験の導入が推進されたことは記憶に新しい3。 また、小学校への英語教育導入も、早期開始が日本人の英語力向上に寄与するはずだという、(同じく不確かな)因果関係に基づいて推進された(寺沢, 2020)。

恣意的な選択という問題

因果効果という観点に注目する限り、英語教育は一見するとEBEの「先駆者」であるが、実際には以下の問題がある。

まず、権威主義によって、エビデンスの取捨選択が歪められるという問題である。 たとえば、著名な学者、いわゆる「カリスマ教師」、文部科学省教育委員会の人間、商業的に成功している出版物など、権威のある人物・媒体の主張は受け入れやすいが、その反面、研究成果に基づいた「地味」だが堅実な主張は埋もれてしまいやすい。

こうした歪みは、権威主義だけではなく、教師の指導ビリーフにも原因がある。 有効だと信じる指導法を支持してくれる研究結果は選択されやすく、反対に、都合が悪い結果は黙殺されやすいからである。

似たような状況は政策レベルでも起きている。 たとえば、日本の小学校英語教育の推進派は、とりわけその萌芽期は、早期英語教育の有効性を示した研究結果を選択的に強調する傾向があった。 文科省教育委員会も、小学校英語を導入する文脈においては、このような恣意的な取捨選択を多用してきた(寺沢, 2020)。

チェリーピッキングを避けるための格付け

こうした問題点は、「エビデンスのチェリーピッキング」(cherry picking of evidence) としてよく知られており (Parkhurst, 2006: Chap. 1)、その原因の少なくとも一部は、エビデンスを取捨選択するガイドラインを欠いていることだと考えられる。

事実、英語教育研究では、リサーチ方法論の隆盛にもかかわらず、研究の質を評価するガイドラインは発展していない4。 格付けは、研究者・教師が良識に基づいて行った研究に優劣をつけることに等しい。その意味で、非人間的な営みではあるが、こうした「有無を言わさぬ」格付けがあるからこそ、チェリーピッキングのリスクを軽減できている面は大きい。

エビデンス階層

もっとも、医療(EBM)は、質評価によるこうしたメリットをデメリットよりも重視したからこそ、格付けシステムが発展したと言える。 これは、エビデンス階層という名で知られている。

基本的な考え方

エビデンス階層の例を表NNNに示す。 これは、オックスフォード大学EBMセンターが2011年に発表した「治療による好影響に関するエビデンス階層」である (Oxford Centre of EBM, 2011)。 上層のエビデンスほど、意思決定に役立つものであるという宣言である。


  エビデンスの内容
Lv. 1(上層) ランダム化比較実験(実験群・対照群をランダムに割り当てた厳密な実験)のシステマティックレビュー
Lv. 2 個々のランダム化比較実験
劇的な効果を示した観察研究
Lv. 3 実験群・非実験群をランダムに割り当てていない比較研究
Lv. 4 症例を集めて比較した研究
Lv. 5(下層) 実験・調査データなしの、学理に基づく推論

表NNN オックスフォード大学EBMセンター「治療による好影響のエビデンス階層」(2011年)。筆者による意訳。


以下、もう少し具体的に説明しよう。

実証性

第1に、Lv. 4 と Lv. 5を分かつのは、実証的データの有無である。 たとえ既存の理論から考えて効果があると思われる処遇であっても、実際には効かないということは多々ある。 それは当然のことであり、当の「既存の理論」とはあくまで暫定的な理論だからである。 また、未知のメカニズムが効果を抑制している可能性も否定できない。 したがって、実際の効果を検証したもののほうが、机上の論理よりも、情報量が大きい。以上が、実証的データを優先する根拠である。

内的妥当性

第2に、Lv. 2・Lv. 3・Lv. 4の各境界はそれぞれの内的妥当性の強さに対応している。 内的妥当性とは、「処遇→アウトカム」における因果関係をどれだけ正確に、言い換えればどれだけバイアスが少なく、示すことができるかである。 たとえば、ある病気の患者に処遇Xを与えたところ治癒したとしたという事例があったとしよう(表のLv. 4 に相当)。 この事例が示唆に富むことは間違いないが、それだけで「処遇Xに効果があった」と結論づけるのは難しい。放っておいても(自然治癒力で)全く同じように治ったかもしれないし、本当に効いていたのはまったく注目されなかった別の処遇だったかもしれない。 したがって、効果をより正確に推定するためには、比較対照群(処遇Xを与えない群)を用意する必要がある(表のLv. 3に相当)

ただし、単に処置群・対照群を比較するだけでは不十分である。 「選択バイアス」が伴うからである。 たとえば、ある病気について重症者には処遇Xを与え、軽症者には何もしなかった(自然治癒力に任せる)という例で考えよう。 このとき、処遇の有無とアウトカム(治癒/非治癒)という2変数の関係だけを見ていると間違った結論を導きかねない(おそらく、「何もしなかった患者」のほうが治癒率が高くなるという矛盾めいた結果になる)。

このように処遇の有無が自発的に選択されるとき、因果関係の推定が不正確になる。 処遇・アウトカム以外の第三の変数(上の例では「重症者か軽症者か」)が介在するからである。 重症/軽症という変数であればまだわかりやすいが、これが未知の変数――あるいは研究者によって観測されていない変数――の場合、バイアスの大きさを事後的に評価するのは不可能である。

このバイアスの解決策が、ランダム化比較試験(RCT: Randomized Controlled Trial)である(表の Lv. 2 に相当)。 RCTは、患者に「処遇を与える/与えない」をランダムに決めてその後のアウトカムを比較する実験である。 ランダムに割り当てることにより、あらゆる第三の変数・未知の変数も、処置群と対照群にランダムに配分される。その結果、2つの群は処置の有無以外は等質の集団になり、これではじめて処遇Xの因果効果を正しく推定できる。

外的妥当性

第3に、Lv. 1 と Lv. 2 の境界は、外的妥当性に相当する。 外的妥当性とは、ある研究の結果が、他の集団(究極的には母集団)にもどれだけ適用できるかである。

たとえば、A氏という研究者が、RCTを用いて処遇Xの因果効果を推定したとしよう。 このとき、この効果はあくまでA氏が集めた実験参加者においては効果的だったという限定がつく。 したがって、B氏の実験参加者、C氏の実験参加者、D氏の…等々、他の人々にも同様の効果が得られる保証はない。

因果効果をリサーチする目的は、できるだけ多くの人に(究極的には人類全体に)効く方法を見つけることにあり、そのためには、特定のサンプルだけではなく、より多くの、より多様なサンプルにおける効果を知る必要がある。 ここでEBMが一般的に採用しているのは、システマティックレビューである(表 Lv. 1 に相当)。 個々のRCTの効果をメタアナリシスによって統合し、より大きな集団から得た一般的効果を推計する手法である。

格付けを貫く原理

以上、医療(EBM)を例に、エビデンス階層の実際を簡単に説明した。 EBMから英語教育研究が学ぶべきは、格付けのパッケージそのものではなく、格付けの背後にある原理である(当然ながら、医療で発展したパッケージをそのまま教育に転用できるはずがない)。

その原理とは、前述の実証データ、内的妥当性、外的妥当性の3点である。 実証データの重要性は論をまたないと思うが、慎重な考慮を必要とするのが内的妥当性と外的妥当性の順序である。

表NNNのEBMの例では、内的妥当性→外的妥当性の順序だった。 具体的に言えば、まずRCTで内的妥当性を担保した上で、さらに、システマティックレビューで外的妥当性を担保するという手続きである。

しかしながら、2つの妥当性はそもそもまったく別種のものであり、優先度が理論的に決まっているわけではない。 EBMの「内的妥当性→外的妥当性」という順序はあくまで医療分野における慣習的なものと理解すべきだろう(もっとも、「慣習的」とは言っても、きちんとした理由のある「慣習」である。後述)。 したがって、あらゆる分野がEBMの順序を踏襲する必然性はない。 つまり、「外的妥当性→内的妥当性」という順序も当然あり得るはずである。 さらに言えば、そもそも2つの妥当性に順序を想定する必要があるのかという議論もあり得る。これについては、NNN節で論じる。


(つづく)


  1. もちろん言語教育研究分野にもデータベースのプロジェクトはあるが――たとえば、Instruments for Research into Second Languages (IRIS) ――、前述の「玉石混淆」の問題点をクリアしているものはほぼない。そもそも、この手のデータベースの設計思想(「言語研究に学術的な貢献をする」)は、EBPPのそれ(「実務者の意思決定に貢献する」)とは大きく異なるだろう。

  2. 特に英米の英語教育研究あるいは応用言語学では、こうした状況への問い直しは近年特に進んでいる(e.g. Pennycook, 2001; Block, 2003; Atkinson, 2011)。

  3. この論拠に「不確かな」と注釈をつけざるを得ない理由は、寺沢 (2019未草) を参照。

  4. もちろん「より良いリサーチとは?」といった議論は行われているが、せいぜいリサーチ法の教科書などで散発的に論じられている程度である。また、言語教育研究・応用言語学におけるレビュー論文には、メタアナリシスをしているものも含めて、質に対する評価をしていないものが多い。もっとも、格付けによって質が劣るものをスクリーニングしてしまっては、研究の数が確保できないという事情もあるかもしれない。