こにしき(言葉・日本社会・教育)

関西学院大学(2016.04~)の寺沢拓敬のブログです(専門:言語社会学)。

ウォッシュバック研究、7月下旬に読んだ文献

前口上

先日の記事「ウォッシュバックエフェクト研究の分類」の続き。

LET2018パネルディスカッション登壇という個人的事情により、専門外なのに、ウォッシュバックエフェクト(波及効果)について勉強している。

まあ、専門外とは言っても、件のパネルでは、「ウォッシュバック話法を政策研究としてどう考えたらよいか」という話しかしないので、私の専門のど真ん中と言えばど真ん中ではある(→要するにこういう話)。

で、その話の流れで、ウォッシュバックに関する先行研究を見渡す必要があって、7月頭ぐらいから勉強し始めた。当初は、「わー、参考文献のこれも大事そう。次から次へと読まなきゃいかんものが増えてくる!」っていう状態だったが、最近になってなくなってきた。読んでも読んでも「新しい主張」「著者独自の主張」を感じなくなってきた。いわゆる理論的飽和。

もちろん、「○○ということを誰がいつ言ったか」「誰が最初に言い出した人か」は学説史を考えるうえで大事だし、「テスティング研究で○○がどれだけ言及されてるかどうか」も学問領域の知的動向を批判的検討するうえでは必須だ。

だが、僕のようにどういう問題が認識されているのか/いないのかを知りたい場合、「新しい話」が書いてないものはあまり意味がない。

一応、備忘録として読んだものをメモしておく。内容ばかりか読んだ事実自体を忘れることがあるので・・・。

言語テストはもはや事実上の言語政策なんだ!

  • Menken, K. (2008). High-stakes tests as de facto language education policies. In E. Shohamy & N. H. Hornberger (Eds.), Encyclopedia of language and education (2nd ed., Vol. 7, pp. 401-413). Boston: Springer Science+Business Media LLC.

言語テストは単なる測定ツールじゃない、もはや事実上の言語政策なんだという話が書いてある。主に依拠している事例はやはり NCLB/Bilingual Education Act(アメリカの教育研究者にとって非常に重い事例ゆえ)

テストが政策的に使われるというのは、いわゆる「テストが導く英語教育改革」話法を引くまでもなく自明なんだが、重要なメッセージなので(たとえ当たり前でも)繰り返し主張していく必要があると思う。

the findings from the studies cited here show the effects of high-stakes tests as de facto language policy are often unintended. (p.410)

ところで、著者に限らず、政策なんだ!って叫ぶ言語テスト研究者(どちらかというとクリティカル系のテスティング研究者)はそれなりに多い。にもかかわらず、教育政策研究・公共政策研究を少しも引用していない。おそらくよく知らないのだろうなということはわかるので、ちょっとアレな気持ちになる。まあ、これは英語圏の言語政策研究者全般に当てはまる問題だとは思うけど。「政策」という名前がついている分野なのに、なぜか公共政策研究をあまり参照しない

教育改革と言語テスト

  • Brindley, G. (2008). Educational reform and language testing. In E. Shohamy & N. H. Hornberger (Eds.), Encyclopedia of language and education (2nd ed.) (pp. 365-378). Springer Science+Business Media LLC

教育改革のツールとして、テストはよく使われる、言語テストもそのひとつ、という割と普通の事が書いてある。ページを割いているのはやはりNCLB。やはり、テスト関係者にとって、NCLB法に対するトラウマ(?)は大きいのだろうなと思わせる。

テストは政策立案者にとって改革のツールだと認識されていて、そこが「テスト=測定ツール」と考えるテスト研究者と大きく違うみたいなことが書いてある。これはテスト研究者への警鐘か何かなの?自明に思えるが・・・。

Implementation は高度に政治的な要因によって左右されるので、専門家(テスト研究者)の意見が反映されにくいという指摘も重要。まあ、社会科学を勉強してる人間からしたらきわめて自明(学部1年生向けの教科書に必ず書いてあるレベル)なんだけど、この点を頭でわかっていても血肉化していないことは意外とあるかもしれない。「文科省はどうして我々専門家の意見を聞かないの?」というのを修辞疑問ではなくガチの疑問文で尋ねられたことが何度もある。

「テストが導く教育改革!」はお金が比較的かからない

あと、地味に次の指摘は重要

[Policy makers have used testing as a tool of reform because] it is relatively cheap compared to other major reforms such as reducing class sizes or improving teaching standards. (p.366)

文科省が過去30年間、実に多種多様な英語教育政策を展開してきた。多様性における数少ない共通点は、第一に、究極的には日本人の英語力アップを目指すものである点。第二に、比較的低コストの施策ばっかりやっている点だ。

英語力アップのために試験制度をいじるという施策は、たしかにクラスサイズ改善や教員研修などと比較すれば、低コストである。

また、学習指導要領に「英語の授業は英語で」という文言を書き込むという施策(と言えるのかはなはだ疑問だが)も、それで教師の行動が変わり、ひいては生徒の英語力がアップするという短絡的思考はさておき、史上稀に見るレベルの低コスト政策である。テストも指導要領の文言も、ネガティブなインセンティブであり、その点で「北風と太陽」でいうところの北風である。その意味で、文科省がやっているのは、そよ風レベルの北風を旅人に吹き付けているようなものだろうか。

ウォッシュバック研究の方法論

  • Watanabe, Y. 2004. 'Methodology in washback studies'. In Washback in Language Testing: Research Contents and Methods, edited by Curtis, A; Cheng, L; Watanabe, Y. Mahwah, New Jersey: Lawrence Erlbaum.

ウォッシュバックを研究するうえで、(1) 重要な概念的整理(いろいろな区別)、および、(2) 具体的な方法。

(a) Dimensions (pp.20ff)
  • Specificity: その波及効果は、テスト一般に当てはまるものか、当該テストに固有のものか。
  • Intensity: 強さ
  • Length: 持続時間
  • Intentionality: 波及を狙ったものか、そうじゃないか。
  • Value: ポジティブかネガティブか

政策研究者として気になる区別は(というか、こういうのが必要じゃないかなあっていう区別は)、以下のものがあるが、触れられていない。

  • テストは制度的強制力を持つか、非制度的なものか
  • 反実仮想モデルかどうか。
  • Validation のためのリサーチか、因果効果推定のためのリサーチか。

なお、反実仮想モデルというのは、「テスト受検者が、もし受検しなかったら、影響はどうなっていたか」「テスト非受検者が、もし受検したら場合、影響はどうなっていたか」を考えるモデル。因果効果を考える場合、自覚的であれ無自覚的であれ、みんな頭の中でこういうモデルを元にしている。一方、「××テストを導入した」ということは大前提で、その結果、どういう影響が現れたかを調べるのは、反実仮想モデルではない。このようなリサーチの場合、狭義の因果効果を調べているというよりは、事例を丁寧に記述する事例研究 and/or validation のための調査という性格が強いだろう。

(b) Aspects of Learning and Teaching That May Be Influenced by the Examination (pp.21ff)
  • 学習者への影響か、プログラムへの影響か (Bailey, 1996)

「プログラムへの影響」ってのはわかりづらいが、要するに、教師の行動が変化するかどうかって話だと思う。

これはミクロな影響を詳細に整理する上では重要な区別だろう。一方、私の目下の関心である「テストが導く教育改革」話法では、結局、

  • 試験制度変える → 英語教師の指導が変わる → 生徒の英語力アップ

という因果モデルなので、究極的には区別する意義はあまりないように思う。というか、逆に、もし教師の指導だけを検討するリサーチがあったとしたら、詰めが甘いということになってしまうだろうなお、「逆も然り」ではない。「教師の行動」と「生徒の英語力」、どちらか一方しか測定できない、どちらかを選べとなったら、迷わず因果連鎖の一番最後の「生徒の英語力」を検討するべきだから。

(c) Factors Mediating the Process of Washback Being Generated (pp.22ff)

中間変数として、様々な要因があるよという話。

test factors (e.g., test methods, test contents, skills tested, purpose of the test, decisions that will be made on the basis of test results, etc.); prestige factors (e.g., stakes of the test, status of the test within the entire educational system, etc.); personal factors (e.g., teachers' educational backgrounds, their beliefs about the best methods of teaching/learning, etc.); micro-context factors (e.g., the school setting in which the test preparation is being carried out); and macro-context factors, that is, the society where the test is used.

なお、やはり政策研究の視点からコメントしておく。

中間変数の詳しい検討は、メカニズムの特定にとっては非常に重要だが、政策効果をシンプルに検証したい場合は必ずしも必須というわけではない。理論的には、中間変数の作用をブラックボックスにした状態でも、「介入→アウトカム」の検証は可能だ。

メソドロジー

アンケート調査、インタビュー、エスノグラフィーなどが紹介されているが、要するに、応用言語学における代表的な「非言語分析系」メソッドである。

なお、言語分析系というのは私が便宜的につけたラベル(だが、それなりに有意義だとは思うラベル)で、コーパスとかディスコース分析とか、主たる従属変数が「言語」(あるいは言語使用)のもの。一方で、非言語分析系は、それ以外――たとえば心理学や社会学、人類学、教育学等々でやられていてもおかしくないもの――をひっくるめたもの。テストの波及効果はもはや後者であるのは間違いない。研究者が実際やってることは、言語現象そのものに興味があるのではなくて、結果としての行動に興味があるわけで。

逆に言うと、ウォッシュバック研究独自の方法はあまりないようだ(それは、無理もないと思うけど)。ただし、最初のほうにあげた文献が指摘するとおり、「テストはもはや言語政策」だという立場から考えると、政策分析(とくに英語圏言語政策研究者のゆるゆる分析ではなくて公共政策系の分析)も将来的にはラインナップに入ってくるだろう。(知らんけど)

ウォッシュバック研究の嚆矢

  • Alderson, C. and Wall, D. (1993). Does washback exist? Applied Linguistics 14(2), 115-129.

ウォッシュバック研究の嚆矢。あらゆる文献でほぼ必ず引用されている。学説史的には重要。書いてあることは(20年以上経っているのだから当然だが)普通。