Oscarson, M. 1989. Self-assessment of language proficiency: rationale and applications. Language Testing, 6 (1), 1-13.
上記の論文は、外国語能力の自己評価の妥当性を検討した論文。「自己評価」の測定方法をめぐる色々な考え方を整理し、自己評価が外国語教育・測定の様々な場面で役に立つことを強調している。
そもそもなぜこのテーマに私が興味を持ったのかというと、社会調査において言語能力設問(とりわけ英語力の設問)をどう扱えばよいかという問題につきあたっていたから。私の専門のひとつが、日本社会における英語に関する諸現象の計量分析分析なので、英語力設問を含んでいる社会調査は避けては通れない。そんなわけで、実践的関心も大いにあるテーマだった。
言語能力・外国語能力の自己評価設問は、有名どころでは、いくつかの国のセンサスや、ユーロバロメーター、アジア・バロメーターなどに入っている(「英語力」設問が多い)。そんなわけで、社会科学ではスタンダードだが、応用言語学でもないことはない(有名なのは、外国語習得に臨界「期」はないんじゃない?というのを米国センサスのデータで実証したケンジ・ハクタとエレン・ビアリストクの研究*1)。
ただその一方で、「自己評価は信頼できない」という声はよく聞く(又聞きだが、ある応用言語学の大御所も、上のハクタ&ビアリストクの研究は自己評価だからあてにならないと発言していたらしい)。
前述したように、自分は、社会調査の分析者なので、「自己評価は信頼できない」と言われてしまうと、けっこう、いや、かなり困るのである。上記 Oscarson 論文も、自己評価に対する否定的な評価にいろいろな根拠をあげて反論している。なので、一瞬「お!よくぞ言ってくれた!」と思ったのだが、実際は、次のようなことを言っていたのであった。
本論文の主張は、自己評価が教育的な目的で役立つということを主眼に置いている。選抜・成績評価を目的とした測定は第一義ではない。(大意、かなり意訳)
たしかに、入学試験や学業成績を「自己評価」でやられたらたまったものじゃないだろう。正直な人のほうが損をするシステムだ(でも、小学校の時、そういう成績の付け方あったなあ・・・)。一方で、動機付けを高めるとか、学んできたことへ意識を向けさせるという点では有効だ、という話。たしかに、客観的な点数を見せられるよりも効果が高い場合もありそうだ。
というわけで肝心の、「社会調査の目的」にとっては役立つのか役立たないのか、という話はでてこなかった。後に紹介する実証研究にも、教育上の有用性の話は出てくるが、社会調査への言及はない。ということは、この問題は自分で考えるしかない。
「自己評価」設問は、「社会調査」という目的で正当化できるか
以前にも書いたが*2、社会調査で「自己評価」を用いるのは、はっきり言ってしまえば、消極的な理由である。すなわち、サンプルが偏らないようにするため*3には、苦肉の策として、自己評価に頼らざるを得ない、という事情である。
社会調査で社会の「実態」をできるだけ適確につかもうとする場合、特定の集団だけに質問紙を配ることは許されない。「社会」を構成するメンバーに、等しい確率で質問紙が行き渡るようにしなければならない。何よりましてこれが最優先課題である。常識的に考えて、大学の教室で質問紙をばらまいても、たとえば「日本社会」の実態を調査したとは見なされないだろう。
等しい確率で質問紙が行き渡るようにするためには、「無作為抽出」と呼ばれる方法が必要である。これは、教室で質問紙をばらまく方法の、まあ、数百倍〜数千倍は面倒であり、時間・お金もかかる。ここで、言語能力などを「自己評価」ではなく、「第三者による評価」にしようとすると、さらに調査そのものの信頼性は下がる恐れがあり、またコストは倍加する。まず、質問紙にペーパーテストをつけるような方法だと、回収率は確実に下がる。「猫は好きですか嫌いですか」みたいな設問に○をつけるのは簡単だが、英語の試験なんかたまったもんじゃない、という人も多いはずだからだ(英語ができない人ばかりが回答拒否によって脱落すると、「日本人の9割は英語のニュース記事が読める!」みたいな結果になりかねない)。第三者が回答者の言語能力を評価するというデザインだと、コストがものすごく増える。「外国語語力の評価」ということになると、訓練された調査員が必要だし、そもそもインタビュー形式の無作為抽出調査は非常に「ぜいたく」な方法だ。。
というわけで、「自己評価か、第三者の評価か」という軸と、「無作為抽出か、そうでない抽出(=有意抽出)か」という軸を交差させると、つぎのような表になるわけだが、ここで、「第三者の評価を用いた無作為抽出」の調査とはまず不可能だ、ということになる。
等確率抽出(無作為抽出) | 有意抽出 | |
---|---|---|
自己評価 | 偏りのなさを重視する社会調査 例:内閣府各種世論調査、JGSS 問題点:測定の信頼性 |
事例研究や特定の集団の簡単なアンケート 例:モニターを利用したニーズ分析 問題点:母集団が未知、一般化不可能、測定の信頼性 |
第三者の評価 | 結果を母集団に一般化可能な言語テスト 例:全国学力テスト(抽出調査) 問題点:実施が非常に困難 |
特定の集団の能力測定を目的にした調査 例:TOEFLの国別平均得点を用いた国際比較 問題点:母集団が未知、一般化不可能 |
こういう実に厳しい「大人の事情(笑)」が伴うので、「自己評価は全然信頼できない」という結果がちょっとばかり出たからと言って、はいそうですか、と自己評価設問を取り下げるわけにはいかない。もう使うことはほぼ確定なので、出来る限り正確性が向上するように工夫するしかない。
そこで、どれだけ正確性/信頼性があるのか、という話だが、次の論文がその問題を扱っていた。これらをよむと、自己評価もそれほど悪くはなさそうだという話が書いてあり、ちょっとだけ胸をなで下ろした。
Blanche, P. & Merino, B. J. 1989. Self-Assessment of Foreign-Language Skills: Implications for Teachers and Researchers. Language Learning, 39 (3), 313-338.
Ross, S. 1998. Self-assessment in second language testing: a meta-analysis and analysis of experiential factors. Language Testing 15 (1), 1-20.
いずれも、多くの先行研究を整理したうえで、自己評価は、客観的な測定とどれだけ相関していて、どれだけ正確/不正確か、どれだけ信頼できる/できないのかを検討したものである。詳細については、つぎの記事で。(つづく)
*1:論文が著者のページにアップされている→http://goo.gl/PTCM2
*2:信頼性、認知科学、社会統計、代理指標 - こにしき(言葉、日本社会、教育)
*3:専門的に言えば、「代表性の確保」のため