以下の記事のつづき。
前の記事で述べたとおり、社会調査では、外国語能力など言語能力の自己評価による設問を入れざるを得ないので、じゃあ、どれだけ正確性/信頼性があって、そして、どういう工夫をすると正確性/信頼性が向上するのか、という問題が重要になってくる。
そこで参考になるのが次の論文。
Blanche, P. & Merino, B. J. 1989. Self-Assessment of Foreign-Language Skills: Implications for Teachers and Researchers. Language Learning, 39 (3), 313-338.
Ross, S. 1998. Self-assessment in second language testing: a meta-analysis and analysis of experiential factors. Language Testing 15 (1), 1-20.
前者はいわゆる先行研究レビューで、後者は先行研究のメタ分析。メタ分析も「レビュー」の特殊な一形態と言えるんだと思うが、大量の先行研究結果を相互に比較できるよう、統計学的に一般化された基準に基づいて比較している点が特徴。
「自己評価」は客観的評価とどれだけ相関するか?
いずれの論文も、先行研究の多くで、自己評価と客観的評価の相関は、相関係数でいうところの 0.50 〜 0.60 くらいだとしている(ただし、研究によってかなりのバリエーションがある、ということも両者は付け加えられているので要注意。ほとんど無相関の結果になった研究もごくわずかだがあったようだ)。
ここで重要な問題は、相関の度合い r = 0.50 を「信頼できない」と見るか「信頼できる」と見るかである。これはそれこそ、主観の問題である。というのもあれなので、まあ、一応の基準として、どれくらい的中率があるかをシミュレーションしてみる*1。。(ちなみに、けっこう専門的(で、したがってややミスリーディング)な話だが Cohen による効果量の基準では、r = 0.50 は 「大きな効果」とされている。Jacob Cohen. 1988. Statistical Power Analysis for the Behavioral Sciences. p. 80)
平均0、分散1の乱数を、ペアが相関係数 0.50 になるように1000ケース生成する。それをプロットすると例えば以下の感じになる。
ここで、自己評価と客観的評価が一致している(とりあえず、「0以上/0以下」で閾値を設定)ものを「的中群」として、そうでないものを「予測失敗群」とする。全ケース中の「成功群」がどれだけ増えるかを考える。当てずっぽうでも5割は正解できるはずなので、50%を越えれば越えるほど予測の精度が高まると考える。
乱数生成を1000回くりかえして、その都度、的中率を計算してみた。結果は以下の通り。
予測が成功する確率は、平均的には67%前後、悪くても6割は下回らないことがわかる。1000ケースもあればこれくらい安定して予測が行えるということだろう。ただ、逆に言えば、3回に1回は間違えるということなので、昨日の記事でも書いたとおり「個人の選別」にはとてもじゃないが使える代物ではないが、集団単位で平均値をとるようなデザインにすれば、ケース数が多くなればなるほど、精度はあがっていくことになる。
正確性をあげるには?
まず、上記の二つの研究いずれにも指摘されているのは、具体的状況に即した自己評価スケールのほうが、抽象的なものよりも相関が高いことである。特に、Ross の研究では、「具体的な経験」が正確性を高める効果をあげることを実証している(Ross論文の後半部分)。
[H]igher correlations were obtained between self-assessments based on such situational models and other examination results than between other examination results and global self-appraisals of "macro skills" like "writing" or "understanding a native speaker".
(Blanche & Merino 1989:324)
具体的な設問ににしたほうがよい、というのは直感的にも納得できる話である。
実際、多くの社会調査では具体的な設問(選択肢)を採用しており、その理由の一つは、抽象的なワーディング(「私は英語ができる/少しできる/できない」のような)を用いることの問題を意識してのことだろう。
解釈上の注意
リサーチデザイン(具体的には、設問作成)における工夫にくわえ、出てきた分析結果の解釈における工夫も重要だろう。たとえば、Blanche & Merino は、多くの研究の傾向として、ハイレベルのスキルの被験者のほうが過小評価しやすく、逆に、低いレベルの被験者の生徒は過大評価しやすいという可能性を指摘している(p.324)。
また、Ross論文では、リーディングスキルがもっとも精度がよかったという。その理由としては、リーディング学習は、外国語としての語学学習と第二言語としての語学学習にも頻繁に見られるもので、両者の差はあまりなく、特に外国語としての学習者にも、ある程度の経験があるため評価が容易だったのではないか、という理由を挙げている。こう考えると、日常使わないスキル・タスクに対する自己評価は、かなり幅をもって解釈した方がよいということがわかる。
*1:というか、シミュレーションしなくても、数式のderivationで導ける。