テキストマイニングを分析手法に使った学術論文が増えているけれど,これの学術的評価(具体的には査読)はめちゃくちゃ難しくないですかという話です。
私の業界では,既存のソフトやサービスに突っ込んだだけで自前で細かい下処理・プログラミングを行っていないテキストマイニングが増えています。私の同業者には周知のとおりだと思います。
こういうのが査読に回ってきて,みなさんはいったいどのように評価(質の評価)をしているんでしょうか。ちょっと考えてみたら,かなりの難題だと気づいたので,以下,簡単にメモしておきます。
量的研究?
テキストマイニング論文の評価には,統計分析の伝統的な基準(統計学的仮定との適合とか)は使えません。ソフトに突っ込んだ出力結果だけなので。
質的研究?
伝統的な内容分析・質的研究のように,データをどうとったのかという文脈情報を重視して評価するというのも微妙。とくに,便宜抽出アンケートの自由記述のように,対象集団が曖昧な場合,その文字列が実際どんな水準の「実態」を反映しているのか不明。
解釈の正確性・妥当性?
その結果,消去法で,解釈の良し悪しで主に評価することになると思います。しかし,これも厄介。テキストマイニングの場合,超無難,つまり,自明過ぎる解釈はいくらでも量産できます1。したがって,解釈の正確性や説得力を基準にすると,テキストマイニングが他の手法に比べて異常に有利になってしまい,とてもアンフェアな状況に・・・。アンフェアだけでなく,私たちの「学術的によい論文」のイメージから直感的にもずれるはず。
新規性?
するとさらに消去法的に「テキストマイニングで出力された結果の解釈に新規性・発見性があること」という観点で評価されるべきなんだろうとは思います。もちろん,最低限の正確性・説得力は担保したうえでの新規性ですが。
で,この「新規性くらいしか評価基準がない」ということの最大に厄介なところは,研究の新規性・発見性は,有能な査読者でも多くは主観的にしか評価できない点。「この発見には新規性がない」という評価を,確たる根拠を持って行うのは,そのテーマに精通した一握りのひとしかできないのではないかと思う。たとえば,投稿者や編集長から「新規性がないとあなたは断言しているけど,そういうならそれ相応の根拠を出せ」というクレームが来た時,関係する先行研究を全部示せるくらいドメイン知識がある人じゃないと,なかなか「客観的に」とはいかなくなります。
そこそこきちんと準備して調査もやって書かれた論文が「この変数でこの統計手法は不適切」とか「半構造化インタビューのスクリプトが全然書かれておらず,著者の解釈をどれだけ信じてよいかわからない,説得力がない」のようなわかりやすい瑕疵でリジェクトされる一方で,自由記述をソフトに突っ込んだだけのテキストマイニングが表面的な瑕疵がないという理由で査読を通過するというのは不幸ですよね。
というわけで,査読者は,テキストマイニング論文については,新規性・発見性をコアにした「覚悟をもった」評価を行わないとアンフェアってことになると思います。
しかし,豊富なドメイン知識がないと,この「勇気」は単なる勇み足や独善的査読になりかねないので,良心的な人なら相当な覚悟がいるはず。。。
テキストマイニングが蔓延しつつある学会は,ガイドラインを真面目に検討すべき時期が来ているように思います。
- 今までで一番おもしろかったのが,「”準1級”と最も共起していた語は ”英検” であった」という発見(?)でした↩