こにしき(言葉・日本社会・教育)

関西学院大学(2016.04~)の寺沢拓敬のブログです(専門:言語社会学)。

外国語教育研究に「統計ソフトR」を使おう!(その2)

外国語教育研究に「統計ソフトR」を使おう!(その1)の続編です。以下の(独善的)フローチャートに基づいて、Rの意義をご説明します。


(1)自分で統計解析をする必要があるか?

外国語教育研究に携わるのであれば、論文の多くが計量的な手法で行われていることを考えても、統計学および統計解析(ここでは、「統計学」と「統計解析」はとりあえず別個のものと考えたほうが都合がいいと考えています*1)の素養は不可欠だと思いますが、だからといってすべての人が統計ソフトの操作にも習熟しなければいけないとも思いません。したがって、非量的な研究一本で行こうという覚悟がある方は、統計学に関する基本的な知識をカバーしておくだけで問題ないと思います。

(2)統計解析のうち、必要なものは単純集計程度か?それとも発展的な手法も必要か?

統計解析と言ってもピンからキリまでありますが、本当に基礎的なレベルのものしか必要ないという方にとっても、統計解析専用のパッケージは必要ないと思います。具体的には、サンプルの単純集計(平均や分散、パーセンテージなど)程度の情報のみが必要であれば、表計算ソフトで十分でしょう(ここでは主として、歴史研究やエスノグラフィーなどを想定しています)。


基本的な手法といっても、これが「検定」(推測統計学)になってくると若干微妙です。たしかにMSエクセルなどでも「分析ツール」というアドオンを導入すれば、各種「検定」は可能ですが、信頼性の点で疑問があります(この点で、群馬大・青木繁伸先生によるMSエクセル批判は必読です)。ですので、たとえば「有意差あるなし」の議論をしたいのであれば、専用の統計パッケージを使用することをおすすめします。

(3)経済的な余裕があるか?

Rの最大の利点のひとつが、無料であるということです。市販の統計パッケージ(ここでは「仮想敵」としてSPSSを想定しています)を購入する余裕がなければ、迷わず、Rを使うべきだと思います。


また、最近ではメインのパソコンに加えて、サブのパソコンを(それも複数台)所有している方も多いと思いますが、それぞれにライセンスを購入するのは、かなり大きな負担になるかもしれません。そうでなくても、複数台の間でのデータ移行も、けっこう面倒だったりします。Rの場合、USBメモリに入れたRで駆動できる*2ので、自宅のPCーモバイルPC―研究室のPCを、自由に横断できます。たとえば、研究室のPCやモバイルPCで中断した作業内容をそのまま自宅のPCで瞬時に続行できます。

(4)最先端の分析手法にもアンテナを張っておきたいか?

オープンソースという特性上、Rは、市販のパッケージに比べてアップデートが非常に速いということも重要な点です。統計学者から新たな手法や、従来のものよりも正確な手法(←こちらのほうが個人的には重要)が提案された場合、それに追いついていくためには、Rのほうが有利でしょう。


なお、SPSSの基本的なパッケージの場合(SPSS Baseだっけ?)、最先端の手法でなくても、対応していない分析手法があり(たとえば、「対応分析」「ロジスティック回帰」)、そういった場合には、アドバンスバージョンにアップグレードしなければいけません(有料)。ですので、自分の用いたい手法が明確であれば、それがSPSSで可能かどうか比較検討することも必要でしょう。

(5)大量のデータセットを分析したいか?

工学的なことは私にはよくわかりませんが、低スペックなPCで巨大なデータセットを扱うと、SPSSはよくフリーズしていました。もちろんRでも、とんでもない命令をすればフリーズしますが、SPSSほど重いという印象は受けません。


私は以前、(愚かにも)20000行×500列くらいのデータセットを(横着して)そのまま分析したことがありますが、しょっちゅうフリーズして困るということはありませんでした。100行×10列くらいのデータセットでは、動作に大きな違いはないでしょうが、常日頃、SPSSの動作に不満がある方なら、Rに乗り換えることのメリットは大きいと思います。

(6)SPSSにある程度習熟しているか?

最後の分岐がここです。SPSSにある程度習熟しており、かつ経済的にも実用的にも不満を感じていないのであれば、Rに乗り換えるメリットはそれほど多くないと思います。


逆に言うと、既に他に慣れ親しんだ統計ソフトがないのであれば、まずRから入門しても、それほど大差ないと思います。確かに、RのほうがSPSSよりも最初のハードルはやや高く(SPSSは、表計算ソフトとのアナロジーで捉えられる部分が多い)、プログラミング的なことを覚えなければいけない分、回り道に感じるかもしれませんが、最終的に必要なコストはそれほど変わらないと思います。


なお、SPSSに習熟している方なら、おそらく、SPSSの「シンタクス」機能(統計解析の命令を、メニューからではなく、キーボードで直接打ち込む)を使っていると思います。シンタクスも一種のコマンドラインですので、Rの考え方と大差なく、乗り換えに伴う学習コストはそれほど多くないと思います(ただし、関数はまったく違うので、その点は一から覚えなければいけませんが...)


  * * *

具体的な使い方については「その3」に続きます。
ちなみに、応援コメントがないと、書くモチベーションが徐々に減退していきますので、もし続きを読みたい方が万が一でもいらっしゃいましたら、どうぞよろしくお願い致します(笑)

*1:統計学」は、数理的に抽象化された体系で、一方、「統計解析」は、現実の雑多なデータに「統計学」の抽象的な体系をどのように適用するかに関する知識の集合と考えています。

*2:ただし、私の環境(Windows XP, Vista)でしか確認していません。