こにしき(言葉・日本社会・教育)

関西学院大学(2016.04~)の寺沢拓敬のブログです(専門:言語社会学)。

傾向スコア分析のRパッケージ(個人的メモ)

最近、傾向スコア分析を再勉強している。

非常におおざっぱに言えば、無作為割り当てが不可能な調査観察データにおいて、擬似的に無作為割り当て状況を作り出す手法。

もう少し噛み砕いて言えば、「似たもの同士」を探してそのペアを比較する手法と言えばわかりやすいだろうか。このように、分析の中心的な考え方は「ペアの比較」なので分析レベルではかなりシンプルな手法だが、どのような基準で「似たもの同士」を定義するか(「マッチング」と呼ばれる)がけっこう複雑。

じじつ、数年前、『調査観察データの因果推論』(下記)を読んだときはほとんど理解できなかった。


ただ、以下の入門論文を読むと、この本の言ってたことがだいぶクリアになった。以下の論文が「とてもわかりやすい!」というよりは、数年前の学習効果が遅れて発現したという面もあるだろうが。ちなみに以下の論文はどちらもオープンアクセス(つまり無料)。


Austin, Peter C. An Introduction to Propensity Score Methods for Reducing the Effects of Confounding in Observational Studies. Multivariate Behavioral Research, 46(3), 2011.
http://www.tandfonline.com/doi/abs/10.1080/00273171.2011.568786


Stuart, Elizabeth A. Matching Methods for Causal Inference: A Review and a Look Forward. Statistical Science 25 (2010), no. 1, 1--21. doi:10.1214/09-STS313.
http://projecteuclid.org/euclid.ss/1280841730


傾向スコアマッチングの直感的な説明はこの統計啓蒙書でもわかりやすく紹介されている(数式は出てこない)。

統計学が最強の学問である

統計学が最強の学問である

Rパッケージ

以下、主に上記 Stuart(2010) を参考にして、傾向スコア分析用に開発されたRパッケージを転記。


どうも傾向スコア分析の「オールインワン」的なパッケージはないようだ。当然といえば当然かもしれないが、分析の第1段階である「傾向スコアの推定」自体は、ロジスティック回帰やプロビット回帰など既存のR関数を使って「自力で算出してください」というスタンスのようだ。以下のパッケージの多くが、「推定された傾向スコアから、いかにペアを作っていくか」という部分に特化されているようだ。


なお、マッチングとはまた違う、IPWによる調整(傾向スコアの逆数をウェイトとして投入する方法)は、新たなパッケージなどインストールしなくても、Rのデフォルトの関数で可能のようだ。

cem

CEM: Coarsened Exact Matching Software | GARY KING
観察データの因果効果推定の統計パッケージCEM。RやStata だけでなくSPSSのもある(R以外は未確認)。
ウェブサイト上にあるマニュアルも傾向スコア分析の要点をわかりやすく紹介している。

Matching

Jasjeet Sekhon's Multivariate and Propensity Score Matching Software for Causal Inference

Matching というRパッケージ。プログラムの中身はよくわかってないがとりあえず、ガラガラポン分析としてちょっといじってみた。操作感はかなりわかりやすくできていると思った。

「計量政治学における因果的推論」

話は少しそれるが、上記のMatchItパッケージの開発者の一人である、今井氏の日本語解説論文もネットで読める(著者のウェブサイトにPDFがアップロードされている)。

rbounds

Luke Keele's Software For Rosenbaum Bounds
Sensitivity analysis (「感度分析」と訳すのかな)のパッケージ。Sensitivity analysis は、おおざっぱに言えば、「観察されない変数群」によるバイアスが無視できるかどうかをチェックする手法。

PSAgraphics

Helmereich & Pruzek. : An R Package to Support Propensity Score Analysis. Journal of Statistical Software
http://www.jstatsoft.org/v29/i06/paper
推定された傾向スコアを描画することに特化したパッケージ。視覚的に分布を確認することで、潜在的なバイアスの存在を検討できる。