最近、傾向スコア分析を再勉強している。
非常におおざっぱに言えば、無作為割り当てが不可能な調査観察データにおいて、擬似的に無作為割り当て状況を作り出す手法。
もう少し噛み砕いて言えば、「似たもの同士」を探してそのペアを比較する手法と言えばわかりやすいだろうか。このように、分析の中心的な考え方は「ペアの比較」なので分析レベルではかなりシンプルな手法だが、どのような基準で「似たもの同士」を定義するか(「マッチング」と呼ばれる)がけっこう複雑。
じじつ、数年前、『調査観察データの因果推論』(下記)を読んだときはほとんど理解できなかった。
調査観察データの統計科学―因果推論・選択バイアス・データ融合 (シリーズ確率と情報の科学)
- 作者: 星野崇宏
- 出版社/メーカー: 岩波書店
- 発売日: 2009/07/29
- メディア: 単行本
- 購入: 29人 クリック: 285回
- この商品を含むブログ (26件) を見る
ただ、以下の入門論文を読むと、この本の言ってたことがだいぶクリアになった。以下の論文が「とてもわかりやすい!」というよりは、数年前の学習効果が遅れて発現したという面もあるだろうが。ちなみに以下の論文はどちらもオープンアクセス(つまり無料)。
傾向スコアマッチングの直感的な説明はこの統計啓蒙書でもわかりやすく紹介されている(数式は出てこない)。
- 作者: 西内啓
- 出版社/メーカー: ダイヤモンド社
- 発売日: 2013/01/24
- メディア: 単行本(ソフトカバー)
- 購入: 11人 クリック: 209回
- この商品を含むブログ (129件) を見る
Rパッケージ
以下、主に上記 Stuart(2010) を参考にして、傾向スコア分析用に開発されたRパッケージを転記。
どうも傾向スコア分析の「オールインワン」的なパッケージはないようだ。当然といえば当然かもしれないが、分析の第1段階である「傾向スコアの推定」自体は、ロジスティック回帰やプロビット回帰など既存のR関数を使って「自力で算出してください」というスタンスのようだ。以下のパッケージの多くが、「推定された傾向スコアから、いかにペアを作っていくか」という部分に特化されているようだ。
なお、マッチングとはまた違う、IPWによる調整(傾向スコアの逆数をウェイトとして投入する方法)は、新たなパッケージなどインストールしなくても、Rのデフォルトの関数で可能のようだ。
- この点については、上記星野氏の書籍の付録で詳しく紹介されている。また以下の記事にも同様の内容がある:
調査観察データにおける因果推論(3) - Rによる傾向スコア,IPW推定量,二重にロバストな推定量の算出 - About connecting the dots.
cem
CEM: Coarsened Exact Matching Software | GARY KING
観察データの因果効果推定の統計パッケージCEM。RやStata だけでなくSPSSのもある(R以外は未確認)。
ウェブサイト上にあるマニュアルも傾向スコア分析の要点をわかりやすく紹介している。
Matching
Jasjeet Sekhon's Multivariate and Propensity Score Matching Software for Causal Inference
Matching というRパッケージ。プログラムの中身はよくわかってないがとりあえず、ガラガラポン分析としてちょっといじってみた。操作感はかなりわかりやすくできていると思った。
「計量政治学における因果的推論」
話は少しそれるが、上記のMatchItパッケージの開発者の一人である、今井氏の日本語解説論文もネットで読める(著者のウェブサイトにPDFがアップロードされている)。
- 今井耕介「計量政治学における因果的推論」『レヴァイアサン』
http://imai.princeton.edu/research/files/Leviathan.pdf
rbounds
Luke Keele's Software For Rosenbaum Bounds
Sensitivity analysis (「感度分析」と訳すのかな)のパッケージ。Sensitivity analysis は、おおざっぱに言えば、「観察されない変数群」によるバイアスが無視できるかどうかをチェックする手法。
PSAgraphics
Helmereich & Pruzek. : An R Package to Support Propensity Score Analysis. Journal of Statistical Software
http://www.jstatsoft.org/v29/i06/paper
推定された傾向スコアを描画することに特化したパッケージ。視覚的に分布を確認することで、潜在的なバイアスの存在を検討できる。