一流論文に「まねぶ」ーコードからレプリケーション篇ー

「学ぶ」の語源と「真似ぶ」の語源は同じらしい。実際のところどうなのかは知らないが、私は「学ぶ=真似をする」という説明をえらく気に入っている。ということで、何か新しいことを始めるときに真似をしてみるというのはとても大事だと思う。

では、新しいことを学ぶ時にどう学べばいいだろうか。無論、いわゆる「入門書」も大事だが、ここでは一流論文の「レプリケーション」を使って、たまたま私が勉強する必要があった時系列分析について勉強してみたい。ちなみにいわゆる入門書は以下の本がある。

www.amazon.co.jp

要は、入門書というのは入門書であって、それが実際にどのように研究で使えるかという観点からすれば、必要ではあるが、実際の研究との間に距離がある。それをレプリケーションで学ぶことによって、一気に埋めてしまおうということだ。

さて、近頃の計量政治学（というか「科学」全般)はレプリケーションを大事にしている。要は同じデータ同じコードを用いれば同じ結果(図とか表とか)を得られるという手続的な透明性である。そのため、論文が出版される際に、一緒にその論文の図表を作成するために用いたデータや分析コードが一緒にアップされることが求められる。その際、Harvard Dataverse(以下、HD)は最も使われるアップ先である。今回は以下の論文のHDを使ってレプリケーションしてみたい。

論文

www.cambridge.org

その論文のHD

dataverse.harvard.edu

一流の計量政治学論文では大体主要な結果を示すための鮮やかな=一眼で分かる「図」を掲載している。著作権的に危ないので、図やコードは載せないが、私はFigure 2を気に入っている。なので、Figure 2の素となるコードとデータを使ってレプリケーションしてみる。ちなみに、この研究では、時系列分析の中のインパルス応答分析という手法の入門書では必ずと言っていいほど出てくる「図」があるのだが、この論文の本体には出てこずサプリメントに出てくるのみである。その代わりにFigure 2が出てくる。そうした教科書と実際との差をレプリケーションでは学べる。

まず、上記HDリンク先のデータ、ドキュメントを一括ダウンロードする。そして、Readme.pdfを読んでみると、Figure 2はどうやら03-Figure2.Rというコードを使って再現したものだということが分かる。なので、03-Figure2.Rをダウンロードして読んでみると、main-time-series.csvというデータが必要なことが分かる。なので、この2つを同じフォルダの中に用意してコードを実行してみる。すると当然だが、Figure 2が出来上がるはずである。この過程で、要は「教科書だけでは分からない」部分が色々学べる。例えば

1. 入門書的な分析からどうやって綺麗な図を作ることができるか

2. 時系列分析は実際に行う前に「設定」が必要であるが、その設定をプロはどうおこなっているか(この部分は論文にもちゃんと書いてある)

3. 分かりやすいコードとは何か

である。

ということで、何か新しいことを学ぶ際にレプリケーションのコードを分析してみようという話でした。

マイ・スウィート・ビーンズ

齋藤崇治。東大博士課程で政治学を研究しています。

一流論文に「まねぶ」ーコードからレプリケーション篇ー