當(dāng)計(jì)量經(jīng)濟(jì)學(xué)遭遇機(jī)器學(xué)習(xí)（二）

北書房2014 2018-04-01

展開全文

來(lái)源：計(jì)量經(jīng)濟(jì)學(xué)及Stata應(yīng)用

作者：陳強(qiáng)

上期回顧：

當(dāng)計(jì)量經(jīng)濟(jì)學(xué)遭遇機(jī)器學(xué)習(xí)：揭開機(jī)器學(xué)習(xí)的神秘面紗（一）

計(jì)量經(jīng)濟(jì)學(xué) vs. 機(jī)器學(xué)習(xí)

計(jì)量經(jīng)濟(jì)學(xué)家對(duì)于 Machine Learning 的學(xué)習(xí)框架似乎并不陌生?？v觀計(jì)量經(jīng)濟(jì)學(xué)在過(guò)去大幾十年的發(fā)展史，我們不是也念茲在茲地想估計(jì)這么一個(gè)函數(shù)

嗎？但為什么機(jī)器學(xué)習(xí)可以用于 “人工智能”（Artificial Intelligence，簡(jiǎn)記AI），而計(jì)量經(jīng)濟(jì)學(xué)卻無(wú)人問(wèn)津（影響力幾乎不出學(xué)術(shù)界）呢？

主要原因就在于二者的目標(biāo)不同。計(jì)量經(jīng)濟(jì)學(xué)的主要目標(biāo)在于 “因果推斷”（causal inferences），即推斷對(duì) 的因果作用。

為了識(shí)別并便于解釋此因果關(guān)系，經(jīng)濟(jì)學(xué)家通常需要對(duì) 的函數(shù)形式作很強(qiáng)的假定，比如線性回歸模型。然后，將所有精力集中于得到未知參數(shù) 的估計(jì)量，并針對(duì) 進(jìn)行統(tǒng)計(jì)推斷（點(diǎn)估計(jì)、區(qū)間估計(jì)、假設(shè)檢驗(yàn)等）。

總之，經(jīng)濟(jì)學(xué)家關(guān)注的重點(diǎn)就是，我們生活在（讀為 “ hat”）的世界里。事實(shí)上，大多數(shù)實(shí)證論文只是為了說(shuō)明，具有統(tǒng)計(jì)與經(jīng)濟(jì)的顯著性。

另一方面，機(jī)器學(xué)習(xí)的主要目標(biāo)在于 “預(yù)測(cè)”（prediction），即根據(jù) 來(lái)預(yù)測(cè) 。為了達(dá)到此目的，可以使用任何函數(shù) ，甚至是難以解釋的黑箱方法（比如神經(jīng)網(wǎng)絡(luò)）；只要預(yù)測(cè)效果好就行。

對(duì)于機(jī)器學(xué)習(xí)而言，即使有，也只是作為預(yù)測(cè)的中間手段與橋梁而已。機(jī)器學(xué)習(xí)的關(guān)注重點(diǎn)就是，幾乎完全生活在（讀為 “ hat”）的世界里，成功與否就看的預(yù)測(cè)效果。

計(jì)量經(jīng)濟(jì)學(xué)錯(cuò)過(guò)了大數(shù)據(jù)與ML革命？

在Quora上曾有個(gè)帖子，題為 “Why is the study of econometrics isolated from the big data/machine learning revolution”？似乎計(jì)量經(jīng)濟(jì)學(xué)已經(jīng)錯(cuò)過(guò)了大數(shù)據(jù)與機(jī)器學(xué)習(xí)的革命。

這或許有些言過(guò)其實(shí)或聳人聽聞。但時(shí)至今日，大多數(shù)計(jì)量經(jīng)濟(jì)學(xué)家與實(shí)證研究者對(duì)于機(jī)器學(xué)習(xí)依然興趣不大，或許卻是不爭(zhēng)的事實(shí)。為什么會(huì)這樣呢？

因果推斷與預(yù)測(cè)：二者關(guān)系之緊密超出你的想象

根本原因仍然在于計(jì)量經(jīng)濟(jì)學(xué)的研究目的與機(jī)器學(xué)習(xí)不同。簡(jiǎn)而言之，計(jì)量經(jīng)濟(jì)學(xué)的主要目的為 “因果推斷”（causal inferences）；而機(jī)器學(xué)習(xí)的主要目的為 “預(yù)測(cè)”（prediction），比如 “監(jiān)督學(xué)習(xí)”（supervised learning）。

眾所周知，做預(yù)測(cè)其實(shí)僅需要變量之間的相關(guān)關(guān)系即可，并不一定需要因果關(guān)系。比如，你看到街上有些人帶傘，就可以預(yù)測(cè)可能下雨；但人們帶傘顯然并不導(dǎo)致下雨。

因此，雖然機(jī)器學(xué)習(xí)的預(yù)測(cè)方法具有很高的商業(yè)價(jià)值，應(yīng)用廣泛；但經(jīng)濟(jì)學(xué)家可能認(rèn)為，“預(yù)測(cè)得再好，與我有什么關(guān)系呢，我只關(guān)注因果關(guān)系?。俊?盡管因果關(guān)系不見得帶來(lái)商機(jī)，但它有學(xué)術(shù)價(jià)值與社會(huì)意義，比如研究扶貧政策的效應(yīng)。即使不賺錢，也有高尚的動(dòng)機(jī)啊……

然而，認(rèn)為因果推斷不需要預(yù)測(cè)，這其實(shí)是一個(gè)常見的誤解。事實(shí)上，因果推斷的本質(zhì)恰恰是在做預(yù)測(cè)。比如，一個(gè)地區(qū) A 實(shí)施了扶貧政策，你想評(píng)估此政策的效應(yīng)。此時(shí)，A 地區(qū)扶貧之后的狀態(tài)可以度量，但最關(guān)鍵的信息卻不可觀測(cè)，即 A 地區(qū)如果沒有實(shí)施扶貧會(huì)怎么樣？對(duì)于這種反事實(shí)的結(jié)果（counterfactual outcome），就只能進(jìn)行估計(jì)或預(yù)測(cè)。這也正是 “魯賓因果模型”（Rubin's Causal Model）的核心思想。

具體來(lái)說(shuō)，一種可能的方法是找到一個(gè)沒有實(shí)施扶貧的地區(qū) B，它與實(shí)施扶貧的地區(qū) A 在各個(gè)方面都十分接近，但卻由于某種偶然原因而未得到扶貧。此時(shí)，就可以使用未扶貧地區(qū) B 的結(jié)果來(lái)預(yù)測(cè)扶貧地區(qū) A 如果未扶貧的反事實(shí)結(jié)果。這就是 “匹配估計(jì)量”（Matching Estimator）的基本思想。

不難看出，既然機(jī)器學(xué)習(xí)特別擅長(zhǎng)預(yù)測(cè)，那么計(jì)量經(jīng)濟(jì)學(xué)中的預(yù)測(cè)問(wèn)題，在不久的將來(lái)會(huì)越來(lái)越多地使用機(jī)器學(xué)習(xí)的方法，尤其是在 “處理效應(yīng)”（treatment effects）的領(lǐng)域。

比如，在使用 “傾向得分匹配”時(shí)（Propensity Score Matching），其第一階段為計(jì)算傾向得分（即個(gè)體得到處理或?qū)嵤┱叩母怕剩?，其本質(zhì)就是一個(gè)預(yù)測(cè)問(wèn)題，并不涉及因果關(guān)系。因此，只要預(yù)測(cè)精確度高，就可以使用各種 ML 的方法，為何非要使用 Logit 呢？

又比如，在進(jìn)行二階段最小二乘法回歸時(shí)（2SLS），其第一階段回歸在本質(zhì)上也是一個(gè)預(yù)測(cè)問(wèn)題，即找到與內(nèi)生變量最為相關(guān)的工具變量組合。因此，也可以在第一階段回歸使用 ML 的方法，尤其當(dāng)工具變量很多時(shí)（參見 MIT 教授 Victor Chernozhukov 等的最新研究）。

有些重要預(yù)測(cè)也離不開因果推斷

看來(lái)，機(jī)器學(xué)習(xí)會(huì)在未來(lái)一定程度上 “入侵” 計(jì)量經(jīng)濟(jì)學(xué)。反之，計(jì)量經(jīng)濟(jì)學(xué)是否也可以對(duì)機(jī)器學(xué)習(xí)有所貢獻(xiàn)呢？當(dāng)然可以！

當(dāng) Susan Athey 剛到微軟當(dāng)首席經(jīng)濟(jì)學(xué)家時(shí)，微軟的機(jī)器學(xué)習(xí)大咖們也并不把她當(dāng)回事。他們以為，縱然你是著名經(jīng)濟(jì)學(xué)家，但機(jī)器學(xué)習(xí)的大數(shù)據(jù)預(yù)測(cè)，也用不上你的經(jīng)濟(jì)理論啊。不久他們就發(fā)現(xiàn)錯(cuò)了……有些重要的預(yù)測(cè)問(wèn)題還真離不開 Susan 所帶來(lái)的因果推斷方法。

Susan Athey 年初在 MIT 演講

例如，你想知道某個(gè)公司政策的效應(yīng)，比如將排名第一的搜索結(jié)果放到排名第三，預(yù)測(cè)將會(huì)對(duì)其點(diǎn)擊量有多少影響？此預(yù)測(cè)其實(shí)是在估計(jì)該公司政策的因果效應(yīng)，故單純基于相關(guān)關(guān)系的機(jī)器學(xué)習(xí)方法可能無(wú)濟(jì)于事。

又比如，你想預(yù)測(cè)賓館房?jī)r(jià)對(duì)入住率的影響。假設(shè)從 hotels.com 收集了關(guān)于賓館入住率與房?jī)r(jià)的大量數(shù)據(jù)。如果直接根據(jù)二者的相關(guān)關(guān)系進(jìn)行預(yù)測(cè)，會(huì)發(fā)現(xiàn)賓館入住率與房?jī)r(jià)顯著正相關(guān)。但這顯然不是因果關(guān)系，因?yàn)樵诼糜瓮?，賓館爆滿而房?jī)r(jià)也高；反之，在旅游淡季，賓館空房而房?jī)r(jià)也低。顯然，若根據(jù)機(jī)器學(xué)習(xí)的預(yù)測(cè)結(jié)果，天真地建議賓館為了增加入住率而提高房?jī)r(jià)，無(wú)疑將南轅北轍。

由此可知，考察公司政策效應(yīng)的這一類重要預(yù)測(cè)問(wèn)題，其本質(zhì)上是在做因果推斷，故必須使用反事實(shí)的分析框架（counterfactual framework）才能得到可信的結(jié)果。

為此，Susan Athey 將因果推斷的方法引入機(jī)器學(xué)習(xí)的決策樹（decision tree），建立 “因果樹”（causal tree）模型（Athey and Imbens, 2016, PNAS），在學(xué)界與業(yè)界均引起很大反響。據(jù) Sudan 介紹，美國(guó)的那些電商巨頭 tech firms 也開始關(guān)注因果推斷了（中國(guó)電商也趕快行動(dòng)吧）……

高維回歸

除了因果推斷與處理效應(yīng)，機(jī)器學(xué)習(xí)將對(duì)計(jì)量經(jīng)濟(jì)學(xué)產(chǎn)生重大影響的另一方法為 “高維回歸”（high dimension regression），比如 LASSO 系列的懲罰回歸方法。這類方法有望在不久的將來(lái)滲透到計(jì)量經(jīng)濟(jì)學(xué)的很多領(lǐng)域，將在下期推文中繼續(xù)介紹。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：北書房2014 > 《精品》

舉報(bào)/認(rèn)領(lǐng)