來(lái)源:計(jì)量經(jīng)濟(jì)學(xué)及Stata應(yīng)用 作者:陳強(qiáng) 上期回顧: 當(dāng)計(jì)量經(jīng)濟(jì)學(xué)遭遇機(jī)器學(xué)習(xí):揭開機(jī)器學(xué)習(xí)的神秘面紗(一) 計(jì)量經(jīng)濟(jì)學(xué) vs. 機(jī)器學(xué)習(xí) 計(jì)量經(jīng)濟(jì)學(xué)家對(duì)于 Machine Learning 的學(xué)習(xí)框架似乎并不陌生??v觀計(jì)量經(jīng)濟(jì)學(xué)在過(guò)去大幾十年的發(fā)展史,我們不是也念茲在茲地想估計(jì)這么一個(gè)函數(shù) 嗎?但為什么機(jī)器學(xué)習(xí)可以用于 “人工智能”(Artificial Intelligence,簡(jiǎn)記AI),而計(jì)量經(jīng)濟(jì)學(xué)卻無(wú)人問(wèn)津(影響力幾乎不出學(xué)術(shù)界)呢? 主要原因就在于二者的目標(biāo)不同。計(jì)量經(jīng)濟(jì)學(xué)的主要目標(biāo)在于 “因果推斷”(causal inferences),即推斷 對(duì) 的因果作用。 為了識(shí)別并便于解釋此因果關(guān)系,經(jīng)濟(jì)學(xué)家通常需要對(duì) 的函數(shù)形式作很強(qiáng)的假定,比如線性回歸模型。然后,將所有精力集中于得到未知參數(shù) 的估計(jì)量 ,并針對(duì) 進(jìn)行統(tǒng)計(jì)推斷(點(diǎn)估計(jì)、區(qū)間估計(jì)、假設(shè)檢驗(yàn)等)。 總之,經(jīng)濟(jì)學(xué)家關(guān)注的重點(diǎn)就是 ,我們生活在 (讀為 “ hat”)的世界里。事實(shí)上,大多數(shù)實(shí)證論文只是為了說(shuō)明, 具有統(tǒng)計(jì)與經(jīng)濟(jì)的顯著性。 另一方面,機(jī)器學(xué)習(xí)的主要目標(biāo)在于 “預(yù)測(cè)”(prediction),即根據(jù) 來(lái)預(yù)測(cè) 。為了達(dá)到此目的,可以使用任何函數(shù) ,甚至是難以解釋的黑箱方法(比如神經(jīng)網(wǎng)絡(luò));只要預(yù)測(cè)效果好就行。 對(duì)于機(jī)器學(xué)習(xí)而言,即使有 ,也只是作為預(yù)測(cè)的中間手段與橋梁而已。機(jī)器學(xué)習(xí)的關(guān)注重點(diǎn)就是 ,幾乎完全生活在 (讀為 “ hat”)的世界里,成功與否就看 的預(yù)測(cè)效果。 計(jì)量經(jīng)濟(jì)學(xué)錯(cuò)過(guò)了大數(shù)據(jù)與ML革命? 在Quora上曾有個(gè)帖子,題為 “Why is the study of econometrics isolated from the big data/machine learning revolution”?似乎計(jì)量經(jīng)濟(jì)學(xué)已經(jīng)錯(cuò)過(guò)了大數(shù)據(jù)與機(jī)器學(xué)習(xí)的革命。 這或許有些言過(guò)其實(shí)或聳人聽聞。但時(shí)至今日,大多數(shù)計(jì)量經(jīng)濟(jì)學(xué)家與實(shí)證研究者對(duì)于機(jī)器學(xué)習(xí)依然興趣不大,或許卻是不爭(zhēng)的事實(shí)。為什么會(huì)這樣呢? 因果推斷與預(yù)測(cè):二者關(guān)系之緊密超出你的想象 根本原因仍然在于計(jì)量經(jīng)濟(jì)學(xué)的研究目的與機(jī)器學(xué)習(xí)不同。簡(jiǎn)而言之,計(jì)量經(jīng)濟(jì)學(xué)的主要目的為 “因果推斷”(causal inferences);而機(jī)器學(xué)習(xí)的主要目的為 “預(yù)測(cè)”(prediction),比如 “監(jiān)督學(xué)習(xí)”(supervised learning)。 眾所周知,做預(yù)測(cè)其實(shí)僅需要變量之間的相關(guān)關(guān)系即可,并不一定需要因果關(guān)系。比如,你看到街上有些人帶傘,就可以預(yù)測(cè)可能下雨;但人們帶傘顯然并不導(dǎo)致下雨。 因此, 雖然機(jī)器學(xué)習(xí)的預(yù)測(cè)方法具有很高的商業(yè)價(jià)值,應(yīng)用廣泛;但經(jīng)濟(jì)學(xué)家可能認(rèn)為,“預(yù)測(cè)得再好,與我有什么關(guān)系呢,我只關(guān)注因果關(guān)系?。俊?盡管因果關(guān)系不見得帶來(lái)商機(jī),但它有學(xué)術(shù)價(jià)值與社會(huì)意義,比如研究扶貧政策的效應(yīng)。即使不賺錢,也有高尚的動(dòng)機(jī)啊…… 然而,認(rèn)為因果推斷不需要預(yù)測(cè),這其實(shí)是一個(gè)常見的誤解。事實(shí)上,因果推斷的本質(zhì)恰恰是在做預(yù)測(cè)。比如,一個(gè)地區(qū) A 實(shí)施了扶貧政策,你想評(píng)估此政策的效應(yīng)。此時(shí),A 地區(qū)扶貧之后的狀態(tài)可以度量,但最關(guān)鍵的信息卻不可觀測(cè),即 A 地區(qū)如果沒有實(shí)施扶貧會(huì)怎么樣?對(duì)于這種反事實(shí)的結(jié)果(counterfactual outcome),就只能進(jìn)行估計(jì)或預(yù)測(cè)。這也正是 “魯賓因果模型”(Rubin's Causal Model)的核心思想。 具體來(lái)說(shuō),一種可能的方法是找到一個(gè)沒有實(shí)施扶貧的地區(qū) B,它與實(shí)施扶貧的地區(qū) A 在各個(gè)方面都十分接近,但卻由于某種偶然原因而未得到扶貧。此時(shí),就可以使用未扶貧地區(qū) B 的結(jié)果來(lái)預(yù)測(cè)扶貧地區(qū) A 如果未扶貧的反事實(shí)結(jié)果。這就是 “匹配估計(jì)量”(Matching Estimator)的基本思想。 不難看出,既然機(jī)器學(xué)習(xí)特別擅長(zhǎng)預(yù)測(cè),那么計(jì)量經(jīng)濟(jì)學(xué)中的預(yù)測(cè)問(wèn)題,在不久的將來(lái)會(huì)越來(lái)越多地使用機(jī)器學(xué)習(xí)的方法,尤其是在 “處理效應(yīng)”(treatment effects)的領(lǐng)域。 比如,在使用 “傾向得分匹配”時(shí)(Propensity Score Matching),其第一階段為計(jì)算傾向得分(即個(gè)體得到處理或?qū)嵤┱叩母怕剩?,其本質(zhì)就是一個(gè)預(yù)測(cè)問(wèn)題,并不涉及因果關(guān)系。因此,只要預(yù)測(cè)精確度高,就可以使用各種 ML 的方法,為何非要使用 Logit 呢? 又比如,在進(jìn)行二階段最小二乘法回歸時(shí)(2SLS),其第一階段回歸在本質(zhì)上也是一個(gè)預(yù)測(cè)問(wèn)題,即找到與內(nèi)生變量最為相關(guān)的工具變量組合。因此,也可以在第一階段回歸使用 ML 的方法,尤其當(dāng)工具變量很多時(shí)(參見 MIT 教授 Victor Chernozhukov 等的最新研究)。 有些重要預(yù)測(cè)也離不開因果推斷 看來(lái),機(jī)器學(xué)習(xí)會(huì)在未來(lái)一定程度上 “入侵” 計(jì)量經(jīng)濟(jì)學(xué)。反之,計(jì)量經(jīng)濟(jì)學(xué)是否也可以對(duì)機(jī)器學(xué)習(xí)有所貢獻(xiàn)呢?當(dāng)然可以! 當(dāng) Susan Athey 剛到微軟當(dāng)首席經(jīng)濟(jì)學(xué)家時(shí),微軟的機(jī)器學(xué)習(xí)大咖們也并不把她當(dāng)回事。他們以為,縱然你是著名經(jīng)濟(jì)學(xué)家,但機(jī)器學(xué)習(xí)的大數(shù)據(jù)預(yù)測(cè),也用不上你的經(jīng)濟(jì)理論啊。不久他們就發(fā)現(xiàn)錯(cuò)了……有些重要的預(yù)測(cè)問(wèn)題還真離不開 Susan 所帶來(lái)的因果推斷方法。 Susan Athey 年初在 MIT 演講 例如,你想知道某個(gè)公司政策的效應(yīng),比如將排名第一的搜索結(jié)果放到排名第三,預(yù)測(cè)將會(huì)對(duì)其點(diǎn)擊量有多少影響?此預(yù)測(cè)其實(shí)是在估計(jì)該公司政策的因果效應(yīng),故單純基于相關(guān)關(guān)系的機(jī)器學(xué)習(xí)方法可能無(wú)濟(jì)于事。 又比如,你想預(yù)測(cè)賓館房?jī)r(jià)對(duì)入住率的影響。假設(shè)從 hotels.com 收集了關(guān)于賓館入住率與房?jī)r(jià)的大量數(shù)據(jù)。如果直接根據(jù)二者的相關(guān)關(guān)系進(jìn)行預(yù)測(cè),會(huì)發(fā)現(xiàn)賓館入住率與房?jī)r(jià)顯著正相關(guān)。但這顯然不是因果關(guān)系,因?yàn)樵诼糜瓮?,賓館爆滿而房?jī)r(jià)也高;反之,在旅游淡季,賓館空房而房?jī)r(jià)也低。顯然,若根據(jù)機(jī)器學(xué)習(xí)的預(yù)測(cè)結(jié)果,天真地建議賓館為了增加入住率而提高房?jī)r(jià),無(wú)疑將南轅北轍。 由此可知,考察公司政策效應(yīng)的這一類重要預(yù)測(cè)問(wèn)題,其本質(zhì)上是在做因果推斷,故必須使用反事實(shí)的分析框架(counterfactual framework)才能得到可信的結(jié)果。 為此,Susan Athey 將因果推斷的方法引入機(jī)器學(xué)習(xí)的決策樹(decision tree),建立 “因果樹”(causal tree)模型(Athey and Imbens, 2016, PNAS),在學(xué)界與業(yè)界均引起很大反響。據(jù) Sudan 介紹,美國(guó)的那些電商巨頭 tech firms 也開始關(guān)注因果推斷了(中國(guó)電商也趕快行動(dòng)吧)…… 高維回歸 除了因果推斷與處理效應(yīng),機(jī)器學(xué)習(xí)將對(duì)計(jì)量經(jīng)濟(jì)學(xué)產(chǎn)生重大影響的另一方法為 “高維回歸”(high dimension regression),比如 LASSO 系列的懲罰回歸方法。這類方法有望在不久的將來(lái)滲透到計(jì)量經(jīng)濟(jì)學(xué)的很多領(lǐng)域,將在下期推文中繼續(xù)介紹。 |
|