一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

當(dāng)計(jì)量經(jīng)濟(jì)學(xué)遭遇機(jī)器學(xué)習(xí)(二)

 北書房2014 2018-04-01

來(lái)源:計(jì)量經(jīng)濟(jì)學(xué)及Stata應(yīng)用

作者:陳強(qiáng)

上期回顧:

當(dāng)計(jì)量經(jīng)濟(jì)學(xué)遭遇機(jī)器學(xué)習(xí):揭開機(jī)器學(xué)習(xí)的神秘面紗(一)


計(jì)量經(jīng)濟(jì)學(xué) vs. 機(jī)器學(xué)習(xí)


計(jì)量經(jīng)濟(jì)學(xué)家對(duì)于 Machine Learning 的學(xué)習(xí)框架似乎并不陌生??v觀計(jì)量經(jīng)濟(jì)學(xué)在過(guò)去大幾十年的發(fā)展史,我們不是也念茲在茲地想估計(jì)這么一個(gè)函數(shù)

  嗎?但為什么機(jī)器學(xué)習(xí)可以用于 “人工智能”(Artificial Intelligence,簡(jiǎn)記AI),而計(jì)量經(jīng)濟(jì)學(xué)卻無(wú)人問(wèn)津(影響力幾乎不出學(xué)術(shù)界)呢?


主要原因就在于二者的目標(biāo)不同。計(jì)量經(jīng)濟(jì)學(xué)的主要目標(biāo)在于 “因果推斷”(causal inferences),即推斷  對(duì)  的因果作用。


為了識(shí)別并便于解釋此因果關(guān)系,經(jīng)濟(jì)學(xué)家通常需要對(duì)  的函數(shù)形式作很強(qiáng)的假定,比如線性回歸模型。然后,將所有精力集中于得到未知參數(shù)  的估計(jì)量 ,并針對(duì)  進(jìn)行統(tǒng)計(jì)推斷(點(diǎn)估計(jì)、區(qū)間估計(jì)、假設(shè)檢驗(yàn)等)。


總之,經(jīng)濟(jì)學(xué)家關(guān)注的重點(diǎn)就是 ,我們生活在 (讀為 “ hat”)的世界里。事實(shí)上,大多數(shù)實(shí)證論文只是為了說(shuō)明,  具有統(tǒng)計(jì)與經(jīng)濟(jì)的顯著性。



另一方面,機(jī)器學(xué)習(xí)的主要目標(biāo)在于 “預(yù)測(cè)”(prediction),即根據(jù)  來(lái)預(yù)測(cè) 。為了達(dá)到此目的,可以使用任何函數(shù) ,甚至是難以解釋的黑箱方法(比如神經(jīng)網(wǎng)絡(luò));只要預(yù)測(cè)效果好就行。


對(duì)于機(jī)器學(xué)習(xí)而言,即使有 ,也只是作為預(yù)測(cè)的中間手段與橋梁而已。機(jī)器學(xué)習(xí)的關(guān)注重點(diǎn)就是 ,幾乎完全生活在  (讀為 “ hat”)的世界里,成功與否就看  的預(yù)測(cè)效果。



計(jì)量經(jīng)濟(jì)學(xué)錯(cuò)過(guò)了大數(shù)據(jù)與ML革命?


在Quora上曾有個(gè)帖子,題為 “Why is the study of econometrics isolated from the big data/machine learning revolution”?似乎計(jì)量經(jīng)濟(jì)學(xué)已經(jīng)錯(cuò)過(guò)了大數(shù)據(jù)與機(jī)器學(xué)習(xí)的革命。


這或許有些言過(guò)其實(shí)或聳人聽聞。但時(shí)至今日,大多數(shù)計(jì)量經(jīng)濟(jì)學(xué)家與實(shí)證研究者對(duì)于機(jī)器學(xué)習(xí)依然興趣不大,或許卻是不爭(zhēng)的事實(shí)。為什么會(huì)這樣呢?


因果推斷與預(yù)測(cè):二者關(guān)系之緊密超出你的想象


根本原因仍然在于計(jì)量經(jīng)濟(jì)學(xué)的研究目的與機(jī)器學(xué)習(xí)不同。簡(jiǎn)而言之,計(jì)量經(jīng)濟(jì)學(xué)的主要目的為 “因果推斷”(causal inferences);而機(jī)器學(xué)習(xí)的主要目的為 “預(yù)測(cè)”(prediction),比如 “監(jiān)督學(xué)習(xí)”(supervised learning)。 


眾所周知,做預(yù)測(cè)其實(shí)僅需要變量之間的相關(guān)關(guān)系即可,并不一定需要因果關(guān)系。比如,你看到街上有些人帶傘,就可以預(yù)測(cè)可能下雨;但人們帶傘顯然并不導(dǎo)致下雨。


因此, 雖然機(jī)器學(xué)習(xí)的預(yù)測(cè)方法具有很高的商業(yè)價(jià)值,應(yīng)用廣泛;但經(jīng)濟(jì)學(xué)家可能認(rèn)為,“預(yù)測(cè)得再好,與我有什么關(guān)系呢,我只關(guān)注因果關(guān)系?。俊?盡管因果關(guān)系不見得帶來(lái)商機(jī),但它有學(xué)術(shù)價(jià)值與社會(huì)意義,比如研究扶貧政策的效應(yīng)。即使不賺錢,也有高尚的動(dòng)機(jī)啊……


然而,認(rèn)為因果推斷不需要預(yù)測(cè),這其實(shí)是一個(gè)常見的誤解。事實(shí)上,因果推斷的本質(zhì)恰恰是在做預(yù)測(cè)。比如,一個(gè)地區(qū) A 實(shí)施了扶貧政策,你想評(píng)估此政策的效應(yīng)。此時(shí),A 地區(qū)扶貧之后的狀態(tài)可以度量,但最關(guān)鍵的信息卻不可觀測(cè),即 A 地區(qū)如果沒有實(shí)施扶貧會(huì)怎么樣?對(duì)于這種反事實(shí)的結(jié)果(counterfactual outcome),就只能進(jìn)行估計(jì)或預(yù)測(cè)。這也正是 “魯賓因果模型”(Rubin's Causal Model)的核心思想。


具體來(lái)說(shuō),一種可能的方法是找到一個(gè)沒有實(shí)施扶貧的地區(qū) B,它與實(shí)施扶貧的地區(qū) A 在各個(gè)方面都十分接近,但卻由于某種偶然原因而未得到扶貧。此時(shí),就可以使用未扶貧地區(qū) B 的結(jié)果來(lái)預(yù)測(cè)扶貧地區(qū) A 如果未扶貧的反事實(shí)結(jié)果。這就是 “匹配估計(jì)量”(Matching Estimator)的基本思想。


不難看出,既然機(jī)器學(xué)習(xí)特別擅長(zhǎng)預(yù)測(cè),那么計(jì)量經(jīng)濟(jì)學(xué)中的預(yù)測(cè)問(wèn)題,在不久的將來(lái)會(huì)越來(lái)越多地使用機(jī)器學(xué)習(xí)的方法,尤其是在 “處理效應(yīng)”(treatment effects)的領(lǐng)域。


比如,在使用 “傾向得分匹配”時(shí)(Propensity Score Matching),其第一階段為計(jì)算傾向得分(即個(gè)體得到處理或?qū)嵤┱叩母怕剩?,其本質(zhì)就是一個(gè)預(yù)測(cè)問(wèn)題,并不涉及因果關(guān)系。因此,只要預(yù)測(cè)精確度高,就可以使用各種 ML 的方法,為何非要使用 Logit 呢?


又比如,在進(jìn)行二階段最小二乘法回歸時(shí)(2SLS),其第一階段回歸在本質(zhì)上也是一個(gè)預(yù)測(cè)問(wèn)題,即找到與內(nèi)生變量最為相關(guān)的工具變量組合。因此,也可以在第一階段回歸使用 ML 的方法,尤其當(dāng)工具變量很多時(shí)(參見 MIT 教授 Victor Chernozhukov 等的最新研究)。


有些重要預(yù)測(cè)也離不開因果推斷


看來(lái),機(jī)器學(xué)習(xí)會(huì)在未來(lái)一定程度上 “入侵” 計(jì)量經(jīng)濟(jì)學(xué)。反之,計(jì)量經(jīng)濟(jì)學(xué)是否也可以對(duì)機(jī)器學(xué)習(xí)有所貢獻(xiàn)呢?當(dāng)然可以!


當(dāng) Susan Athey 剛到微軟當(dāng)首席經(jīng)濟(jì)學(xué)家時(shí),微軟的機(jī)器學(xué)習(xí)大咖們也并不把她當(dāng)回事。他們以為,縱然你是著名經(jīng)濟(jì)學(xué)家,但機(jī)器學(xué)習(xí)的大數(shù)據(jù)預(yù)測(cè),也用不上你的經(jīng)濟(jì)理論啊。不久他們就發(fā)現(xiàn)錯(cuò)了……有些重要的預(yù)測(cè)問(wèn)題還真離不開 Susan 所帶來(lái)的因果推斷方法。



Susan Athey 年初在 MIT 演講



例如,你想知道某個(gè)公司政策的效應(yīng),比如將排名第一的搜索結(jié)果放到排名第三,預(yù)測(cè)將會(huì)對(duì)其點(diǎn)擊量有多少影響?此預(yù)測(cè)其實(shí)是在估計(jì)該公司政策的因果效應(yīng),故單純基于相關(guān)關(guān)系的機(jī)器學(xué)習(xí)方法可能無(wú)濟(jì)于事。


又比如,你想預(yù)測(cè)賓館房?jī)r(jià)對(duì)入住率的影響。假設(shè)從 hotels.com 收集了關(guān)于賓館入住率與房?jī)r(jià)的大量數(shù)據(jù)。如果直接根據(jù)二者的相關(guān)關(guān)系進(jìn)行預(yù)測(cè),會(huì)發(fā)現(xiàn)賓館入住率與房?jī)r(jià)顯著正相關(guān)。但這顯然不是因果關(guān)系,因?yàn)樵诼糜瓮?,賓館爆滿而房?jī)r(jià)也高;反之,在旅游淡季,賓館空房而房?jī)r(jià)也低。顯然,若根據(jù)機(jī)器學(xué)習(xí)的預(yù)測(cè)結(jié)果,天真地建議賓館為了增加入住率而提高房?jī)r(jià),無(wú)疑將南轅北轍。


由此可知,考察公司政策效應(yīng)的這一類重要預(yù)測(cè)問(wèn)題,其本質(zhì)上是在做因果推斷,故必須使用反事實(shí)的分析框架(counterfactual framework)才能得到可信的結(jié)果。


為此,Susan Athey 將因果推斷的方法引入機(jī)器學(xué)習(xí)的決策樹(decision tree),建立 “因果樹”(causal tree)模型(Athey and Imbens, 2016, PNAS),在學(xué)界與業(yè)界均引起很大反響。據(jù) Sudan 介紹,美國(guó)的那些電商巨頭 tech firms 也開始關(guān)注因果推斷了(中國(guó)電商也趕快行動(dòng)吧)……


高維回歸


除了因果推斷與處理效應(yīng),機(jī)器學(xué)習(xí)將對(duì)計(jì)量經(jīng)濟(jì)學(xué)產(chǎn)生重大影響的另一方法為 “高維回歸”(high dimension regression),比如 LASSO 系列的懲罰回歸方法。這類方法有望在不久的將來(lái)滲透到計(jì)量經(jīng)濟(jì)學(xué)的很多領(lǐng)域,將在下期推文中繼續(xù)介紹。


    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    精产国品一二三区麻豆| 国产日韩欧美专区一区| 久久国内午夜福利直播| 国产熟女一区二区精品视频| 老熟妇乱视频一区二区| 欧美自拍偷自拍亚洲精品| 亚洲在线观看福利视频| 精品人妻av区波多野结依| 国产精品不卡一区二区三区四区| 欧美日韩国产的另类视频| 国产成人免费激情视频| 亚洲av首页免费在线观看| 精品日韩视频在线观看| 日本最新不卡免费一区二区| 有坂深雪中文字幕亚洲中文| 日韩蜜桃一区二区三区| 欧洲日韩精品一区二区三区| 亚洲国产成人久久99精品| 欧美一区二区三区十区| 熟女高潮一区二区三区| 91人妻久久精品一区二区三区| 黄色在线免费高清观看| 日本人妻免费一区二区三区| 婷婷激情五月天丁香社区| 亚洲三级视频在线观看免费| 亚洲中文字幕一区三区| 色偷偷亚洲女人天堂观看| 韩国激情野战视频在线播放| 日韩特级黄片免费在线观看| 免费观看一区二区三区黄片| 在线观看日韩欧美综合黄片| 我想看亚洲一级黄色录像| 邻居人妻人公侵犯人妻视频| 久久经典一区二区三区| 日本精品啪啪一区二区三区| 国产精品久久熟女吞精| 欧美日韩人妻中文一区二区 | 亚洲第一区欧美日韩在线| 亚洲视频一区自拍偷拍另类| 国产精品丝袜一二三区| 草草视频福利在线观看|