原文信息:Varian, Hal R. “Big Data: New Tricks for Econometrics.” Journal of Economic Perspectives, vol. 28, no. 2, 2014, pp. 3–28.推文作者:范洋,博士,畢業(yè)于中科院數(shù)學(xué)與系統(tǒng)科學(xué)研究院,現(xiàn)供職于國家信息中心經(jīng)濟(jì)預(yù)測(cè)部。寫的微觀經(jīng)濟(jì)學(xué)教材風(fēng)靡全世界的范里安范老師被Google挖去了山景城做首席經(jīng)濟(jì)學(xué)家,寫了一篇給經(jīng)濟(jì)學(xué)家鼓吹(劃掉)介紹大數(shù)據(jù)的文章,發(fā)在JEP2014。1. 降低樣本外預(yù)測(cè)誤差(提高模型泛化能力)大數(shù)據(jù)條件下,一般用來訓(xùn)練預(yù)測(cè)模型的樣本量都是非常大的。這容易使得模型過于復(fù)雜,產(chǎn)生過擬合問題,模型的樣本內(nèi)預(yù)測(cè)效果很好,但缺乏樣本外預(yù)測(cè)能力。因此,大樣本條件下最值得關(guān)注的問題,不是如何擬合模型,而是如何解決模型的過擬合問題。本文介紹了分類和回歸樹(Classification and regression tree, CART)。并使用R包rpart給了一個(gè)簡單的應(yīng)用:預(yù)測(cè)Titanic號(hào)上乘客的生存概率。樹可以預(yù)測(cè)一些不太線性的變量。此方法特別適用于概率分布不太連續(xù)的問題,因?yàn)檫@種情況使用連續(xù)模型(logit或probit)預(yù)測(cè)效果不是很好。如果說,最小二乘的實(shí)質(zhì)是想要在一個(gè)向量空間中尋找到一個(gè)與目標(biāo)向量距離最小的向量,它與目標(biāo)向量之間的距離是垂直于這個(gè)向量空間的,求最小二乘解就是找到這樣的線性組合。作為對(duì)比來看,樹回歸的實(shí)質(zhì)就是,用各種屬性把樣本的分布形態(tài)展開到空間中,這些屬性可以是任意關(guān)系,它不要求空間的線性性。確定屬性實(shí)際上就是確定回歸里面的解釋變量。我們要盡量保證用來展開的這個(gè)屬性是解釋性好的,也就是樣本在這個(gè)屬性上展開的概率分布比較有特點(diǎn),或者更容易刻畫。--如何解決樹回歸對(duì)過擬合問題:給樹剪枝 “大數(shù)據(jù)”時(shí)代,樹回歸的流行得益于樹回歸對(duì)數(shù)據(jù)量很大的樣本有更好的效果?!發(fā)ogistic regression is better for smaller data sets and tree induction for larger data sets.”(Perlich, Provost, and Simonoff (2003))當(dāng)然,樣本量大很自然地就會(huì)引發(fā)過擬合問題,樹的過擬合問題也需要特別引起關(guān)注。這就需要降低樹模型的復(fù)雜度,給樹剪枝。 一種方法是使用下文要講到的k-fold交叉驗(yàn)證(一般選k=10)。第二種方法,直接使用條件推斷樹(conditional inference tree,簡稱CTree),使用一系列假設(shè)檢驗(yàn)來選擇樹的結(jié)構(gòu)。第三種方法是在樣本中加入一些隨機(jī)性,方法包括boostrap,bagging,和boosting。bagging主要用于樹等非線性模型(Friedman and Hall,2007)。 boosting能顯著提高估計(jì)量的預(yù)測(cè)性能,可用于任何種類的分類或回歸模型,包括logit,probit,樹等。也可以將這些技術(shù)結(jié)合起來,創(chuàng)建一個(gè)“森林”,通??梢燥@著改進(jìn)單樹方法。2)在樹的每個(gè)節(jié)點(diǎn)上,隨機(jī)選擇一個(gè)樣本作出下一個(gè)決定。 不要剪枝。4)為了確定一個(gè)新樣本的預(yù)測(cè)值(或分類結(jié)果),分別使用每個(gè)樹回歸模型,并使用出現(xiàn)次數(shù)最多的結(jié)果。對(duì)于高度非線性的數(shù)據(jù)樣本來說,這種方法的預(yù)測(cè)效果非常好。Howard and Bowels(2012) 認(rèn)為“ensembles of decision trees (often known as ‘Random Forests’) have been the most successful general-purpose algorithm in modern times.”。1.3 使用k-fold交叉驗(yàn)證(k-fold cross-validation)選擇合適的模型復(fù)雜度k-fold交叉驗(yàn)證是將訓(xùn)練集的1/k作為測(cè)試集,每個(gè)模型訓(xùn)練k次,測(cè)試k次,錯(cuò)誤率為k次樣本外誤差的平均,最終選擇平均樣本外誤差最小的模型。流程如下:1)將全部數(shù)據(jù)分為k個(gè)子集(folds)2)留出一個(gè)子集,使用其余k-1個(gè)子集訓(xùn)練模型3)使用訓(xùn)練出來的模型得到樣本外預(yù)測(cè)值,與被留下的子集比較得出1個(gè)樣本外預(yù)測(cè)誤差4)對(duì)其余k-1個(gè)子集,使用相同的方法再得出k-1個(gè)樣本外預(yù)測(cè)誤差。對(duì)于這個(gè)模型來說,其樣本外預(yù)測(cè)誤差就是k個(gè)樣本外預(yù)測(cè)誤差的平均值。2.1 引入懲罰函數(shù):彈性網(wǎng)回歸(elastic net regression)考慮線性回歸的變量選擇問題。傳統(tǒng)上,變量選擇的方法包括逐步回歸(stepwise regression),主成分分析(principal component analysis),偏最小二乘法(partial least squares),以及基于赤池信息準(zhǔn)則(AIC)和貝葉斯信息準(zhǔn)則(BIC)的復(fù)雜性度量等。 對(duì)于數(shù)據(jù)量很大的的擬合工作,變量選擇的核心關(guān)切就成了避免過擬合。本文介紹了Lasso(least absolute shrinkage and selection operator) 及其變體:彈性網(wǎng)回歸(elastic net regression):考慮一個(gè)以[b_1,b_2,...,b_n]為系數(shù)的線性回歸模型,在篩選哪些變量應(yīng)該進(jìn)入最終的方程時(shí),我們通過最小化一個(gè)包含兩部分的函數(shù)來實(shí)現(xiàn)。這個(gè)目標(biāo)函數(shù)的第一部分是傳統(tǒng)最小二乘的估計(jì)條件,即誤差平方和;另一部分是一個(gè)如下形式的懲罰函數(shù):
當(dāng)β取0時(shí),懲罰函數(shù)失效,就是普通的最小二乘回歸;當(dāng)α取1時(shí),懲罰函數(shù)中只剩下二次項(xiàng),模型就成為一個(gè)嶺回歸(ridge regression)模型;當(dāng)α取0時(shí),便是Lasso(least absolute shrinkage and selection operator)。上述方法可以保證模型中某些最小二乘回歸系數(shù)收斂于0,這樣就實(shí)現(xiàn)了變量選擇。2.2 Spike-and-Slab regression這種方法本質(zhì)上是一種貝葉斯方法。給定每個(gè)系數(shù)出現(xiàn)概率的先驗(yàn)概率向量(spike,某個(gè)系數(shù)不為零的先驗(yàn)概率);根據(jù)系數(shù)在回歸方程中的情況,指定某變量回歸系數(shù)的先驗(yàn)分布(slab,先驗(yàn)地描述系數(shù)可能的取值)。使用MCMC方法求后驗(yàn)信息,尤其是系數(shù)出現(xiàn)頻率的后驗(yàn)概率。時(shí)間序列模型中的變量選擇問題除了過擬合,還有序列相關(guān)。在日常使用Google Trends數(shù)據(jù)進(jìn)行時(shí)間序列分析時(shí),很難確定哪些序列有較好的預(yù)測(cè)效果。盡管Google Trends將數(shù)據(jù)序列集進(jìn)行了初步分類,但仍然收效不大,如何解決過擬合與序列相關(guān)是核心的問題。本文簡要介紹了一種估計(jì)方法用來解決這個(gè)問題,BSTS(Bayesian Structural Time Series)。考慮一個(gè)有常數(shù)項(xiàng)、線性時(shí)間趨勢(shì)和回歸項(xiàng)的經(jīng)典時(shí)間序列模型:
其常數(shù)項(xiàng)和時(shí)間趨勢(shì)是時(shí)變的。
另外,合適的話也可添加季節(jié)性狀態(tài)變量。待估參數(shù)為β和e_it的方差,可使用卡爾曼濾波來估計(jì)。3. 機(jī)器學(xué)習(xí)與計(jì)量經(jīng)濟(jì)學(xué)與計(jì)量里對(duì)因果推斷的強(qiáng)調(diào)有所區(qū)別的是,機(jī)器學(xué)習(xí)模型一般是用來預(yù)測(cè)的。但是,盡管機(jī)器學(xué)習(xí)模型無法直接識(shí)別變量之間的因果關(guān)系,我們?nèi)匀豢梢酝ㄟ^機(jī)器學(xué)習(xí)模型的預(yù)測(cè)結(jié)果來估計(jì)一項(xiàng)政策或一個(gè)事件的影響,這一思路可以類比社會(huì)實(shí)驗(yàn),有“observed difference in outcome = average treatment effect on the treated + selection bias”(Angrist and Pischke, 2009)。當(dāng)然如果我們有一個(gè)真正的可控制變量的對(duì)照實(shí)驗(yàn),那么選擇偏誤就可以完全消除。本文給出了一個(gè)例子,估計(jì)廣告投放對(duì)網(wǎng)站訪問量的因果影響(Lewis and Lao, 2013)。具體流程是,使用前面提到的BSTS(Bayesian Structural Time Series)方法,用歷史數(shù)據(jù)來估計(jì)如果沒有投放廣告(假設(shè)其他因素例如季節(jié)性等均不發(fā)生變化)時(shí)網(wǎng)站訪問量。值得一提的是,由于影響預(yù)測(cè)結(jié)果的因素很多,這里要考慮使用前文中提到的變量選擇技術(shù)。將預(yù)測(cè)結(jié)果與實(shí)際投放廣告之后的網(wǎng)站訪問量作對(duì)比,可看到廣告投放對(duì)網(wǎng)站訪問量的明顯改善。這一流程并沒有使用通常意義上的對(duì)照實(shí)驗(yàn),但一個(gè)好的預(yù)測(cè)模型,在進(jìn)行因果推斷的時(shí)候甚至比對(duì)照實(shí)驗(yàn)效果更好。因?yàn)閷?duì)照實(shí)驗(yàn)無法靈活地更改實(shí)驗(yàn)設(shè)計(jì)時(shí)確定的控制變量,而預(yù)測(cè)模型則可以方便地做到這一點(diǎn),使得“實(shí)驗(yàn)”結(jié)果更為可靠。我們可以從機(jī)器學(xué)習(xí)的經(jīng)驗(yàn)里得到一個(gè)很重要的思想:對(duì)許多小模型進(jìn)行平均可以比選擇單個(gè)模型更好地進(jìn)行樣本外預(yù)測(cè)。其實(shí)在很早之前,人們就已經(jīng)認(rèn)識(shí)到宏觀經(jīng)濟(jì)預(yù)測(cè)中,將預(yù)測(cè)模型進(jìn)行平均之后的預(yù)測(cè)效果也優(yōu)于單個(gè)模型,但不知何故,除了貝葉斯模型領(lǐng)域,這種想法在傳統(tǒng)文獻(xiàn)中很少使用。現(xiàn)在的應(yīng)用計(jì)量文獻(xiàn)中,許多論文都將不同的模型呈現(xiàn)在一張表格中,用來說明某一重要參數(shù)的估計(jì)是魯棒的,對(duì)使用什么樣的模型不是很敏感。上述兩個(gè)問題實(shí)際上反映的是如何應(yīng)對(duì)模型不確定性。那么考慮一下,如果我們使用這些表格來說明:隨著使用不同的模型,估計(jì)的參數(shù)是如何變化的。目前論文中,作者傾向于只研究一些有代表性的規(guī)范,但沒說為什么如果數(shù)據(jù)可用,他們不能再檢查更多的情形。在這個(gè)“大數(shù)據(jù)”時(shí)期,很大的樣本數(shù)據(jù)量極大地減輕了樣本不確定性,而模型不確定性卻可能相當(dāng)之大。傳統(tǒng)的計(jì)量經(jīng)濟(jì)學(xué)將研究重點(diǎn)放在樣本不確定性,而模型不確定性才可能是大樣本條件下更應(yīng)該關(guān)注的問題,解決這個(gè)問題的一種方法是明確地研究參數(shù)估計(jì)如何隨控制變量和工具變量的選擇而變化。 “大數(shù)據(jù)”時(shí)代,樣本量的豐富極大地影響著經(jīng)濟(jì)研究。首先,當(dāng)模型不再受制于樣本不夠大的約束,我們可以考慮盡可能多的影響因素。新的問題就此產(chǎn)生。樹回歸的重要考慮,以及多種變量選擇方法的本質(zhì),都是要回答這么一個(gè)問題:如何從這些影響因素中提取出解釋力最強(qiáng)的屬性。其次,樣本量的豐富使得“過擬合”而非“欠擬合”成為估計(jì)的核心關(guān)切,提高模型的泛化能力基本上等同于去懲罰模型的過擬合。第三,傳統(tǒng)計(jì)量重視樣本不確定性,而在樣本量很大的情況下,樣本不確定性大大減小,而模型的不確定性則更為重要。最后,注意到在文章的開篇,范里安在介紹“大數(shù)據(jù)”為什么發(fā)展得這么快時(shí),說:“The ability to rent rather than buy data storage and processing has turned what was previously a fixed cost of computing into a variable cost and has lowered the barriers to entry for working with big data.”顯然,對(duì)于固定成本、可變量成本和競(jìng)爭壁壘的分析是他作為一個(gè)嚴(yán)謹(jǐn)經(jīng)濟(jì)學(xué)家的根本所在。Computers are now involved in many economic transactions and can capture data associated with these transactions, which can then be manipulated and analyzed. Conventional statistical and econometric techniques such as regression often work well, but there are issues unique to big datasets that may require different tools. First, the sheer size of the data involved may require more powerful data manipulation tools. Second, we may have more potential predictors than appropriate for estimation, so we need to do some kind of variable selection. Third, large datasets may allow for more flexible relationships than simple linear models. Machine learning techniques such as decision trees, support vector machines, neural nets, deep learning, and so on may allow for more effective ways to model complex relationships. In this essay, I will describe a few of these tools for manipulating and analyzing big data. I believe that these methods have a lot to offer and should be more widely known and used by economists.
推文僅代表文章原作者觀點(diǎn)及推文作者的評(píng)論觀點(diǎn),并不代表香樟經(jīng)濟(jì)學(xué)術(shù)圈公眾號(hào)平臺(tái)觀點(diǎn)。親愛的讀者,如果您從閱讀本文中得到啟發(fā),或者受益,請(qǐng)您為本文打賞,以感謝推文者的辛苦工作,鼓勵(lì)她(他)下一期提供更精彩的推文(香樟打賞直接給每期的推文作者)。香樟經(jīng)濟(jì)學(xué)術(shù)圈征稿 香樟致力于提供學(xué)術(shù)研究公共品,對(duì)香樟最好的回饋就是向平臺(tái)賜稿。聯(lián)系郵箱cectuiwen@163.com 香樟經(jīng)濟(jì)學(xué)術(shù)圈
|