2019年6月26日,Stata 公司正式宣布 Stata 16上線啦!或許計量小伙伴們還沒把 Stata 15捂熱,而 Stata 16已經(jīng)悄然襲來。大數(shù)據(jù)時代,知識加速迭代,Stata 公司加快了步伐,我們也要跟上啊…… 全新的 Stata 16 給我們帶來了怎樣的驚喜呢? 總結(jié)起來,Stata 16 主要有以下兩方面的重大升級。首先,Stata 在大數(shù)據(jù)時代的華麗轉(zhuǎn)身,與大數(shù)據(jù)相關(guān)的功能突飛猛進。其次,Stata 繼續(xù)深耕計量經(jīng)濟學(xué)的經(jīng)典與前沿方法。讓我們一起來看看吧。 Stata 16 在大數(shù)據(jù)時代的華麗轉(zhuǎn)身 眾所周知,大數(shù)據(jù)(big data)的特點可用 4V 來概括,即數(shù)據(jù)規(guī)模龐大(Volume)、數(shù)據(jù)更新頻繁(Velocity)、數(shù)據(jù)類型多樣(Variety)和數(shù)據(jù)價值巨大(Value)。Stata 16的以下新模塊與功能更新均與此 4V有關(guān)。 Lasso 作為大數(shù)據(jù)Volume的一種重要形式,“高維數(shù)據(jù)”(high-dimensional data)在經(jīng)管與社科中也越來越多地出現(xiàn),即解釋變量很多,甚至超過樣本容量的情形。Lasso (Least Absolute Shrinkage and Selection Operator,也稱“套索估計量”)及其衍生的系列估計量正是進行高維回歸的主要工具。 為此,Stata 16及時地推出了Lasso系列的官方命令,包括lasso, elasticnet(彈性網(wǎng))與 sqrtlasso(平方根Lasso),可估計線性回歸模型(比如 lasso linear)、二值選擇模型(比如,lasso logit 與 lasso probit)、計數(shù)模型(比如,lasso poisson)等。 Lasso 系列的估計量通常使用懲罰回歸(penalized regressions)來處理高維數(shù)據(jù),以避免“過擬合”(overfit)與“方差爆炸”(variance explosion),并進行“變量選擇”(variable selection)。這些懲罰回歸對于回歸系數(shù)過大的懲罰力度則一般由調(diào)節(jié)參數(shù)(tuning parameter)或 L1范數(shù)(L1 norm)來控制。 使用 Stata 16的Lasso命令,可以很方便地計算回歸系數(shù)的整個路徑(coefficient paths),作為調(diào)節(jié)參數(shù) 或 L1范數(shù)的函數(shù);并根據(jù)“交叉驗證”(cross-validation)選擇最優(yōu)的調(diào)節(jié)參數(shù) ,參見下圖。 不僅如此,Stata 16 官方命令還提供了 Lasso 系列相應(yīng)的統(tǒng)計推斷方法,比如計算標準誤、置信區(qū)間,或進行假設(shè)檢驗。這些統(tǒng)計推斷方法包括“double-selection lasso”(比如,dsregress,dslogit,dspoisson),“partialling-out lasso”(比如,poregress,pologit,popoisson),以及“cross-fit partialing out lasso”(比如,xporegress,xpologit,xpopoisson)。 Multiple Datasets in Memory 在大數(shù)據(jù)時代,學(xué)界與業(yè)界越來越需要在內(nèi)存中同時處理多個數(shù)據(jù)集。在此前的 Stata 版本中,Stata 內(nèi)存只能有一個數(shù)據(jù)集。這種設(shè)置雖簡便易行,在小數(shù)據(jù)時代也基本夠用,但在大數(shù)據(jù)時代,由于數(shù)據(jù)的來源 Variety 多樣,已成為應(yīng)用的瓶頸。 因此,Stata 16 適時地推出在內(nèi)存內(nèi)同時調(diào)用多達100個數(shù)據(jù)集的重要功能。比如,你可以很方便地根據(jù)內(nèi)存中多個數(shù)據(jù)集的信息來定義一個新的變量。哇! Python Integration 隨著機器學(xué)習與數(shù)據(jù)科學(xué)的興起,Python 無疑是最炙手可熱的編程語言之一。為此,Stata 16 專門提供了一個與 Python 的接口,讓用戶可以在熟悉的 Stata 界面下調(diào)用 Python,并在 Stata 中顯示運行結(jié)果。 比如,此前的 Stata 版本無法畫三維立體圖,而在Stata 16中,通過調(diào)用Python 的 Matplotlib 則不難實現(xiàn)(參見下圖)。 這也意味著,你可以在 Stata 中,通過 Python 接口,使用 Python 所擅長的各種機器學(xué)習方法,包括隨機森林、梯度提升、支持向量機、神經(jīng)網(wǎng)絡(luò)等! Do-file Editor -- Autocompletion and More Syntax Highlighting 在大數(shù)據(jù)時代,編程越來越成為一種基本技能,而不再是“碼農(nóng)”專屬。在 Stata 中編程,無疑需要一個很好的 do 文件編輯器(Do-file Editor)。 讓人驚喜的是,Stata 16 的 do 文件編輯器的性能也有了大幅提升,包括 Stata 命令的自動填寫完成(autocompletion),以及更多語法高亮顯示(syntax highlighting),這無疑將為 Stata 編程提供很大便利。 Meta-Analysis 隨著大數(shù)據(jù)時代的數(shù)據(jù)來源 Variety 越來越多,使得我們時常需要將不同來源的樣本數(shù)據(jù)之研究結(jié)果整合在一起,即所謂“元分析”(Meta-Analysis)。為此,Stata 16 提供了全新的 Meta-Analysis 模塊,使得元分析變得十分方便、快捷而高效,并輔之以強大的可視化功能(參見下圖)。 Reporting 由于大數(shù)據(jù)的更新頻繁特點(Velocity),使得數(shù)據(jù)分析經(jīng)常需要重復(fù)進行,使用更新的數(shù)據(jù)。此時,研究報告的可重復(fù)性(Reproducibility)就變得日益重要,即保證任何人只要運行你的 Stata 程序即可得到完全一樣的研究報告。這些研究報告的格式可以是 Word,PDF,Excel 或 HTML(參見下圖)。 而且,當你的數(shù)據(jù)集更新之后,再運行一遍你的 Stata,則你的研究報告也會相應(yīng)地自動更新!Stata 16 新引入或完善的相關(guān)命令包括 dyndoc,markdown,putdocx,html2docx,doc2pdf。 小貼士:還在發(fā)愁如何將 Word 文件轉(zhuǎn)化為 PDF 格式?Stata 16 的 doc2pdf 命令就能幫你搞定啦! Import Data from SAS and SPSS 如果你有數(shù)據(jù)在 SAS 或 SPSS 中,想要導(dǎo)入 Stata 以利用其強大的統(tǒng)計與計量功能,Stata 16 貼心地提供了專門的新命令 import sas 與 import spss,使得這種數(shù)據(jù)遷移變得十分方便與快捷,參見下圖。 Stata 16 深耕計量經(jīng)濟學(xué)的經(jīng)典與前沿方法 Nonparametric Series Regression 序列回歸(series regression)是非參數(shù)回歸(nonparametric regression)的一種重要方法。它使用多項式(polynomials)、B-樣條(B-splines)或樣條(splines)所構(gòu)成的序列來近似逼近任意的未知回歸函數(shù)。 Stata 16 全新推出的命令 npregress series 填補了 Stata 在非參數(shù)回歸領(lǐng)域的又一空白,使得非參數(shù)序列回歸變得方便而高效;比如,計算平均邊際效應(yīng)(average marginal effects)。命令 npregress series 甚至可以估計“半?yún)?shù)模型”(semi-parametric model),即同時包含參數(shù)與非參數(shù)部分的模型。 Choice Models 對于微觀計量中常用的“離散選擇模型”(discrete choice models),Stata 16 專門設(shè)立了一個“選擇模型”(Choice Models)的模塊。在估計選擇模型之前,你先通過命令 cmset 來宣布你的數(shù)據(jù)為選擇模型,然后可用命令 cmsummarize,cmchoiceset,cmtab 或 cmsample 來考察你的選擇模型。 估計選擇模型的相應(yīng) Stata 命令也統(tǒng)一帶上了 cm 的前綴,比如 cmclogit:conditional logit model cmmixlogit:mixed logit model cmxtmixlogit:panel-data mixed logitmodel cmmprobit:multinomial probitmodel cmroprobit:rank-ordered probitmodel cmrologit:rank-ordered logitmodel 其中,cmxtmixlogit 是 Stata 16的全新命令,用于估計面板數(shù)據(jù)的混合邏輯模型(mixed logit models for panel data)。 Panel-data ERMs Stata 15 推出了 ERM(Extended Regression Models)模塊,可以處理同時出現(xiàn)“內(nèi)生性”(endogeneity)、“樣本選擇”(sample selection)與“處理效應(yīng)”(treatment)這三種并發(fā)癥的情形,或三者的任意組合,非常靈活實用。Stata 16 則將ERMs 推廣到了面板數(shù)據(jù)中,新引入了xtegress,xteintreg,xteprobit,xteoprobit 等強大命令。 New in Bayesian Analysis Stata 16 的“貝葉斯分析”(Bayesian Analysis)模塊也有了不少新功能。比如,可使用多個馬爾科夫鏈(multiple chains)來檢驗現(xiàn)代貝葉斯分析所依賴的馬爾科夫鏈蒙特卡洛(Markov China Monte Carlo)是否收斂;以及使用后驗分布(posterior distribution)進行“貝葉斯預(yù)測”(Bayesian predictions),參見下圖。 Nonlinear DSGE Models 繼 Stata 15 推出估計線性 DSGE 模型的命令 dsge 之后,Stata 16 更上一層樓,可以通過命令 dsgenl 來估計非線性 DSGE 模型。 使用命令dsgenl,無須再手工將 DSGE 模型線性化,直接輸入非線性的 DSGE 模型,Stata 即會自動地對它進行線性化與估計。這無疑是宏觀經(jīng)濟學(xué)者的福音?。?/span> xtheckman Stata 16新推出的命令 xtheckman,使得 Heckman 的樣本選擇模型(sample model)也可以在面板數(shù)據(jù)中估計啦! 總之,Stata 16 是一次很令人激動的重大升級。Stata 16 的及時推出,意味著 Stata 在大數(shù)據(jù)時代的華麗轉(zhuǎn)身,而同時又繼續(xù)深耕計量經(jīng)濟學(xué)的經(jīng)典與前沿方法。在可預(yù)見的將來,Stata 依然會是經(jīng)濟學(xué)家最常用的計量與統(tǒng)計軟件。 |
|