在社會(huì)科學(xué)的數(shù)據(jù)分析中,有那么一類變量比較常見,即0-1的二分變量。當(dāng)它是自變量時(shí),則稱為虛擬變量回歸模型,當(dāng)它是因變量時(shí),此時(shí)常用的模型是logistic或probit回歸(這兩種模型的區(qū)別在于對方差的假定不同,二者估計(jì)的結(jié)果差異不大,但是在更為復(fù)雜的模型中可能會(huì)有不同的功能)。二分變量可以詮釋為有或無,發(fā)生或沒有發(fā)生等。在流行病學(xué)或社會(huì)科學(xué)中,有一些事件會(huì)發(fā)生,但是出現(xiàn)的頻次比較低,比如戰(zhàn)爭、罕見病癥以及政體變遷等。很多時(shí)候定性研究在這種重要的罕見事情上大放光彩,通過深入的資料檔案分析與小案例比較方法來探究這些事件的成因,總結(jié)出具有一定普適性的理論。 在定量研究中,稀有事件的logistic分析往往存在困難,這點(diǎn)在數(shù)學(xué)上可以解釋,即頻率派方法求解待估計(jì)系數(shù)矩陣時(shí)(公式如下),如果事件發(fā)生概率過低,矩陣中就會(huì)有很多元素約等于0,那么在求矩陣的逆矩陣時(shí)就容易出問題,造成估計(jì)結(jié)果的可信度不高?,F(xiàn)在的問題是:什么樣的數(shù)據(jù)算是稀有事件數(shù)據(jù)? 加里·金(Gary King)2000年左右與其合作者發(fā)表的兩篇文章討論了對稀有事件回歸模型的估計(jì)修正。當(dāng)然,他們也沒有指出多小的比例算是稀有事件(不過他們文章中使用的數(shù)據(jù)集比例是0.34%,的確算比較小了)。他們文章的核心觀點(diǎn)是,通過先驗(yàn)調(diào)整(prior correction)或者加權(quán)(weighting)的方式來調(diào)整估計(jì)系數(shù)使得樣本估計(jì)更接近總體。核心的參數(shù)是樣本的稀有事件比例和總體的稀少事件比例。因?yàn)樗麄冋J(rèn)為稀有事件數(shù)據(jù)在數(shù)據(jù)收集過程中會(huì)面臨樣本量和變量數(shù)目的權(quán)衡,因此在估計(jì)上可能會(huì)低估了稀少事件的出現(xiàn)頻次,因此這個(gè)調(diào)整方案目的和功能也只是讓估計(jì)更接近真實(shí)參數(shù)而非優(yōu)化估計(jì)。 那么核心問題是,多少比例的稀有事件才需要修正呢?為此小編采用仿真模擬(simulation)的方法,構(gòu)建了不同比例的稀少事件數(shù)據(jù)集,分別使用普通的logistic方法和Gary King的rare event logit方法來得到解答。數(shù)據(jù)分析使用R,基礎(chǔ)包的glm()函數(shù)提供了logistic回歸的程序,Zelig包中的relogit()函數(shù)提供了rare event logit的程序(這個(gè)包的其他函數(shù)出了問題,近期剛剛下架,但是錯(cuò)誤報(bào)告里面沒有提relogit()的問題,因此可以用之前版本的進(jìn)行計(jì)算)。 小編設(shè)定了從0.001到0.01的以0.001為步長的比例值和從0.01到0.20的以0.01為步長的比例值,最終共得到29個(gè)比例值,分別看這兩種估計(jì)方法在不同稀少比例下的表現(xiàn)。由于logistic固定了常用閾值,因此設(shè)計(jì)陣xβ和比例p之間存在某種函數(shù)關(guān)系,這種函數(shù)關(guān)系沒有解析解,只能通過仿真方法求得數(shù)值解進(jìn)行比較。這里小編還設(shè)定了隨機(jī)數(shù)種子666(希望獲得好運(yùn))使得結(jié)果可重復(fù),并虛擬了100000個(gè)樣本量的數(shù)據(jù)集,變量服從最小值為0,最大值為10的均勻分布(正態(tài)分布最終會(huì)導(dǎo)致估計(jì)比例收斂到0.5,沒有辦法達(dá)到想要的比例)。下圖是仿真模擬的結(jié)果。 這幅圖展示的是給定數(shù)據(jù)集的β和比例p之間的真實(shí)關(guān)系(紅線)、logit回歸的估計(jì)(綠線),rare event logit回歸的估計(jì)(藍(lán)線)。為了看得更清晰,截取上左圖的部分結(jié)果放到右圖,可以看到盡管估計(jì)上有差異,但是由于關(guān)鍵回歸系數(shù)的標(biāo)準(zhǔn)誤巨大,因此真實(shí)值也依然在估計(jì)的不確定范圍(uncertainty)內(nèi)。為了進(jìn)一步觀察,小編計(jì)算了估計(jì)值和真實(shí)值之間的差異占真實(shí)值的比例,結(jié)果如下圖。 這張圖我們大概可以看出來,當(dāng)p比較小的時(shí)候,估計(jì)值和真實(shí)值的差異非常大。而且更為關(guān)鍵的是,rare event logit表現(xiàn)也沒比正常的回歸方法要好到哪里去。所以至少目前的仿真模擬結(jié)果呈現(xiàn)出來的結(jié)果是,如果以偏差10%為標(biāo)準(zhǔn),至少比例要達(dá)到1%,如果稀有事件數(shù)據(jù)比例低于1%,兩種方法估計(jì)上比較不出誰優(yōu)誰劣。 所以目前能夠初步得出的(未經(jīng)系統(tǒng)檢驗(yàn)的)結(jié)論是,如果稀有數(shù)據(jù)的比例達(dá)到1%,那么logit模型一般不會(huì)有非常大的估計(jì)偏差(形象地想一下,如果有3000個(gè)樣本量的觀測,某個(gè)二分變量只有30個(gè)不到的1,是不是很多人都有選擇扔掉的沖動(dòng))。低于該比例的,目前尚無可信的估計(jì)方法。當(dāng)然,小編也嘗試了一下貝葉斯(Bayesian)方法,貝葉斯給出的結(jié)果同樣有比較偏離的估計(jì)和較大的可信區(qū)間,由于一次貝葉斯估計(jì)的時(shí)間過長,因此小編沒有把所有29個(gè)比例全部跑完。此外,貝葉斯的結(jié)果也取決于先驗(yàn)(prior)的設(shè)定,如果先驗(yàn)設(shè)定得好那擬合就非常棒,但是現(xiàn)實(shí)的結(jié)果是,我們并不知道待估計(jì)參數(shù)的真實(shí)值,即使將普通回歸的結(jié)果作為一個(gè)弱先驗(yàn)給貝葉斯也沒有明顯的改善。不過這種仿真模擬還比較簡單的,其中可能存在一些因個(gè)人水平有限而沒有意識(shí)到的問題與錯(cuò)誤,如果有愿意討論的師友想要進(jìn)一步討論,還望不吝賜教! 撰文:劉天祥 審校:吳溫泉 編輯:郭靜遠(yuǎn) 你在看政觀么 |
|