【原】政觀原創(chuàng) | 對稀有事件數(shù)據(jù)分析的討論

政文觀止 2022-04-14

展開全文

在社會(huì)科學(xué)的數(shù)據(jù)分析中，有那么一類變量比較常見，即0-1的二分變量。當(dāng)它是自變量時(shí)，則稱為虛擬變量回歸模型，當(dāng)它是因變量時(shí)，此時(shí)常用的模型是logistic或probit回歸（這兩種模型的區(qū)別在于對方差的假定不同，二者估計(jì)的結(jié)果差異不大，但是在更為復(fù)雜的模型中可能會(huì)有不同的功能）。二分變量可以詮釋為有或無，發(fā)生或沒有發(fā)生等。在流行病學(xué)或社會(huì)科學(xué)中，有一些事件會(huì)發(fā)生，但是出現(xiàn)的頻次比較低，比如戰(zhàn)爭、罕見病癥以及政體變遷等。很多時(shí)候定性研究在這種重要的罕見事情上大放光彩，通過深入的資料檔案分析與小案例比較方法來探究這些事件的成因，總結(jié)出具有一定普適性的理論。

在定量研究中，稀有事件的logistic分析往往存在困難，這點(diǎn)在數(shù)學(xué)上可以解釋，即頻率派方法求解待估計(jì)系數(shù)矩陣時(shí)（公式如下），如果事件發(fā)生概率過低，矩陣中就會(huì)有很多元素約等于0，那么在求矩陣的逆矩陣時(shí)就容易出問題，造成估計(jì)結(jié)果的可信度不高?，F(xiàn)在的問題是：什么樣的數(shù)據(jù)算是稀有事件數(shù)據(jù)？

加里·金（Gary King）2000年左右與其合作者發(fā)表的兩篇文章討論了對稀有事件回歸模型的估計(jì)修正。當(dāng)然，他們也沒有指出多小的比例算是稀有事件（不過他們文章中使用的數(shù)據(jù)集比例是0.34%，的確算比較小了）。他們文章的核心觀點(diǎn)是，通過先驗(yàn)調(diào)整（prior correction）或者加權(quán)（weighting）的方式來調(diào)整估計(jì)系數(shù)使得樣本估計(jì)更接近總體。核心的參數(shù)是樣本的稀有事件比例和總體的稀少事件比例。因?yàn)樗麄冋J(rèn)為稀有事件數(shù)據(jù)在數(shù)據(jù)收集過程中會(huì)面臨樣本量和變量數(shù)目的權(quán)衡，因此在估計(jì)上可能會(huì)低估了稀少事件的出現(xiàn)頻次，因此這個(gè)調(diào)整方案目的和功能也只是讓估計(jì)更接近真實(shí)參數(shù)而非優(yōu)化估計(jì)。

那么核心問題是，多少比例的稀有事件才需要修正呢？為此小編采用仿真模擬（simulation）的方法，構(gòu)建了不同比例的稀少事件數(shù)據(jù)集，分別使用普通的logistic方法和Gary King的rare event logit方法來得到解答。數(shù)據(jù)分析使用R，基礎(chǔ)包的glm()函數(shù)提供了logistic回歸的程序，Zelig包中的relogit()函數(shù)提供了rare event logit的程序（這個(gè)包的其他函數(shù)出了問題，近期剛剛下架，但是錯(cuò)誤報(bào)告里面沒有提relogit()的問題，因此可以用之前版本的進(jìn)行計(jì)算）。

小編設(shè)定了從0.001到0.01的以0.001為步長的比例值和從0.01到0.20的以0.01為步長的比例值，最終共得到29個(gè)比例值，分別看這兩種估計(jì)方法在不同稀少比例下的表現(xiàn)。由于logistic固定了常用閾值，因此設(shè)計(jì)陣xβ和比例p之間存在某種函數(shù)關(guān)系，這種函數(shù)關(guān)系沒有解析解，只能通過仿真方法求得數(shù)值解進(jìn)行比較。這里小編還設(shè)定了隨機(jī)數(shù)種子666（希望獲得好運(yùn)）使得結(jié)果可重復(fù)，并虛擬了100000個(gè)樣本量的數(shù)據(jù)集，變量服從最小值為0，最大值為10的均勻分布（正態(tài)分布最終會(huì)導(dǎo)致估計(jì)比例收斂到0.5，沒有辦法達(dá)到想要的比例）。下圖是仿真模擬的結(jié)果。

這幅圖展示的是給定數(shù)據(jù)集的β和比例p之間的真實(shí)關(guān)系（紅線）、logit回歸的估計(jì)（綠線），rare event logit回歸的估計(jì)（藍(lán)線）。為了看得更清晰，截取上左圖的部分結(jié)果放到右圖，可以看到盡管估計(jì)上有差異，但是由于關(guān)鍵回歸系數(shù)的標(biāo)準(zhǔn)誤巨大，因此真實(shí)值也依然在估計(jì)的不確定范圍（uncertainty）內(nèi)。為了進(jìn)一步觀察，小編計(jì)算了估計(jì)值和真實(shí)值之間的差異占真實(shí)值的比例，結(jié)果如下圖。

這張圖我們大概可以看出來，當(dāng)p比較小的時(shí)候，估計(jì)值和真實(shí)值的差異非常大。而且更為關(guān)鍵的是，rare event logit表現(xiàn)也沒比正常的回歸方法要好到哪里去。所以至少目前的仿真模擬結(jié)果呈現(xiàn)出來的結(jié)果是，如果以偏差10%為標(biāo)準(zhǔn)，至少比例要達(dá)到1%，如果稀有事件數(shù)據(jù)比例低于1%，兩種方法估計(jì)上比較不出誰優(yōu)誰劣。

所以目前能夠初步得出的（未經(jīng)系統(tǒng)檢驗(yàn)的）結(jié)論是，如果稀有數(shù)據(jù)的比例達(dá)到1%，那么logit模型一般不會(huì)有非常大的估計(jì)偏差（形象地想一下，如果有3000個(gè)樣本量的觀測，某個(gè)二分變量只有30個(gè)不到的1，是不是很多人都有選擇扔掉的沖動(dòng)）。低于該比例的，目前尚無可信的估計(jì)方法。當(dāng)然，小編也嘗試了一下貝葉斯（Bayesian）方法，貝葉斯給出的結(jié)果同樣有比較偏離的估計(jì)和較大的可信區(qū)間，由于一次貝葉斯估計(jì)的時(shí)間過長，因此小編沒有把所有29個(gè)比例全部跑完。此外，貝葉斯的結(jié)果也取決于先驗(yàn)（prior）的設(shè)定，如果先驗(yàn)設(shè)定得好那擬合就非常棒，但是現(xiàn)實(shí)的結(jié)果是，我們并不知道待估計(jì)參數(shù)的真實(shí)值，即使將普通回歸的結(jié)果作為一個(gè)弱先驗(yàn)給貝葉斯也沒有明顯的改善。不過這種仿真模擬還比較簡單的，其中可能存在一些因個(gè)人水平有限而沒有意識(shí)到的問題與錯(cuò)誤，如果有愿意討論的師友想要進(jìn)一步討論，還望不吝賜教！

撰文：劉天祥審校：吳溫泉編輯：郭靜遠(yuǎn)

你在看政觀么