閱讀提示 全文共2118字,建議閱讀時間:7分鐘。 原文來源:Cali Curley., Rachel M. Krause., Richard Feiock., and Christopher V. Hawkins. Dealing with Missing Data: A Comparative Exploration of Approaches Using the Integrated City Sustainability Database. Urban Affairs Review 2017,55(1):1-24. 摘要 使用調(diào)查數(shù)據(jù)對政府和地方組織在城市研究和相關學科發(fā)展中起著至關重要的作用。但是,數(shù)據(jù)缺失對這項研究提出了艱巨的挑戰(zhàn)。本文旨在通過比較和評估三種常用的處理缺失數(shù)據(jù)的方法——刪除元組、單一插補和多重插補——來提高人們對城市研究中缺失數(shù)據(jù)的處理的認識,比較分析使用第二代綜合城市可持續(xù)性數(shù)據(jù)庫(ICSD)來說明這些方法的相對優(yōu)勢。結(jié)果表明,使用基于多重插補的數(shù)據(jù)缺失處理方法的好處是,它使用的理論和統(tǒng)計支持的一組預測變量可以開發(fā)出更完整的樣本。結(jié)果證實了ICSD在研究美國城市的環(huán)境與可持續(xù)性及其他政策方面的有用性。最后,文章對結(jié)果進行了討論,并為城市研究人員提供了一系列建議。 一、引言 調(diào)查是收集統(tǒng)計分析所需數(shù)據(jù)的一種相對有效的方法。然而,數(shù)據(jù)缺失問題為以調(diào)查為基礎的研究帶來巨大挑戰(zhàn),常常影響統(tǒng)計分析方法的選擇,甚至決定研究結(jié)果的可靠性。刪除元組是許多統(tǒng)計軟件默認的處理缺失值的方法。文章主要研究缺失值的不同處理方法對研究結(jié)果的影響,以尋求處理缺失值的適當方法,為使用調(diào)查數(shù)據(jù)的城市研究者提供參考。 二、缺失值的類型 1 完全隨機缺失(MCAR) 指的是數(shù)據(jù)的缺失是完全隨機的,不依賴于任何其他變量,不影響樣本的無偏性。 檢驗:Little's test; chi-square test 處理:刪除元組;多重插補 2 隨機缺失(MAR) 指的是數(shù)據(jù)的缺失不是完全隨機的,即該類數(shù)據(jù)的缺失依賴于受訪者的回應??衫闷渌^測變量進行預測。 處理:多重插補 指的是數(shù)據(jù)的缺失無法通過其他相關變量進行預測。 處理:多重插補;極大似然;Heckman Selection Models 統(tǒng)計分析過程中,依據(jù)數(shù)據(jù)缺失的類型選擇恰當?shù)奶幚矸椒ㄖ陵P重要。由于不同的方法具有不同的計量假設,誤用可能導致實證結(jié)果無效。無效的假設和對缺失值的不正確分類可能導致:①減少樣本量,降低估計模型的可信度;②增加潛在偏差可能性;③高估或低估標準差。 三、缺失值的處理方法 (一)刪除元組 將存在遺漏信息屬性值的對象(元組,記錄)刪除,從而得到一個完備的信息表。 (二)單一插補 1.平均值替代法 將初始數(shù)據(jù)集中的屬性分為數(shù)值屬性和非數(shù)值屬性來分別進行處理。如果空值是數(shù)值型的,就根據(jù)該屬性在其他所有對象的取值的平均值來填充該缺失的屬性值;如果空值是非數(shù)值型的,就根據(jù)統(tǒng)計學中的眾數(shù)原理,用該屬性在其他所有對象的取值次數(shù)最多的值(即出現(xiàn)頻率最高的值)來補齊該缺失的屬性值。 2.回歸替代法 首先需要選擇若干個預測缺失值的自變量,然后建立回歸方程估計缺失值,即用缺失數(shù)據(jù)的條件期望值對缺失值進行替換。 (三)多重插補 首先,多重估算技術(shù)用一系列可能的值來替換每一個缺失值,以反映被替換的缺失數(shù)據(jù)的不確定性。然后,用標準的統(tǒng)計分析過程對多次替換后產(chǎn)生的若干個數(shù)據(jù)集進行分析。最后,把來自于各個數(shù)據(jù)集的統(tǒng)計結(jié)果進行綜合,得到總體參數(shù)的估計值。 四、ICSD缺失值的描述 ICSD包含了關于城市可持續(xù)項目的七個全國性調(diào)查結(jié)果,其中2825個城市至少完成了七項調(diào)查中的一項,但是許多城市并沒有完成所有七項調(diào)查,這意味著ICSD中包含了大量缺失值。 對ICSD缺失值的處理: (一)回歸替代法 (二)多重插補 五、基于ICSD的方法比較 使用ICSD調(diào)查數(shù)據(jù),檢驗處理缺失值三種方法(刪除元組、均值替代、多重插補)的相對表現(xiàn),實證分析了地方可持續(xù)行為的影響因子。 (一)因變量: 城市環(huán)境可持續(xù)發(fā)展相關政策與行動數(shù)量的累加指數(shù)(能源、運輸、廢物處理) (二)自變量: ①城市參與可持續(xù)的動機(節(jié)能、建立可持續(xù)共同體的愿望、外部公共壓力) ②城市參與可持續(xù)的障礙(能力不足,信息資源匱乏,缺乏政治意愿) (三)控制變量: 人口密度、人均收入、政府形式、國際地方環(huán)境倡議委員會成員、少數(shù)民族居民百分比、居民受教育程度 六、結(jié)果 (一)刪除元組 樣本量由683減少到111。結(jié)果表明,只有“國際地方環(huán)境倡議委員會成員”這一變量顯著。這表明樣本量急劇減少和由此產(chǎn)生的潛在偏差可能導致產(chǎn)生與實施政策的動機和障礙有關的空白結(jié)果。 (二)平均值替代法 樣本量由683減少到325,回歸結(jié)果比“刪除元組”要好。這說明,“刪除元組”可能導致一些結(jié)果不顯著。但是,由于“平均值替代法”低估了標準差,可能導致變量之間的關系不真實。 (三)多重插補 樣本量不變,建立可持續(xù)共同體的意愿顯著,與政策指數(shù)密切相關。 七、討論與結(jié)論 三種處理數(shù)據(jù)缺失方法的利弊: 刪除元組:導致樣本量減少、一些變量不顯著,帶來選擇偏差,限于完全隨機缺失。 平均值替代:低估標準誤,導致結(jié)果被高估。 多重插補:盡管更復雜,但不減少樣本量,偏差小,適用于完全隨機缺失和隨機缺失。但不報告標準的描述性統(tǒng)計(比如:變量均值、擬合優(yōu)度等)。 文章認為,“刪除元組、平均值替代、多重插補”是處理數(shù)據(jù)缺失問題的常用方法,每種方法各有利弊。實際上,選擇何種方法解決數(shù)據(jù)缺失問題應由缺失值的類型決定。 推文譯者:溫永林,中南財經(jīng)政法大學公共管理學院碩士研究生,研究方向為科技政策與創(chuàng)新管理、城市創(chuàng)業(yè)。 本文排版:劉馨憶 檢查審核:蔡詩媛 |
|
來自: 計量經(jīng)濟圈 > 《待分類》