一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

經(jīng)管論文共同體推送34 | 缺失值的處理:基于ICSD數(shù)據(jù)庫的對比分析

 計量經(jīng)濟圈 2020-05-30

閱讀提示

       全文共2118字,建議閱讀時間:7分鐘。

原文來源:Cali Curley., Rachel M. Krause., Richard Feiock., and Christopher V. Hawkins. Dealing with Missing Data: A Comparative Exploration of Approaches Using the Integrated City Sustainability Database. Urban Affairs Review 2017,55(1):1-24.

摘要

使用調(diào)查數(shù)據(jù)對政府和地方組織在城市研究和相關學科發(fā)展中起著至關重要的作用。但是,數(shù)據(jù)缺失對這項研究提出了艱巨的挑戰(zhàn)。本文旨在通過比較和評估三種常用的處理缺失數(shù)據(jù)的方法——刪除元組、單一插補和多重插補——來提高人們對城市研究中缺失數(shù)據(jù)的處理的認識,比較分析使用第二代綜合城市可持續(xù)性數(shù)據(jù)庫(ICSD)來說明這些方法的相對優(yōu)勢。結(jié)果表明,使用基于多重插補的數(shù)據(jù)缺失處理方法的好處是,它使用的理論和統(tǒng)計支持的一組預測變量可以開發(fā)出更完整的樣本。結(jié)果證實了ICSD在研究美國城市的環(huán)境與可持續(xù)性及其他政策方面的有用性。最后,文章對結(jié)果進行了討論,并為城市研究人員提供了一系列建議。

一、引言

調(diào)查是收集統(tǒng)計分析所需數(shù)據(jù)的一種相對有效的方法。然而,數(shù)據(jù)缺失問題為以調(diào)查為基礎的研究帶來巨大挑戰(zhàn),常常影響統(tǒng)計分析方法的選擇,甚至決定研究結(jié)果的可靠性。刪除元組是許多統(tǒng)計軟件默認的處理缺失值的方法。文章主要研究缺失值的不同處理方法對研究結(jié)果的影響,以尋求處理缺失值的適當方法,為使用調(diào)查數(shù)據(jù)的城市研究者提供參考。

二、缺失值的類型

1 完全隨機缺失(MCAR)

指的是數(shù)據(jù)的缺失是完全隨機的,不依賴于任何其他變量,不影響樣本的無偏性。  

檢驗:Little's test; chi-square test

處理:刪除元組;多重插補

2 隨機缺失(MAR)

指的是數(shù)據(jù)的缺失不是完全隨機的,即該類數(shù)據(jù)的缺失依賴于受訪者的回應??衫闷渌^測變量進行預測。

處理:多重插補

3 非隨機缺失(MNAR)

指的是數(shù)據(jù)的缺失無法通過其他相關變量進行預測。

處理:多重插補;極大似然;Heckman Selection Models

統(tǒng)計分析過程中,依據(jù)數(shù)據(jù)缺失的類型選擇恰當?shù)奶幚矸椒ㄖ陵P重要。由于不同的方法具有不同的計量假設,誤用可能導致實證結(jié)果無效。無效的假設和對缺失值的不正確分類可能導致:①減少樣本量,降低估計模型的可信度;②增加潛在偏差可能性;③高估或低估標準差。

三、缺失值的處理方法

(一)刪除元組

    將存在遺漏信息屬性值的對象(元組,記錄)刪除,從而得到一個完備的信息表。

(二)單一插補

1.平均值替代法

    將初始數(shù)據(jù)集中的屬性分為數(shù)值屬性和非數(shù)值屬性來分別進行處理。如果空值是數(shù)值型的,就根據(jù)該屬性在其他所有對象的取值的平均值來填充該缺失的屬性值;如果空值是非數(shù)值型的,就根據(jù)統(tǒng)計學中的眾數(shù)原理,用該屬性在其他所有對象的取值次數(shù)最多的值(即出現(xiàn)頻率最高的值)來補齊該缺失的屬性值。

2.回歸替代法

    首先需要選擇若干個預測缺失值的自變量,然后建立回歸方程估計缺失值,即用缺失數(shù)據(jù)的條件期望值對缺失值進行替換。

(三)多重插補

    首先,多重估算技術(shù)用一系列可能的值來替換每一個缺失值,以反映被替換的缺失數(shù)據(jù)的不確定性。然后,用標準的統(tǒng)計分析過程對多次替換后產(chǎn)生的若干個數(shù)據(jù)集進行分析。最后,把來自于各個數(shù)據(jù)集的統(tǒng)計結(jié)果進行綜合,得到總體參數(shù)的估計值。

四、ICSD缺失值的描述

ICSD包含了關于城市可持續(xù)項目的七個全國性調(diào)查結(jié)果,其中2825個城市至少完成了七項調(diào)查中的一項,但是許多城市并沒有完成所有七項調(diào)查,這意味著ICSD中包含了大量缺失值。

對ICSD缺失值的處理:

(一)回歸替代法

(二)多重插補

五、基于ICSD的方法比較

使用ICSD調(diào)查數(shù)據(jù),檢驗處理缺失值三種方法(刪除元組、均值替代、多重插補)的相對表現(xiàn),實證分析了地方可持續(xù)行為的影響因子。

(一)因變量:

      城市環(huán)境可持續(xù)發(fā)展相關政策與行動數(shù)量的累加指數(shù)(能源、運輸、廢物處理)

(二)自變量:

       ①城市參與可持續(xù)的動機(節(jié)能、建立可持續(xù)共同體的愿望、外部公共壓力)

       ②城市參與可持續(xù)的障礙(能力不足,信息資源匱乏,缺乏政治意愿)

(三)控制變量:

    人口密度、人均收入、政府形式、國際地方環(huán)境倡議委員會成員、少數(shù)民族居民百分比、居民受教育程度

六、結(jié)果

(一)刪除元組

      樣本量由683減少到111。結(jié)果表明,只有“國際地方環(huán)境倡議委員會成員”這一變量顯著。這表明樣本量急劇減少和由此產(chǎn)生的潛在偏差可能導致產(chǎn)生與實施政策的動機和障礙有關的空白結(jié)果。

(二)平均值替代法

     樣本量由683減少到325,回歸結(jié)果比“刪除元組”要好。這說明,“刪除元組”可能導致一些結(jié)果不顯著。但是,由于“平均值替代法”低估了標準差,可能導致變量之間的關系不真實。

(三)多重插補

       樣本量不變,建立可持續(xù)共同體的意愿顯著,與政策指數(shù)密切相關。

七、討論與結(jié)論

三種處理數(shù)據(jù)缺失方法的利弊:

      刪除元組:導致樣本量減少、一些變量不顯著,帶來選擇偏差,限于完全隨機缺失。

       平均值替代:低估標準誤,導致結(jié)果被高估。

      多重插補:盡管更復雜,但不減少樣本量,偏差小,適用于完全隨機缺失和隨機缺失。但不報告標準的描述性統(tǒng)計(比如:變量均值、擬合優(yōu)度等)。

    文章認為,“刪除元組、平均值替代、多重插補”是處理數(shù)據(jù)缺失問題的常用方法,每種方法各有利弊。實際上,選擇何種方法解決數(shù)據(jù)缺失問題應由缺失值的類型決定。


推文譯者溫永林,中南財經(jīng)政法大學公共管理學院碩士研究生,研究方向為科技政策與創(chuàng)新管理、城市創(chuàng)業(yè)。

本文排版劉馨憶

檢查審核蔡詩媛

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    国产精品一区二区三区日韩av| 人妻中文一区二区三区| 日韩精品免费一区三区| 亚洲国产成人一区二区在线观看| 亚洲精选91福利在线观看| 国产精品视频一区麻豆专区| 日本一区二区三区黄色| 精品人妻久久一品二品三品| 日本中文在线不卡视频| 黄色片国产一区二区三区| 欧美性欧美一区二区三区| 欧美日韩一级aa大片| 91蜜臀精品一区二区三区| 两性色午夜天堂免费视频| 久久99青青精品免费观看| 老熟女露脸一二三四区| 日本熟妇熟女久久综合| 大尺度激情福利视频在线观看| 久久精品偷拍视频观看| 九九热在线免费在线观看| 国产精品夜色一区二区三区不卡| 精产国品一二三区麻豆| 日本三区不卡高清更新二区| 少妇熟女亚洲色图av天堂| 91欧美激情在线视频| 黄片在线观看一区二区三区| 久久黄片免费播放大全| 91人妻人人澡人人人人精品| 日韩精品综合免费视频| 神马午夜福利免费视频| 五月婷婷缴情七月丁香| 好吊日成人免费视频公开| 在线观看免费午夜福利| 99久久精品国产麻豆| 99日韩在线视频精品免费| 亚洲中文字幕三区四区| 粗暴蹂躏中文一区二区三区| 日本在线视频播放91| 国产精品久久久久久久久久久痴汉| 久久精品偷拍视频观看| 最新日韩精品一推荐日韩精品|