總會有小伙伴問起“數(shù)據(jù)是都收集好了,可是應(yīng)該怎么處理呢?” “對數(shù)據(jù)中的重復(fù)值、異常值有什么好的處理方法?” “我的問卷里既有多選題、填空題,也有量表數(shù)據(jù)。這些題目都應(yīng)該怎么處理數(shù)據(jù),怎么分析?” 不用慌!關(guān)于數(shù)據(jù)處理的各種疑問都可以在這篇文章里找到答案。 01 數(shù)據(jù)處理思路數(shù)據(jù)格式 首先,正確的數(shù)據(jù)格式是讓我們可以開始處理和分析數(shù)據(jù)的第一步。不論是什么類型的數(shù)據(jù)均需要按照數(shù)據(jù)分析的規(guī)范格式進行整理。 常見的數(shù)據(jù)格式通常就是一行代表一個樣本,如果有100個樣本即為100行;一列代表一個屬性。 除此之外,針對不同的分析方法,所需的數(shù)據(jù)格式也有所不同,這里就不再展開說明。 多份問卷如何放在一起分析? 當(dāng)有多份數(shù)據(jù)想要一起進行分析,比如給兩個班級做了同一份考題,2個班的測試結(jié)果分別記錄在不同的表格里,如果想要進行比較分析,那么就需要將數(shù)據(jù)合并整理在一個EXCEL工作表里面。 解決方法:數(shù)據(jù)合并有兩種合并方式,第一種是按行疊加;第二種是按列疊加。
如果有兩份數(shù)據(jù)'按行疊加’,此時需要'新增加列’,用于標(biāo)識到底是哪一份數(shù)據(jù)。 比如,分別對兩組研究對象進行相同的測試,然后想使用t檢驗對比兩次結(jié)果的差異。 “按行疊加”通常在做'方差分析’、't檢驗’或'交叉卡方分析’時會使用到。
如果有兩份數(shù)據(jù)'按列疊加’,也就是直接將兩份數(shù)據(jù)的列數(shù)合并。此時,需要注意一定要有個唯一標(biāo)識的號碼,比如姓名、編號、身份證號等。 數(shù)據(jù)標(biāo)簽、數(shù)據(jù)編碼和生成變量 在整理好數(shù)據(jù)后,即可上傳數(shù)據(jù)。接下來就可以對數(shù)據(jù)進行一些基本處理,包括設(shè)置數(shù)據(jù)標(biāo)簽、調(diào)整數(shù)據(jù)編碼和生成變量等。
數(shù)據(jù)標(biāo)簽是用來標(biāo)識數(shù)值的具體含義。如上圖中,明顯不知道1.0、2.0這具體是什么意思。只有設(shè)置了標(biāo)簽后,才會展示出選項的具體含義。
除了數(shù)據(jù)標(biāo)簽外,有時候還可能需要進行數(shù)據(jù)編碼處理,比如希望對年齡分成3個組別,分別是20以下,20~30,30以上。此時就需要使用數(shù)據(jù)編碼處理,如下圖: 操作路徑:[數(shù)據(jù)處理]—[數(shù)據(jù)編碼]功能
很多時候還需要對數(shù)據(jù)生成變量處理,比如說對體重或身高求對數(shù)處理,或者對數(shù)據(jù)開根號,取絕對值,求和,求平均值處理等,那么可使用SPSSAU生成變量功能。 操作路徑:[數(shù)據(jù)處理]—[生成變量]功能 異常值、缺失值問題 在完成了基本的數(shù)據(jù)處理后,針對數(shù)據(jù)中的異常值、缺失值等問題也應(yīng)及時進行處理。
在分析數(shù)據(jù)時,如果發(fā)現(xiàn)一個值與其他值相差甚遠,這類值稱為 “異常值”。 比如,正常男性成年人的身高是介于1.5~2米之間,但是如果出現(xiàn)一個數(shù)據(jù)為1.2米。這種數(shù)據(jù)在分析之前需要進行處理,如把該值設(shè)置為null值。 操作路徑:[數(shù)據(jù)處理]—[異常值]功能
有時候因填寫人疏忽少填了幾道題,或者題目設(shè)置產(chǎn)生了缺失值,此時需要對缺失值進行處理。
操作路徑:[數(shù)據(jù)處理]—[異常值]功能
同時一份問卷中,如果填寫者填寫的都是完全相同的答案,說明該樣本沒有認真填寫,此時可將該樣本設(shè)置為無效樣本。 操作路徑:[數(shù)據(jù)處理]—[無效樣本]功能 完成以上的數(shù)據(jù)處理工作,基本上就可以開始分析了。如果在分析的過程中,又發(fā)現(xiàn)什么其他問題,可以隨時使用[數(shù)據(jù)處理]模塊的處理功能進行調(diào)整。 02 量表題處理針對量表題數(shù)據(jù)的處理,還有以下幾個常見問題: 反向題如何處理? 在量表題設(shè)計時,有時會插入一些反向題,針對這些反向設(shè)計的題目,需要先進行反向編碼處理才可以分析。 如五級量表,則可編碼處理為:1->5,2->4,3->3,4->2,5->1。 操作路徑:[數(shù)據(jù)處理]—[數(shù)據(jù)編碼]功能 不同尺度的量表數(shù)據(jù)如何統(tǒng)一? 一般情況下不同尺度的量表,不需要特別處理。比如設(shè)計了四個維度的量表,而各維度使用的量表尺度不一致其實也不受影響,如做信度效度按每個維度分別進行分析即可。 如果涉及數(shù)值上的比較,像是對同一組對象前后兩年進行測量,去年使用了1-5分的量表,而今年改用1-7分量表收集數(shù)據(jù)。想要比較兩年數(shù)據(jù)的結(jié)果,這直接比較數(shù)值顯然不太對,此時可以考慮對數(shù)據(jù)做區(qū)間化處理,把1-5分?jǐn)?shù)據(jù)轉(zhuǎn)換成1-7分。 操作步驟:選擇[生成變量]—[區(qū)間化],將區(qū)間最小值設(shè)置1,區(qū)間最大值設(shè)為7,點擊[確認處理],即可將所有數(shù)據(jù)轉(zhuǎn)化成1-7分。 03 非量表題處理非量表題有很多種,針對每種類型的題目所需的數(shù)據(jù)格式、數(shù)據(jù)處理方式也不太一樣。之前SPSSAU已推送過詳細的文字教程,這里就不再展開說明,大家可以點擊下方鏈接,查看視頻教程及往期文章。 ① 多選題 ② 排序題 ③ 非規(guī)則化數(shù)據(jù)如何整理? 以上就是本次分享的內(nèi)容啦。如果你還有什么數(shù)據(jù)處理上的疑難問題沒有解決,可以在評論區(qū)告訴我們。 |
|
來自: Mark_killua > 《待分類》