拼寫錯(cuò)誤的單詞、難以去除的尾隨空格、不需要的前綴、不正確的大小寫和非打印字符給人一種不好的第一印象。導(dǎo)致數(shù)據(jù)混亂的因素還不止這些。請(qǐng)準(zhǔn)備好。通過(guò) Microsoft Excel 對(duì)工作表進(jìn)行大掃除的時(shí)候到了。 清理數(shù)據(jù)的基礎(chǔ)知識(shí) 你并不一定始終可控制從數(shù)據(jù)庫(kù)、文本文件或網(wǎng)頁(yè)等外部數(shù)據(jù)源導(dǎo)入的數(shù)據(jù)格式和類型。通常需要先清理數(shù)據(jù),才能分析數(shù)據(jù)。幸運(yùn)的是,Excel 提供許多功能,可幫助用戶獲取所需精確格式的數(shù)據(jù)。有時(shí)任務(wù)非常簡(jiǎn)單,Excel 具有執(zhí)行此任務(wù)的特定功能。例如,可輕松使用拼寫檢查清理包含批注或說(shuō)明的列中拼寫錯(cuò)誤的單詞?;蛘呷绻胍?jiǎng)h除重復(fù)行,可使用“刪除重復(fù)項(xiàng)”對(duì)話框快速執(zhí)行此操作。 在其他情況下,可能需要使用公式將導(dǎo)入的值轉(zhuǎn)換為新值來(lái)操作一列或多列。例如,如果想要?jiǎng)h除尾隨空格,可創(chuàng)建新列來(lái)清理數(shù)據(jù),方法是:使用公式,向下填充新列,將新列的公式轉(zhuǎn)換為值,然后刪除原始列。 清理數(shù)據(jù)的基本步驟如下所示:
若要定期清理相同的數(shù)據(jù)源,請(qǐng)考慮錄制宏或編寫代碼,自動(dòng)執(zhí)行整個(gè)過(guò)程。 刪除重復(fù)行 導(dǎo)入數(shù)據(jù)時(shí),重復(fù)行是一個(gè)常見(jiàn)問(wèn)題。最好先篩選唯一值,確認(rèn)結(jié)果是所需結(jié)果,然后再刪除重復(fù)值。 查找和替換文本 可能需要?jiǎng)h除常見(jiàn)的前導(dǎo)字符串(例如后跟冒號(hào)和空格的標(biāo)簽)或后綴(例如已過(guò)時(shí)或不必要的字符串結(jié)尾處的附加說(shuō)明短語(yǔ))。若要執(zhí)行此操作,可查找文本的實(shí)例,然后將其替換為無(wú)文本或其他文本。 更改文本大小寫 有時(shí)文本格式混亂,尤其是文本大小寫方面。使用三種 Case 函數(shù)中的一種或多種,可將文本轉(zhuǎn)換為小寫字母(如電子郵件地址)、大寫字母(如產(chǎn)品代碼)或首字母大寫(如姓名或書名)。 刪除文本中的空格和非打印字符 有時(shí)文本值包含前導(dǎo)空格、尾隨空格或多個(gè)嵌入空格字符(Unicode 字符集值 32 和 160),或非打印字符(Unicode 字符集值 0 到 31、127、129、141、143、144 和 157)。執(zhí)行排序、篩選或搜索操作時(shí),這些字符有時(shí)會(huì)導(dǎo)致意外結(jié)果。例如,在外部數(shù)據(jù)源中,用戶可能會(huì)無(wú)意添加額外的空格字符,從而導(dǎo)致打字錯(cuò)誤,或者從外部源導(dǎo)入的文本數(shù)據(jù)可能包含嵌入在文本中的非打印字符。由于這些字符不容易引起注意,因此意外結(jié)果可能很難理解。若要?jiǎng)h除這些不需要的字符,可組合使用 TRIM、CLEAN 和 SUBSTITUTE 函數(shù)。 修復(fù)數(shù)字和數(shù)字符號(hào) 主要有兩個(gè)數(shù)字問(wèn)題可能需要你進(jìn)行數(shù)據(jù)清理:無(wú)意中將數(shù)字導(dǎo)入為文本,以及需要根據(jù)你組織的標(biāo)準(zhǔn)更改負(fù)號(hào)。 修復(fù)日期和時(shí)間 由于存在許多不同的日期格式,并且這些格式可能混雜有編號(hào)部件代碼或其他包含斜杠標(biāo)記或連字符的字符串,因此日期和時(shí)間通常需要進(jìn)行轉(zhuǎn)換和重新設(shè)置格式。 合并和拆分列 從外部數(shù)據(jù)源導(dǎo)入數(shù)據(jù)后的常見(jiàn)任務(wù)是將兩列或多列合并為一列,或?qū)⒁涣胁鸱譃閮闪谢蚨嗔?。例如,可能需要將包含全名的列拆分為名字和姓氏?;蛘呖赡苄枰獙刂纷侄蔚牧胁鸱譃閱为?dú)的街道、城市、地區(qū)和郵政編碼列。反之亦可??赡苄枰獙⒚趾托帐狭泻喜橐粋€(gè)全名列,或者將單獨(dú)的地址列合并為一列。其他可能需要合并為一列或拆分為多列的常見(jiàn)值包括產(chǎn)品代碼、文件路徑和 Internet 協(xié)議 (IP) 地址。 轉(zhuǎn)換和重新排列行和列 Office Excel 中的大多數(shù)分析和格式設(shè)置功能都假設(shè)數(shù)據(jù)存在于單個(gè)平面二維表中。有時(shí)可能需要將行轉(zhuǎn)換為列、將列轉(zhuǎn)換為行。有時(shí)候,數(shù)據(jù)甚至不是表格格式結(jié)構(gòu),需要使用一種方法將數(shù)據(jù)從非表格格式轉(zhuǎn)換為表格格式。 通過(guò)聯(lián)接或匹配協(xié)調(diào)表格數(shù)據(jù) 有時(shí),數(shù)據(jù)庫(kù)管理員會(huì)使用 Office Excel 查找并更正兩個(gè)或多個(gè)表聯(lián)接時(shí)的匹配錯(cuò)誤。這可能涉及協(xié)調(diào)不同工作表中的兩個(gè)表,例如,查看兩個(gè)表中的所有記錄,或比較兩個(gè)表并查找不匹配的行。 |
|