【原】陳根：數(shù)據(jù)清洗機(jī)器人，MIT首發(fā)

陳根談科技 2021-05-19

展開全文

文/陳根

當(dāng)前，數(shù)據(jù)量的快速增長已經(jīng)成為了IT管理部門所面對的最難于解決的問題之一。數(shù)據(jù)量的增長嚴(yán)重降低了應(yīng)用程序的性能，降低了應(yīng)用程序的穩(wěn)定性，并且消耗了大量的投資，同時對備份與恢復(fù)也增加了巨大的負(fù)擔(dān)。

顯然，對于IT管理部門來說，不能永無止境的投入大量資金來升級系統(tǒng)存儲水平、提高服務(wù)器性能，以此來滿足不斷增長的數(shù)據(jù)量。數(shù)據(jù)清理在這個時候就顯得尤為重要。

通過數(shù)據(jù)清理和數(shù)據(jù)歸檔的實施可以有效的提高數(shù)據(jù)庫性能，確保核心業(yè)務(wù)不會因為長時間數(shù)據(jù)積累而出現(xiàn)性能問題，從而應(yīng)用可以更加迅捷地提供優(yōu)質(zhì)服務(wù)。當(dāng)然，數(shù)據(jù)清理技術(shù)也經(jīng)過了漫長的發(fā)展且仍在研發(fā)之中。

根據(jù)Anaconda和Figure Eight進(jìn)行的調(diào)查，數(shù)據(jù)清理可能需要數(shù)據(jù)科學(xué)家四分之一的時間。并且，自動化數(shù)據(jù)清理對于數(shù)據(jù)清理而言極具挑戰(zhàn)性——因為不同的數(shù)據(jù)集需要不同類型的清理，而且經(jīng)常需要對世界上的對象進(jìn)行常理性的判斷。

基于此，近日，麻省理工學(xué)院(MIT)的研究人員就稱，他們發(fā)明了一種新的系統(tǒng)，可以自動清除“臟數(shù)據(jù)”(dirty data)——數(shù)據(jù)分析師、數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家害怕的打字錯誤、重復(fù)、缺失值、拼寫錯誤和不一致。

新系統(tǒng)被稱為PClean，是概率計算項目(Probabilistic Computing Project)研究人員編寫的針對特定領(lǐng)域的概率編程語言，旨在簡化人工智能應(yīng)用程序的開發(fā)并實現(xiàn)自動化，例如時間序列和數(shù)據(jù)庫進(jìn)行建模。

PClean使用一種基于知識的方法來自動化數(shù)據(jù)清理過程：用戶對數(shù)據(jù)庫的背景知識以及可能出現(xiàn)的問題進(jìn)行編碼。用戶可以給PClean關(guān)于域和關(guān)于數(shù)據(jù)可能被破壞的背景知識。PClean通過常識概率推理結(jié)合這些知識來得出答案。

PClean是第一個貝葉斯數(shù)據(jù)清理系統(tǒng)，它可以結(jié)合領(lǐng)域?qū)I(yè)知識和常識性推理，自動清理數(shù)據(jù)庫中的數(shù)百萬條記錄。PClean工作所需的代碼行數(shù)要比其他最先進(jìn)的選擇少得多：PClean程序只需要大約50行代碼就可以在準(zhǔn)確性和運(yùn)行時方面超過基準(zhǔn)測試。

顯然，大數(shù)據(jù)時代里還需要更多數(shù)據(jù)清理技術(shù)的開發(fā)，這也將為未來大數(shù)據(jù)的發(fā)展提供更多的保證。