不同類型的噪聲會(huì)對(duì)模型的分類性能產(chǎn)生什么樣的影響呢,讓我們一同進(jìn)行實(shí)驗(yàn),來(lái)探索那暗中作祟的標(biāo)簽噪聲! 作者&編輯 | 郭冰洋 1 簡(jiǎn)介 在數(shù)據(jù)集制作過(guò)程中,由于主觀、客觀的原因,會(huì)導(dǎo)致標(biāo)簽噪聲的出現(xiàn),其存在會(huì)對(duì)最終的分類模型性能造成一定的影響。因此,在實(shí)際應(yīng)用過(guò)程中,總是要對(duì)現(xiàn)有的數(shù)據(jù)集進(jìn)行清洗,以避免標(biāo)簽噪聲的干擾。 常見(jiàn)的標(biāo)簽噪聲包括跨類別噪聲和隨機(jī)噪聲兩種??珙悇e噪聲是指屬于數(shù)據(jù)集某一確定類別的圖片,被誤分至屬于數(shù)據(jù)集的另一確定類別。隨機(jī)噪聲是指屬于數(shù)據(jù)集某一確定類別的圖片中,有大量與類別標(biāo)簽不相關(guān)的圖片,同時(shí)這些圖片不屬于數(shù)據(jù)集中的任何一類。 本篇文章我們將以Cifar 10、Cifar 100數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù),對(duì)標(biāo)簽噪聲進(jìn)行探究,以測(cè)試不同類型、不同比例的噪聲對(duì)分類模型的影響。 2 實(shí)驗(yàn)記錄 2.1 無(wú)標(biāo)簽噪聲的訓(xùn)練結(jié)果 首先我們通過(guò)構(gòu)建最基本的CNN網(wǎng)絡(luò)對(duì)兩個(gè)數(shù)據(jù)進(jìn)行分類,在正常圖片且無(wú)標(biāo)簽噪聲的情況下,Cifar 10和Cifar 100分別取得了89.2%和65.8%的準(zhǔn)確率,以此作為基礎(chǔ)結(jié)果,我們將分別添加不同的噪聲進(jìn)行對(duì)比。 2.2 含標(biāo)簽噪聲的訓(xùn)練結(jié)果 通過(guò)設(shè)置不同的噪聲類別和比例,對(duì)其進(jìn)行訓(xùn)練后我們得出相應(yīng)的準(zhǔn)確率,可以發(fā)現(xiàn)隨著噪聲比例的增加,分類模型的準(zhǔn)確率會(huì)受到相應(yīng)的影響,跨類噪聲的影響明顯更大。 對(duì)比實(shí)驗(yàn)的結(jié)果告訴我們,標(biāo)簽噪聲的存在會(huì)對(duì)模型產(chǎn)生一定的影響,這一影響在數(shù)據(jù)集容量相對(duì)較少時(shí)會(huì)更加明顯,這是目前急需解決的一個(gè)問(wèn)題。 3 解決方案 3.1 混淆矩陣推理 為了減少噪聲的影響,最直接的方法是人工對(duì)數(shù)據(jù)集中的錯(cuò)誤標(biāo)簽進(jìn)行一一篩選,但這樣會(huì)耗費(fèi)大量的人力和時(shí)間,并非最可取的方法。 在評(píng)價(jià)分類模型的準(zhǔn)確率時(shí),我們往往會(huì)通過(guò)分析混淆矩陣以查看不同類別的預(yù)測(cè)結(jié)果,通過(guò)混淆矩陣我們可以得到每個(gè)類別預(yù)測(cè)正確和錯(cuò)誤的個(gè)數(shù),近似的認(rèn)為預(yù)測(cè)錯(cuò)誤的類別屬于跨類標(biāo)簽噪聲。 在跨類噪聲比例20%的情況下,我們得出相應(yīng)的混淆矩陣結(jié)果如上表所示,可以看出每個(gè)類別中均有預(yù)測(cè)錯(cuò)誤的樣本出現(xiàn)。 針對(duì)這些錯(cuò)誤的預(yù)測(cè)樣本,隨機(jī)將其劃入其他類別,并進(jìn)行重新訓(xùn)練,若混淆矩陣的預(yù)測(cè)結(jié)果可以得到進(jìn)一步的提升,則保留圖像至該正確樣本。 通過(guò)3次的迭代訓(xùn)練,我們對(duì)模型的結(jié)果進(jìn)行重新評(píng)估,可以發(fā)現(xiàn)其準(zhǔn)確率得到的非常大的提升。 3.2 數(shù)據(jù)統(tǒng)計(jì)分析 除了上述根據(jù)混淆矩陣的結(jié)果進(jìn)行迭代修正的方法,目前主流的方法還包括數(shù)據(jù)統(tǒng)計(jì)分析,即通過(guò)對(duì)現(xiàn)有的圖像數(shù)據(jù)進(jìn)行相應(yīng)的預(yù)處理,借助回歸分析、分箱分析等傳統(tǒng)的機(jī)器學(xué)習(xí)算法,事先剔除不屬于某一類別的圖像,然后進(jìn)行訓(xùn)練。隨后再對(duì)剔除的圖像進(jìn)行測(cè)試,得到對(duì)應(yīng)的預(yù)測(cè)類別后重新劃分?jǐn)?shù)據(jù)集,再進(jìn)行重新訓(xùn)練。 迭代訓(xùn)練的方式可以減少人工修改標(biāo)簽的時(shí)間,但同樣會(huì)消耗一定的訓(xùn)練時(shí)間,目前還沒(méi)有一個(gè)完全高效妥善的方式可以解決這一問(wèn)題,因此還需要各位去發(fā)掘更多更有效的算法去解決這一問(wèn)題。 有三AI夏季劃 有三AI夏季劃進(jìn)行中,歡迎了解并加入,系統(tǒng)性成長(zhǎng)為中級(jí)CV算法工程師。 轉(zhuǎn)載文章請(qǐng)后臺(tái)聯(lián)系 侵權(quán)必究 |
|