介紹由于HARA試圖從農(nóng)民那里收集數(shù)據(jù),因此需要通過收集他們的身份證(也稱為Kartu Tanda Penduduk或KTP)的圖像來驗(yàn)證每個(gè)農(nóng)民的身份。然后有必要確保KTP圖像是可讀的,即圖像不模糊。通常,KTP圖像是用手機(jī)攝像頭拍攝的。我們將首先簡要介紹數(shù)字圖像處理的基本原理,然后分析模糊圖像以及如何將其應(yīng)用于我們的問題。 注意,投影在照相機(jī)上的圖像平面(圖像形成的光學(xué)透鏡后面的平面)上的投影基本上是光能的連續(xù)分布。這種不斷變化的光分布由計(jì)算機(jī)處理以獲得數(shù)字快照。在時(shí)域中對光分布進(jìn)行空間采樣,然后將得到的值量化為一組有限的數(shù)值(例如256 =2?),以便它們可在計(jì)算機(jī)內(nèi)表示。這些過程的結(jié)果是以二維有序整數(shù)矩陣的形式描述圖像(圖1)。 形式上,數(shù)字圖像I是整數(shù)坐標(biāo)的二維函數(shù),其映射到一系列可能的圖像(像素)值。直接根據(jù)圖像矩陣I的寬度M(列數(shù))和高度N(行數(shù))確定圖像的大小。 圖1將連續(xù)強(qiáng)度函數(shù)F(x,y)變換為離散數(shù)字圖像I(u,v) 彩色圖像基于三種原色:紅色,綠色和藍(lán)色(RGB)。通常每個(gè)主要顏色分量使用8位表示。在彩色圖像中,每個(gè)像素需要24位(每種顏色8位)來編碼所有三個(gè)分量,并且每個(gè)單獨(dú)顏色分量的范圍是[0 ... 255]。 如果(數(shù)字)圖像具有良好的質(zhì)量:
本文將特別關(guān)注模糊圖像。圖像模糊是由不正確的圖像捕獲條件引起的。例如,相機(jī)失焦,或相機(jī)和成像對象的相對運(yùn)動(dòng)。本文的其余部分將重點(diǎn)介紹如何構(gòu)建模糊圖像的關(guān)鍵特征,并根據(jù)此特征對給定圖像是否模糊進(jìn)行機(jī)器學(xué)習(xí)分類。 邊緣檢測模糊檢測線性濾波器對數(shù)字圖像的卷積 為了檢測模糊圖像,精確理解轉(zhuǎn)換數(shù)字圖像的過程是很重要的。注意,通過簡單的數(shù)學(xué)運(yùn)算可以將高質(zhì)量圖像(非模糊)轉(zhuǎn)換為模糊圖像。如果局部強(qiáng)度急劇上升或下降,即相鄰像素之間的差異很大,則圖像看起來很清晰。在局部強(qiáng)度函數(shù)平滑的地方,我們認(rèn)為圖像是模糊的。 因此,平滑圖像的一個(gè)簡單方法是用相鄰像素的平均值替換每個(gè)像素。這意味著為了確定平滑圖像中的新像素值,使用原始像素加上它的8個(gè)相鄰像素來計(jì)算這9個(gè)值的算術(shù)平均值。假設(shè)I?(u,v)和I(u,v)分別代表原始圖像和平滑圖像。然后,平滑過程可以在數(shù)學(xué)上表達(dá)如下 這相當(dāng)于 特別地,這種數(shù)學(xué)運(yùn)算被稱為線性濾波器,其中通過線性表達(dá)式從一組源像素計(jì)算得到的像素。濾波器的大小是一個(gè)重要參數(shù),因?yàn)樗付嗣總€(gè)結(jié)果像素值有多少原始像素。上述平滑濾波器使用3 x 3 region of support,該區(qū)域以當(dāng)前坐標(biāo)(u,v)為中心。具有較大support的類似過濾器將具有更強(qiáng)的平滑效果。 還可以為region of support中的像素分配不同的權(quán)重,以便更加強(qiáng)調(diào)更接近該區(qū)域中心的像素。對于任何線性濾波器,region of support的大小和形狀由濾波器矩陣或?yàn)V波器掩模H(i,j)指定,其中矩陣H的大小等于濾波器區(qū)域的大小和每個(gè)元素H(i,j))指定求和中相應(yīng)像素的權(quán)重。在數(shù)學(xué)上,線性濾波器H(i,j)在圖像I?上的應(yīng)用被稱為卷積(圖2)。 圖2 線性濾波器H和圖像I?(u,v)之間的卷積產(chǎn)生像素值I(u,v) 模糊圖像的特征 邊緣可粗略地描述為圖像位置,其中局部強(qiáng)度沿特定方向明顯變化。在數(shù)學(xué)上,我們可以將關(guān)于空間距離的這種變化檢測為函數(shù)的一階導(dǎo)數(shù)。為了應(yīng)用導(dǎo)數(shù)來檢測邊緣,導(dǎo)數(shù)必須是離散的。離散導(dǎo)數(shù)方程的每個(gè)項(xiàng)的權(quán)重(系數(shù))將形成濾波器矩陣H的元素。邊緣檢測的另一種方法是使用二階導(dǎo)數(shù)而不是一階導(dǎo)數(shù)。這類中眾所周知的濾波器是拉普拉斯濾波器。 注意,當(dāng)使用二階導(dǎo)數(shù)方法時(shí),當(dāng)曲線(通過二階導(dǎo)數(shù)測量)過零時(shí)檢測到邊緣(圖3)。 圖3.細(xì)線表示一階導(dǎo)數(shù),粗線表示二階導(dǎo)數(shù) 不難看出,當(dāng)圖像不模糊時(shí),邊緣必須是銳利的,這意味著曲線必須在零軸周圍陡峭。換句話說,曲線在零軸附近具有高變化。這激發(fā)了圖像的拉普拉斯方差(VoL)的概念。聲稱非模糊圖像具有高VoL值,而模糊圖像具有低VoL值。該操作員應(yīng)測量模糊圖像的特征。 檢測模糊的身份證圖像已經(jīng)描述的上述方法應(yīng)用于模糊ID卡圖像的檢測。在印度尼西亞,政府頒發(fā)的官方身份證稱為KTP(Kartu Tanda Penduduk)。我們的KTP圖像數(shù)據(jù)集包括514個(gè)圖像(454個(gè)非模糊和60個(gè)模糊)。我們將它們分成70%的機(jī)器學(xué)習(xí)訓(xùn)練數(shù)據(jù)和30%的機(jī)器學(xué)習(xí)測試數(shù)據(jù)。這導(dǎo)致用于訓(xùn)練數(shù)據(jù)的360個(gè)圖像(318個(gè)非模糊和42個(gè)模糊)和用于測試數(shù)據(jù)的154個(gè)圖像(136個(gè)非bur和18個(gè)模糊)。請注意,我們?yōu)橛?xùn)練和測試數(shù)據(jù)集的非模糊和模糊KTP圖像保持7:3的比例。 在這種情況下,數(shù)據(jù)分析的目標(biāo)是提出一個(gè)簡單的分類規(guī)則。設(shè)T是特定的VoL值,則規(guī)則可以表示如下:如果給定圖像的VoL大于T,則它是非模糊圖像。否則它是一個(gè)模糊的圖像。 一組圖像的VoL值(無論是否模糊)在某個(gè)區(qū)間內(nèi)傳播也就不足為奇了。繪制來自訓(xùn)練集的非模糊和模糊KTP圖像的直方圖以更好地分析數(shù)據(jù)(圖4)。 圖4 VoL的直方圖 直方圖顯示,與非模糊圖像相比,模糊KTP圖像的VoL確實(shí)具有低得多的值。非模糊KTP圖像的最大VoL值是11,385,而模糊KTP圖像的最大VoL值僅為295左右。然而,來自兩種類型圖像的VoL似乎在某些低值處交叉。注意,根據(jù)模糊KTP圖像的直方圖,數(shù)據(jù)點(diǎn)大致集中在區(qū)間[0,50]中。讓我們仔細(xì)觀察這些間隔的模糊和非模糊KTP圖像的直方圖(圖5)。 圖5 區(qū)間[0,50]中VoL的直方圖 注意,盡管非模糊和模糊KTP圖像的VoL值在該間隔中具有一些交叉,但是差異仍然是顯而易見的,因?yàn)榉悄:齂TP圖像的VoL增加而模糊KTP圖像稍微減小。在此間隔中,非模糊圖像的模式高于40,而模糊圖像的模式低于10.在10到40之間尋找閾值。經(jīng)過一些不同閾值的繁瑣實(shí)驗(yàn),閾值T = 35給出最好的結(jié)果。然后使用閾值對來自測試數(shù)據(jù)的KTP圖像進(jìn)行分類,并且通過混淆矩陣示出性能(圖6)。 圖6 混淆矩陣由測試數(shù)據(jù)集產(chǎn)生 注意,假陰性誤差(未模糊分類為模糊)和假陽性誤差(模糊分類為非模糊)均為非零。這是由于來自兩種類型的圖像的VoL值的集合不是嚴(yán)格可分的事實(shí)引起的。這種現(xiàn)象可能是由于手動(dòng)數(shù)據(jù)標(biāo)記過程中的數(shù)據(jù)噪聲所致。 結(jié)論本文探討了一種表征模糊圖像的方法。為了檢測模糊,基于拉普拉斯算子的邊緣檢測算子應(yīng)用于給定圖像,然后是方差算子,這導(dǎo)致所謂的拉普拉斯方差。據(jù)稱,與非模糊圖像相比,模糊圖像的VoL值較低。該方法用于檢測模糊的KTP圖像。KTP圖像的VoL值的直方圖傾向于支持該聲明,盡管由于一些小的VoL值實(shí)際上在某個(gè)間隔處交叉存在一些問題。訓(xùn)練數(shù)據(jù)用于搜索閾值T,該閾值T尋求最小化由混淆矩陣從測試數(shù)據(jù)報(bào)告的假陰性和假陽性誤差。 已經(jīng)描述的方法仍然遠(yuǎn)非嚴(yán)格和有效。未來的發(fā)展可能會(huì)考慮使用優(yōu)化和統(tǒng)計(jì)學(xué)習(xí)??梢灾贫ǔ杀竞瘮?shù),其量化誤差分類,其中參數(shù)是閾值?;谔荻鹊乃惴▽⒄业阶罴验撝?,使得成本函數(shù)達(dá)到其最小值(或接近最小值)。這樣的策略將消除繁瑣的實(shí)驗(yàn),設(shè)計(jì)師可以將更多時(shí)間集中在機(jī)器學(xué)習(xí)模型構(gòu)建上。模糊圖像也需要更多數(shù)據(jù)。理想情況下,應(yīng)該有大致相同數(shù)量的模糊圖像以及非模糊圖像。這將有助于評估分類器是否優(yōu)于弱學(xué)習(xí)器(分類器不比隨機(jī)猜測好得多)。 |
|