一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

應(yīng)用OpenCV進(jìn)行OCR字符識別

 wtkc 2014-10-25

opencv自帶一個字符識別的例子,它的重點不是OCR字符識別,而主要是演示機器學(xué)習(xí)的應(yīng)用。它應(yīng)用的是UCI提供的字符數(shù)據(jù)(特征數(shù)據(jù))。

DAMILES在網(wǎng)上發(fā)布了一個應(yīng)用OpenCV進(jìn)行OCR的例子, http://blog./2008/11/basic-ocr-in-opencv/

這些例子都只能用于學(xué)習(xí)OpenCV或熟悉OCR的簡單流程,因為它們與當(dāng)前比較專業(yè)的OCR引擎的識別率相去甚遠(yuǎn)。


這里寫下OpenCV下OCR的流程:

1. 特征提取

2. 訓(xùn)練

3. 識別


特征提取

1. 在圖像預(yù)處理后,提取出字符相關(guān)的ROI圖像,并且大小歸一化,整個圖像的像素值序列可以直接作為特征。damiles是直接將整個字符圖像轉(zhuǎn)換化為vector向量特征作為特征輸入的。


2. 但直接將整個圖像作為特征數(shù)據(jù)維度太高,計算量太大,所以也可以進(jìn)行一些降維處理,減少輸入的數(shù)據(jù)量。拿到字符的ROI圖像,二值化。將圖像分塊,然后統(tǒng)計每個小塊中非0像素的個數(shù),這樣就形成了一個較小的矩陣,這矩陣就是新的特征了。

UCI就是這么處理,詳見其說明http://archive.ics./ml/datasets/Optical+Recognition+of+Handwritten+Digits

OpenCV中l(wèi)etter_recog例子就是使用的其特征數(shù)據(jù)。


訓(xùn)練與識別

訓(xùn)練與識別一般都采用同一種機器學(xué)習(xí)方法:

DAMILES應(yīng)用了KNearest方法,對輸入數(shù)據(jù)進(jìn)行訓(xùn)練和識別。

1. 數(shù)據(jù)輸入:

getData()函數(shù)中:

為trainData和trainClasses設(shè)置數(shù)據(jù)。


2. 初始化機器學(xué)習(xí)算法,及其訓(xùn)練

knn=new CvKNearest( trainData, trainClasses, 0, false, K );

trainData, trainClasses數(shù)據(jù)已得到。

而K是分類的數(shù)目。


訓(xùn)練在CvKNearest算法初始化中已經(jīng)完成


3. 識別

獲取識別測試的數(shù)據(jù),testData

result=knn->find_nearest(testData,K,0,0,nearest,0);

result為識別的結(jié)果。



而OpenCV自帶例子中,提供了boost,mlp,knearest,nbayes,svm,rtrees這些機器學(xué)習(xí)方法,進(jìn)行訓(xùn)練和識別。

處理的步驟和方式都類似。


這些例子的識別率不是很高,OCR識別率在90%以上才有較好的使用意義,所以,OCR還需要更多特征和分析方法,來提高識別率,tesseract是一個不錯的開源OCR引擎。


-------------------

在tesseract最初的字體庫里,一種字體的字符樣本庫包括:94個字符,8種大小,4種字體(正常,粗體,斜體,斜粗體),每種20個樣本,共60160個樣本。

與UIC提供的字體庫不同的是,tesseract提供的是標(biāo)準(zhǔn)印刷體字體庫的識別,而UIC提供是手寫體handwriting的特征數(shù)據(jù)。


數(shù)據(jù)之美提到,G公司(應(yīng)該就是google了)的研究結(jié)果表明,在自然語言與機器翻譯領(lǐng)域,簡單模型加上大量有效樣本數(shù)據(jù),比復(fù)雜模型加上小樣本數(shù)據(jù),有效的多。 這個結(jié)論應(yīng)該適用機器學(xué)習(xí)的很多領(lǐng)域。運算足夠快,樣本足夠大,即使簡單的模型,效果可能會出人意料。

由此可見,收集有效的、大量的樣本庫是多么的重要。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    亚洲欧美日韩熟女第一页| 午夜亚洲精品理论片在线观看| 国产爆操白丝美女在线观看| 精品日韩国产高清毛片| 99国产一区在线播放| 四十女人口红哪个色好看| 免费大片黄在线观看日本| 四季av一区二区播放| 中文字幕日韩一区二区不卡 | 久久黄片免费播放大全| 老司机精品在线你懂的| 日韩人妻毛片中文字幕| 中日韩免费一区二区三区| 欧美一区日韩一区日韩一区| 99久久精品国产日本| 69老司机精品视频在线观看| 美日韩一区二区精品系列| 日本精品啪啪一区二区三区| 国产日韩熟女中文字幕| 黄片在线免费看日韩欧美| 在线欧美精品二区三区| 亚洲视频一级二级三级| 国产精品不卡免费视频| 久久国内午夜福利直播| 老熟妇2久久国内精品| 色婷婷人妻av毛片一区二区三区 | 日韩成人动作片在线观看| 91精品国产品国语在线不卡| 99视频精品免费视频播放| 91福利视频日本免费看看| 日韩人妻毛片中文字幕| 亚洲清纯一区二区三区| 极品熟女一区二区三区| 欧美一区二区三区播放| 午夜午夜精品一区二区| 国产精品久久男人的天堂| 中文字幕人妻一区二区免费| 欧美激情一区=区三区| 国产亚洲欧美另类久久久| 亚洲国产精品久久琪琪| 国产级别精品一区二区视频|