【領(lǐng)域報(bào)告】圖像OCR年度進(jìn)展|VALSE2018之十一

zbpjlc 2018-05-31

展開全文

編者按：

“清風(fēng)不識字，何事亂翻書?！?/span>

早在1929年，德國科學(xué)家Tausheck提出了OCR的概念，定義為將印刷體的字符從紙質(zhì)文檔中識別出來。而技術(shù)發(fā)展至今，識字，已不再僅限于識別書本上的文字，而是要識別真實(shí)世界開放場景中的文字。因此，也衍生出了一系列問題，例如真實(shí)環(huán)境中文字角度不可控、語種復(fù)雜多樣、環(huán)境噪聲多變等，針對這些問題，學(xué)術(shù)界開展了OCR領(lǐng)域研究工作。本文中，來自華中科技大學(xué)的白翔教授，將為大家介紹過去一年中，OCR領(lǐng)域的研究進(jìn)展。

文末，大講堂提供文中提到參考文獻(xiàn)的下載鏈接。

報(bào)告從文本檢測，文本識別，端到端識別，還有數(shù)據(jù)集四個方面展開。

文本檢測方面。首先是去年自動化所發(fā)表在ICCV的研究成果。之前的回歸方法大多為計(jì)算給定的default box和待要檢測的文本框的offset，而這里采用的是基于一個像素點(diǎn)回歸的方法，也就是回歸文本框與當(dāng)前像素點(diǎn)的offset。另一個區(qū)別是融合不同層的特征，通過多任務(wù)學(xué)習(xí)進(jìn)行文本分割以及文本框的回歸。整體上，他們的工作在場景文字檢測任務(wù)上帶來了一定性能上的提升。

另外一個工作是用全卷積網(wǎng)絡(luò)將文本區(qū)域分成三種類型，第一種類型是文本內(nèi)部區(qū)域，第二種類型是背景區(qū)域，第三種類型是文字的邊界。這種手段可以較好地應(yīng)對之前的基于分割的場景文本檢測方法難以區(qū)分相鄰的文本實(shí)例的問題，從而帶來檢測性能的提升。

上面這項(xiàng)工作的思路相對比較簡單，就是在SSD基礎(chǔ)上加了一個模塊，這個模塊引入了attention的機(jī)制即預(yù)測text mask，通過文本和非文本的判別讓檢測更加關(guān)注到文本區(qū)域上。

這是百度的工作，做法也比較直接：通過一個弱監(jiān)督的框架使用單詞級別的標(biāo)注來訓(xùn)練字符檢測器，然后通過結(jié)構(gòu)分析將檢測到的字符組合成單詞。

這篇是我們今年發(fā)表在TIP上面的一篇工作。其主要改進(jìn)點(diǎn)為在去年TextBoxes基礎(chǔ)上增加了額外的兩個分支，其中一個分支被用來回歸文字水平包圍盒，另外一個分支被用來回歸四邊形（表示為4個頂點(diǎn)）。此外，我們還用識別信息來過濾檢測到的候選框，進(jìn)一步提升檢測結(jié)果。

這是我們今年被CVPR接收的一篇文章。其主要思路是：對于文本來說，無論是回歸還是分類，特征往往是共享的。然而對于場景文本檢測問題來說，特征共享對于這兩個任務(wù)其實(shí)是不利的。首先對于文本與背景的分類問題，一般要求特征具有方向不變性。但是對于回歸出文本的包圍框這個任務(wù)，又要求特征對方向信息是敏感的。因此直接對這兩個任務(wù)做特征分享可能會帶來性能損失。這里我們采用非常簡單的方法來解決這個問題，就是在應(yīng)對回歸和分類兩個不同任務(wù)時，在回歸部分跟原來一樣，在分類部分中加入oriented response pooling。這個做法可以讓分類特征具有旋轉(zhuǎn)不變性，可以更好地關(guān)注它是文本還是非文本的問題，方向不帶來額外影響。最后對兩個任務(wù)進(jìn)行多任務(wù)學(xué)習(xí)，可以提高性能，在應(yīng)對長文本和方向變化比較劇烈的情況，提升尤為顯著。

這篇同樣是我們今年被CVPR接收的一篇場景文本檢測的文章。這項(xiàng)工作主要是為了解決場景文本多方向，長寬比變化較大等場景文本檢測中的難點(diǎn)問題。之前的方法大多采用包圍盒回歸的方法或者文本區(qū)域分割的方法去解決上述問題，但是效果并不是特別好。本篇文章用了一個新的思路來解決這個問題，即檢測文本區(qū)域的角點(diǎn)，然后通過組合角點(diǎn)的方式得到文本框。因此，我們設(shè)計(jì)了corner detection，思路是直接檢測文本區(qū)域的四個頂點(diǎn)。由于我們是檢測角點(diǎn)，所以首先我們的方法不會受到感受野的影響，其次我們的方法對方向比較魯棒。此外我們還結(jié)合了position sensitive segmentation來提供文本區(qū)域的位置信息以及文本的實(shí)例信息，并使用segmentation map信息為角點(diǎn)組合成的包圍盒進(jìn)行打分，這比直接計(jì)算包圍盒得分更加魯棒。

角點(diǎn)檢測使用的是基于DSSD的方法，此外我們將角點(diǎn)檢測和文本區(qū)域的分割在同一個網(wǎng)絡(luò)框架內(nèi)實(shí)現(xiàn)。

從實(shí)驗(yàn)結(jié)果中可以看出用了角點(diǎn)以后檢測性能提升比較明顯。

第二個方面是關(guān)于文本識別的進(jìn)展，進(jìn)展稍微小一點(diǎn)，因?yàn)槟壳暗淖R別性能已經(jīng)比較好。

利用attention model去做序列文字識別，可能會因?yàn)閳D像分辨率較低、遮擋、文字間間隔較大等問題而導(dǎo)致attention位置并不是很準(zhǔn)，從而造成字符的錯誤識別。海康威視在ICCV2017上提出使用字符像素級別的監(jiān)督信息使attention更加準(zhǔn)確地聚焦在文字區(qū)域，從而使識別變得更精準(zhǔn)。他們用了部分像素級別的標(biāo)注，有了類別信息以后做多任務(wù)，結(jié)果較為精準(zhǔn)。并且只要部分字符的標(biāo)注就可以帶來網(wǎng)絡(luò)性能的一定提升。

針對有形變或者任意方向文字的識別問題，Cheng等人在CVPR2018上提出了該模型。他們在水平方向之外加了一個豎直方向的雙向LSTM，這樣的話就有從上到下，從下到上，從左到右，從右到左四個方向序列的特征建模。接下來引入一個權(quán)重，該權(quán)重用來表示來自不同方向的特征在識別任務(wù)中發(fā)揮作用的重要性。這對性能有一定提升，尤其是對任意排列的文字識別。

端到端識別從ICCV2017開始出現(xiàn)了將檢測和識別統(tǒng)一在一個網(wǎng)絡(luò)框架下的思路。目前來說這種做法訓(xùn)練起來較為困難。它的主要思路是通過RPN產(chǎn)生一些proposal，然后在后面接上序列識別網(wǎng)絡(luò)。為了使網(wǎng)絡(luò)有效，往往需要對檢測和識別模塊分別進(jìn)行預(yù)訓(xùn)練，預(yù)訓(xùn)練完后再把兩個模塊一起進(jìn)行進(jìn)一步訓(xùn)練。這種方法較為復(fù)雜。

其它方法也采用了大同小異的思路，比如去年ICCV的這篇文章，在RPN的基礎(chǔ)上，加入能產(chǎn)生任意方向文字框的proposal，可以做任意方向文字的端到端識別。

這篇CVPR的工作也是大同小異，使用了更好的檢測器EAST，識別部分和訓(xùn)練過程基本和之前端到端的識別工作類似。

最后我們介紹一些新的數(shù)據(jù)集。比如說去年icdar比賽中的中文數(shù)據(jù)集RCTW，以及多語言檢測數(shù)據(jù)集MLT，同時包含了語種識別和檢測任務(wù)。RCTW數(shù)據(jù)集主要由場景中文文字構(gòu)成，總共包含了12,034張圖片，其中訓(xùn)練集8034張，測試集4000張。比賽分為文字檢測和端到端文字識別兩部分。MLT數(shù)據(jù)集由6個文種共9種語言的文字圖片構(gòu)成，共18,00張圖片。該比賽包括了文字檢測、語種識別以及文字檢測加語種識別三個任務(wù)。

另外是今年華南理工金連文老師提出的比較有意思的數(shù)據(jù)集，用來探討異常排列、有形變的文字的檢測和識別問題。該數(shù)據(jù)集共1000張訓(xùn)練圖片和500張測試圖片，每張圖片包含了至少一個曲行文字樣本。另外，ICDAR2017上也有一個類似的數(shù)據(jù)集Total-Text，包括了水平方向、多方向以及曲形文字共1555張圖片。

總結(jié)一下，通過數(shù)據(jù)集的演變過程，關(guān)于場景文字的研究方法有這樣幾個趨勢：第一，以后檢測和識別端到端進(jìn)行可能是一個趨勢，但是未必一定把這兩個任務(wù)接在一起；第二，處理更難的文字，例如不規(guī)則文字，可能也是一個有意思的方向；第三，方法的泛化能力，英文上結(jié)果比較好的模型在中文中不一定有效，中英文差別很大，應(yīng)設(shè)計(jì)適應(yīng)多語種的方法來解決這些問題。

參考文獻(xiàn)鏈接：

https://pan.baidu.com/s/10LT47XsUpzBjHu8S9mcy7Q 密碼: k2iv

主編：袁基睿，編輯：程一

整理：曲英男、楊茹茵、高科、高黎明

作者簡介：

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： zbpjlc > 《深度學(xué)習(xí)》

舉報(bào)/認(rèn)領(lǐng)