編者按: “清風(fēng)不識字,何事亂翻書?!?/span> 早在1929年,德國科學(xué)家Tausheck提出了OCR的概念,定義為將印刷體的字符從紙質(zhì)文檔中識別出來。而技術(shù)發(fā)展至今,識字,已不再僅限于識別書本上的文字,而是要識別真實(shí)世界開放場景中的文字。因此,也衍生出了一系列問題,例如真實(shí)環(huán)境中文字角度不可控、語種復(fù)雜多樣、環(huán)境噪聲多變等,針對這些問題,學(xué)術(shù)界開展了OCR領(lǐng)域研究工作。本文中,來自華中科技大學(xué)的白翔教授,將為大家介紹過去一年中,OCR領(lǐng)域的研究進(jìn)展。 文末,大講堂提供文中提到參考文獻(xiàn)的下載鏈接。 報(bào)告從文本檢測,文本識別,端到端識別,還有數(shù)據(jù)集四個方面展開。 文本檢測方面。首先是去年自動化所發(fā)表在ICCV的研究成果。之前的回歸方法大多為計(jì)算給定的default box和待要檢測的文本框的offset,而這里采用的是基于一個像素點(diǎn)回歸的方法,也就是回歸文本框與當(dāng)前像素點(diǎn)的offset。另一個區(qū)別是融合不同層的特征,通過多任務(wù)學(xué)習(xí)進(jìn)行文本分割以及文本框的回歸。整體上,他們的工作在場景文字檢測任務(wù)上帶來了一定性能上的提升。 另外一個工作是用全卷積網(wǎng)絡(luò)將文本區(qū)域分成三種類型,第一種類型是文本內(nèi)部區(qū)域,第二種類型是背景區(qū)域,第三種類型是文字的邊界。這種手段可以較好地應(yīng)對之前的基于分割的場景文本檢測方法難以區(qū)分相鄰的文本實(shí)例的問題,從而帶來檢測性能的提升。 上面這項(xiàng)工作的思路相對比較簡單,就是在SSD基礎(chǔ)上加了一個模塊,這個模塊引入了attention的機(jī)制即預(yù)測text mask,通過文本和非文本的判別讓檢測更加關(guān)注到文本區(qū)域上。 這是百度的工作,做法也比較直接:通過一個弱監(jiān)督的框架使用單詞級別的標(biāo)注來訓(xùn)練字符檢測器,然后通過結(jié)構(gòu)分析將檢測到的字符組合成單詞。 這篇是我們今年發(fā)表在TIP上面的一篇工作。其主要改進(jìn)點(diǎn)為在去年TextBoxes基礎(chǔ)上增加了額外的兩個分支,其中一個分支被用來回歸文字水平包圍盒,另外一個分支被用來回歸四邊形(表示為4個頂點(diǎn))。此外,我們還用識別信息來過濾檢測到的候選框,進(jìn)一步提升檢測結(jié)果。 這是我們今年被CVPR接收的一篇文章。其主要思路是:對于文本來說,無論是回歸還是分類,特征往往是共享的。然而對于場景文本檢測問題來說,特征共享對于這兩個任務(wù)其實(shí)是不利的。首先對于文本與背景的分類問題,一般要求特征具有方向不變性。但是對于回歸出文本的包圍框這個任務(wù),又要求特征對方向信息是敏感的。因此直接對這兩個任務(wù)做特征分享可能會帶來性能損失。這里我們采用非常簡單的方法來解決這個問題,就是在應(yīng)對回歸和分類兩個不同任務(wù)時,在回歸部分跟原來一樣,在分類部分中加入oriented response pooling。這個做法可以讓分類特征具有旋轉(zhuǎn)不變性,可以更好地關(guān)注它是文本還是非文本的問題,方向不帶來額外影響。最后對兩個任務(wù)進(jìn)行多任務(wù)學(xué)習(xí),可以提高性能,在應(yīng)對長文本和方向變化比較劇烈的情況,提升尤為顯著。 這篇同樣是我們今年被CVPR接收的一篇場景文本檢測的文章。這項(xiàng)工作主要是為了解決場景文本多方向,長寬比變化較大等場景文本檢測中的難點(diǎn)問題。之前的方法大多采用包圍盒回歸的方法或者文本區(qū)域分割的方法去解決上述問題,但是效果并不是特別好。本篇文章用了一個新的思路來解決這個問題,即檢測文本區(qū)域的角點(diǎn),然后通過組合角點(diǎn)的方式得到文本框。因此,我們設(shè)計(jì)了corner detection,思路是直接檢測文本區(qū)域的四個頂點(diǎn)。由于我們是檢測角點(diǎn),所以首先我們的方法不會受到感受野的影響,其次我們的方法對方向比較魯棒。此外我們還結(jié)合了position sensitive segmentation來提供文本區(qū)域的位置信息以及文本的實(shí)例信息,并使用segmentation map信息為角點(diǎn)組合成的包圍盒進(jìn)行打分,這比直接計(jì)算包圍盒得分更加魯棒。 角點(diǎn)檢測使用的是基于DSSD的方法,此外我們將角點(diǎn)檢測和文本區(qū)域的分割在同一個網(wǎng)絡(luò)框架內(nèi)實(shí)現(xiàn)。 從實(shí)驗(yàn)結(jié)果中可以看出用了角點(diǎn)以后檢測性能提升比較明顯。 第二個方面是關(guān)于文本識別的進(jìn)展,進(jìn)展稍微小一點(diǎn),因?yàn)槟壳暗淖R別性能已經(jīng)比較好。 利用attention model去做序列文字識別,可能會因?yàn)閳D像分辨率較低、遮擋、文字間間隔較大等問題而導(dǎo)致attention位置并不是很準(zhǔn),從而造成字符的錯誤識別。海康威視在ICCV2017上提出使用字符像素級別的監(jiān)督信息使attention更加準(zhǔn)確地聚焦在文字區(qū)域,從而使識別變得更精準(zhǔn)。他們用了部分像素級別的標(biāo)注,有了類別信息以后做多任務(wù),結(jié)果較為精準(zhǔn)。并且只要部分字符的標(biāo)注就可以帶來網(wǎng)絡(luò)性能的一定提升。 針對有形變或者任意方向文字的識別問題,Cheng等人在CVPR2018上提出了該模型。他們在水平方向之外加了一個豎直方向的雙向LSTM,這樣的話就有從上到下,從下到上,從左到右,從右到左四個方向序列的特征建模。接下來引入一個權(quán)重,該權(quán)重用來表示來自不同方向的特征在識別任務(wù)中發(fā)揮作用的重要性。這對性能有一定提升,尤其是對任意排列的文字識別。 端到端識別從ICCV2017開始出現(xiàn)了將檢測和識別統(tǒng)一在一個網(wǎng)絡(luò)框架下的思路。目前來說這種做法訓(xùn)練起來較為困難。它的主要思路是通過RPN產(chǎn)生一些proposal,然后在后面接上序列識別網(wǎng)絡(luò)。為了使網(wǎng)絡(luò)有效,往往需要對檢測和識別模塊分別進(jìn)行預(yù)訓(xùn)練,預(yù)訓(xùn)練完后再把兩個模塊一起進(jìn)行進(jìn)一步訓(xùn)練。這種方法較為復(fù)雜。 其它方法也采用了大同小異的思路,比如去年ICCV的這篇文章,在RPN的基礎(chǔ)上,加入能產(chǎn)生任意方向文字框的proposal,可以做任意方向文字的端到端識別。 這篇CVPR的工作也是大同小異,使用了更好的檢測器EAST,識別部分和訓(xùn)練過程基本和之前端到端的識別工作類似。 最后我們介紹一些新的數(shù)據(jù)集。比如說去年icdar比賽中的中文數(shù)據(jù)集RCTW,以及多語言檢測數(shù)據(jù)集MLT,同時包含了語種識別和檢測任務(wù)。RCTW數(shù)據(jù)集主要由場景中文文字構(gòu)成,總共包含了12,034張圖片,其中訓(xùn)練集8034張,測試集4000張。比賽分為文字檢測和端到端文字識別兩部分。MLT數(shù)據(jù)集由6個文種共9種語言的文字圖片構(gòu)成,共18,00張圖片。該比賽包括了文字檢測、語種識別以及文字檢測加語種識別三個任務(wù)。 另外是今年華南理工金連文老師提出的比較有意思的數(shù)據(jù)集,用來探討異常排列、有形變的文字的檢測和識別問題。該數(shù)據(jù)集共1000張訓(xùn)練圖片和500張測試圖片,每張圖片包含了至少一個曲行文字樣本。另外,ICDAR2017上也有一個類似的數(shù)據(jù)集Total-Text,包括了水平方向、多方向以及曲形文字共1555張圖片。 總結(jié)一下,通過數(shù)據(jù)集的演變過程,關(guān)于場景文字的研究方法有這樣幾個趨勢:第一,以后檢測和識別端到端進(jìn)行可能是一個趨勢,但是未必一定把這兩個任務(wù)接在一起;第二,處理更難的文字,例如不規(guī)則文字,可能也是一個有意思的方向;第三,方法的泛化能力,英文上結(jié)果比較好的模型在中文中不一定有效,中英文差別很大,應(yīng)設(shè)計(jì)適應(yīng)多語種的方法來解決這些問題。 參考文獻(xiàn)鏈接: https://pan.baidu.com/s/10LT47XsUpzBjHu8S9mcy7Q 密碼: k2iv 主編:袁基睿,編輯:程一 整理:曲英男、楊茹茵、高科、高黎明 作者簡介: |
|