具體過(guò)程:
1、首先想到的是將文字用print鍵截屏,然后用ocr軟件識(shí)別,花了很多周折,發(fā)現(xiàn)一款叫miniocr的軟件識(shí)別率很高,幾乎可以說(shuō)這款軟件就是為識(shí)別截屏的圖片上的文字而設(shè)計(jì)的。呵呵,那些將自己的文字做成圖片的“版權(quán)愛(ài)好者”們,看來(lái)要換新的手段了,同樣,加密的pdf文件也可以這樣去識(shí)別。
2、記得有個(gè)軟件可以直接復(fù)制圖片上的文字,將ocr整合在圖像捕捉功能中。于是又四處尋找,在GOOGLE上換了好多關(guān)鍵字,最后使用“文字捕捉”找到很多資料,但是直接整合orc功能的沒(méi)有找到,好像什么清華紫光的一款orc軟件和一款叫“金童圖霸”的軟件有這樣的功能,但它們是商業(yè)軟件,要注冊(cè)碼甚至加密狗,網(wǎng)絡(luò)上也找不到破解版。但我意外發(fā)現(xiàn)很多圖像捕捉軟件已經(jīng)自帶了文字捕捉功能,如:HyperSnap、Aqua Deskperience、SnagIt等等。需要說(shuō)明的是這個(gè)文字捕捉并不是采用orc,而是直接用鼠標(biāo)鉤子函數(shù)攔截API而獲取系統(tǒng)文字的。經(jīng)過(guò)比較,Aqua Deskperience的表現(xiàn)是最好的。
3、很多資料中說(shuō)office2003已經(jīng)提供了類似的ocr功能,但遺憾的是不管我怎么操作,Microsoft Office Document Imaging總是提示執(zhí)行ocr不成功(未找到文本),而網(wǎng)絡(luò)上找不到任何解決的辦法,想想自己并不是office的正版用戶,這個(gè)功能用處也不大,于是就沒(méi)有深究下去。但因此發(fā)現(xiàn)office2003自帶的打印機(jī):Microsoft Office Document Image Writer還是很有用的,很簡(jiǎn)單就把文檔轉(zhuǎn)換成tif文件。
結(jié)語(yǔ):
第二種解決方法讓顯忠很滿意,他在我那里僅僅呆了5分鐘就表示問(wèn)題解決了,但我實(shí)際上花的時(shí)間卻超過(guò)了一個(gè)上午?;貞涀约旱氖斋@并不是解決顯忠的一個(gè)幾何畫(huà)板的問(wèn)題,而幾乎是總結(jié)了文本捕捉問(wèn)題的常見(jiàn)解決辦法。
|
|
來(lái)自: hoper023 > 《我的圖書(shū)館》