轉(zhuǎn)格式的文檔 比如,文庫里已經(jīng)含有一篇word版文檔,如果轉(zhuǎn)換為PDF,這樣是不予通過的。 重復(fù)率高的文檔 比如你有一些文檔,比較相似,從文字或者排版,會有幾率導(dǎo)致不通過。當這些文檔不通過,可以修改一些格式,或者添加文字上傳,這樣是可以通過的。 還有一些文檔,對文庫原本就有的文檔,通過一些修改文字或者其他方法再上傳到百度文庫,這種行為會導(dǎo)致封號危險。 比較短小的文檔 這類文檔容易犯重復(fù),如果被包含在原本文庫已有的文檔中,也會導(dǎo)致不通過。 圖片PDF這類文檔 由圖片轉(zhuǎn)換過來的PDF或者WORD文檔,內(nèi)容是圖片,這類文檔也不會上傳成功。 一個文檔只含有多張圖片 如果這篇文檔,圖片較多,沒有文字,也不會上傳成功。 一些模板表格類的文檔 因為這些文檔,是格子,但是不會含有文字,完全沒有文字內(nèi)容的通常不會上傳成功。 一些隨意堆砌的文字 沒有段落格式,無意義的文字。一般也不會上傳成功。 文檔內(nèi)容過于短小 一篇文檔,只有一頁,文字內(nèi)容很少。一般也不會上傳成功。 在上傳的時候沒有被判重復(fù)文檔 還是審核不通過,也有可能是重復(fù)文檔,只更改了文字的形式或者排版,基本內(nèi)容大致一致,這類文檔也不會通過。 總結(jié):判斷重復(fù)的規(guī)則可能是提取文檔內(nèi)容進行全文匹配,當一篇文檔只是圖片或者只含有少量文字,沒法獲取匹配內(nèi)容,比如圖片PDF類,所以不予以通過。當文檔內(nèi)容比較泛,雖然格式內(nèi)容完全不同,這樣也不會上傳成功,比如乘法口訣。當提取的文字內(nèi)容,和文庫原有文檔內(nèi)容大體一致,就會判重復(fù)不予以通過。 |
|