來(lái)源:Python 技術(shù)「ID: pythonall」 類似得到電子書(shū)或者樊登讀書(shū)會(huì)等平臺(tái),現(xiàn)在都可以直接聽(tīng)書(shū)了,而且聲音方面聽(tīng)起來(lái)非常舒服,但無(wú)一例外,這些平臺(tái)都需要購(gòu)買會(huì)員,作為技術(shù)人的我簡(jiǎn)直不能忍,于是嘗試自己動(dòng)手豐衣足食。 既然要將電子書(shū)轉(zhuǎn)換為語(yǔ)音文件,那么第一步要解決的問(wèn)題就是將電子書(shū)中的文字解析出來(lái),這個(gè)可以用 pdfplumber 庫(kù)來(lái)解決。 安裝pip3 install pdfplumber 讀取 PDF 內(nèi)容Python 之所以強(qiáng)大就是因?yàn)橛泻芏喔鞣N各樣的庫(kù)給你用,讀取 PDF 內(nèi)容只需三行代碼即可搞定,剛好手里有本「欺騙的藝術(shù)」一起來(lái)看看。 重點(diǎn)看第四頁(yè)的內(nèi)容即可,接下來(lái)就直接用 pdfplumber 來(lái)讀取第四頁(yè)內(nèi)容。
看下輸出日志: 從日志中可以看出轉(zhuǎn)換還是相當(dāng)精準(zhǔn)的。 文字轉(zhuǎn)音頻文字轉(zhuǎn)音頻是使用的 pyttsx3 庫(kù),直接安裝使用即可。 pip3 install pyttsx3 正式轉(zhuǎn)換之前呢先做一個(gè)簡(jiǎn)單的測(cè)試,看看是否可以正確將文字朗讀出來(lái)。
該函數(shù)會(huì)直接將文本內(nèi)容讀出來(lái),當(dāng)然你也可以選擇下載保存音頻文件到本地。 import pyttsx3 效果如下: 音頻整體聽(tīng)起來(lái)還是非常流暢的,只是少了些許感情,剩下的流程派森醬就不再贅述啦,無(wú)非就是獲取到 PDF 所有的內(nèi)容,然后調(diào)用 read_by_mp3 函數(shù)就可以啦。 總結(jié)今天派森醬帶領(lǐng)大家試著通過(guò)語(yǔ)音朗讀的方式來(lái)讀取 PDF 內(nèi)容,整體流程已經(jīng)跑通,而且效果比較順暢,商業(yè)化估計(jì)有點(diǎn)不夠要求,但還是可以考慮做一些小工具的,畢竟免費(fèi)嘛。 |
|