從0開始搭建產(chǎn)品經(jīng)理AI知識(shí)框架：語音識(shí)別與合成

京城客家人老黃 2017-09-30

展開全文

AI PM認(rèn)知系列第三篇，字?jǐn)?shù)：2300+，速讀需4分鐘。

從0開始搭建產(chǎn)品經(jīng)理AI知識(shí)框架：語音識(shí)別與合成

從早期蘋果的Siri，到最近國內(nèi)的智能音箱大戰(zhàn)，越來越多AI語音產(chǎn)品走入了大家的生活。

近幾天我也在思考，相比已有更落地方案的計(jì)算機(jī)視覺技術(shù)，AI的語音技術(shù)在產(chǎn)品應(yīng)用中的本質(zhì)是什么？這個(gè)思考我也跟一些語音領(lǐng)域的專家探討過，而其中我個(gè)人的理解是：

AI語音技術(shù)的本質(zhì)，通過效率的提升，場景的便捷，重新定義了用戶體驗(yàn)。

為什么我這么理解？那我們先來看看語音有哪些天然屬性：

提升效率
：一分鐘400字的速度靠打字是無法超越的，所以特定行業(yè)，語音的技術(shù)可以大大的提升人機(jī)的效率。
操作便捷：
解放了你的雙手，除了一些基本的操作，無需要每個(gè)字都操作鍵盤或點(diǎn)擊屏幕了。
學(xué)習(xí)成本：
對(duì)于不認(rèn)字的老人和小孩，可以用語音來進(jìn)行檢索和進(jìn)行操作，對(duì)于不會(huì)拼音的人，也可以使用語音識(shí)別。

所以，以下AI語音相關(guān)的分享，會(huì)圍繞兩個(gè)方面：

語音技術(shù)：語音識(shí)別和語音合成
語音技術(shù)應(yīng)用和未來思考

語音技術(shù)：語音識(shí)別和語音合成1.1 語音識(shí)別：ASK

語音識(shí)別（Automatic Speech Recognition）是以語音為研究對(duì)象，通過語音信號(hào)處理和模式識(shí)別讓計(jì)算機(jī)自動(dòng)識(shí)別人類口述語言。

簡單來說，就是讓機(jī)器可以聽得懂人話。

其中比較核心的部分是語音聽寫：就是將語音信息轉(zhuǎn)化為文字信息。

中文語音聽寫的技術(shù)原理，如下：

從0開始搭建產(chǎn)品經(jīng)理AI知識(shí)框架：語音識(shí)別與合成

說出一段話，比如：「產(chǎn)品經(jīng)理」，機(jī)器收到只是一段聲波信號(hào)。
進(jìn)行信號(hào)的預(yù)處理，如：降噪，消除回音…等。
特征提取，如：說了幾個(gè)字，音調(diào)是什么…等。
通過聲學(xué)模型匹配，輸出“音”：chan2,pin3,jing1,li3。（拼音舉例）
通過語言模型處理，最終得到文字：產(chǎn)品經(jīng)理。

而這里的特征提取，聲學(xué)模型和語言模型在技術(shù)實(shí)現(xiàn)上，有兩種方法：

傳統(tǒng)：隱馬爾可夫模型（HMM）
端到端：深度神經(jīng)網(wǎng)絡(luò)（DNN）

目前語音識(shí)別技術(shù)主要是通過DNN實(shí)現(xiàn)的，特定場景下最高可以達(dá)到97%的識(shí)別率。

1.2語音合成：TTS

語音合成（Text-To-Speech）是計(jì)算機(jī)將自己產(chǎn)生的、或外部輸入的文字信息轉(zhuǎn)變?yōu)榭梢月牭枚?、流利的漢語口語輸出的技術(shù)。

簡單來說，就是機(jī)器講文字朗讀出來。

中文的語音合成技術(shù)原理，如下：

從0開始搭建產(chǎn)品經(jīng)理AI知識(shí)框架：語音識(shí)別與合成

先通過規(guī)則把一段文字分詞，如：我|愛|產(chǎn)品|經(jīng)理。
把這段文字進(jìn)行韻律的處理，標(biāo)出是發(fā)什么音。
根據(jù)語音庫的發(fā)音，進(jìn)行單元的拼接。
最后就可以播放出這段語音了。

目前主要實(shí)現(xiàn)是兩種方法：

拼接法：把錄音的句子切碎成基本單元存儲(chǔ)起來，再根據(jù)需要拼接起來。
參數(shù)法：通過錄音提取波形的參數(shù)存儲(chǔ)起來，早根據(jù)參數(shù)轉(zhuǎn)化為波形。

拼接法的優(yōu)點(diǎn)就是更自然，但是缺點(diǎn)是需要大量的錄音，和存儲(chǔ)。

參數(shù)法的優(yōu)點(diǎn)就是存儲(chǔ)小，但是缺點(diǎn)就是不夠自然，聽起來就是怪怪的機(jī)器發(fā)音。

另外谷歌發(fā)布的WaveNet是基于語音網(wǎng)絡(luò)使用生成算法制作而成的，相對(duì)于以前的拼接法、參數(shù)法，在聲音表現(xiàn)力上更具優(yōu)勢。

此外，語音合成的技術(shù)主要體現(xiàn)在四個(gè)方面：

表現(xiàn)力：不同年齡，性別特征以及語調(diào)，語速的表現(xiàn)，個(gè)性化。
音質(zhì)：聲音的清晰度，無雜音
復(fù)雜度：減少音庫的體積，降低運(yùn)算量及系統(tǒng)開銷。
自然度：音律規(guī)則，間隔停頓。

目前的語音合成技術(shù)相對(duì)比較成熟，進(jìn)一步優(yōu)化的同時(shí)，大家的重點(diǎn)都放在了表現(xiàn)力上，以符合更多的場景應(yīng)用，滿足不同人對(duì)個(gè)性化的需求。

舉個(gè)例子：
前一段時(shí)間，我打車時(shí)候看到司機(jī)師傅使用高德的語音導(dǎo)航，語音合成用的是一個(gè)小朋友的聲音，我們就聊了起來，司機(jī)師傅說他才剛開始拉活，路不熟，他不喜歡郭德綱的聲音，話忒多，他用小朋友的聲音，一個(gè)是語速慢，另外一個(gè)是吐字清晰，不會(huì)因?yàn)槁牪磺宄咤e(cuò)路。

這個(gè)就是在不同場景下用戶對(duì)于表現(xiàn)力的個(gè)性化需求，因人而異。

1.3產(chǎn)品應(yīng)用中涉及的語音相關(guān)技術(shù)

目前我們用微信語音或者是Siri時(shí)，都屬于近場的識(shí)別，而智能音箱，車載設(shè)備，機(jī)器人的語音都屬于遠(yuǎn)場識(shí)別，遠(yuǎn)場識(shí)別會(huì)受到，距離，噪音，混響…等問題，需要有其他的相關(guān)技術(shù)來配合完成，提高識(shí)別率。

麥克風(fēng)陣列：由一定數(shù)量的麥克風(fēng)組成，用來對(duì)聲場的空間特性進(jìn)行采樣并處理的系統(tǒng)。用于在會(huì)議室、戶外、商場等各種復(fù)雜環(huán)境下，解決噪音、混響、人聲干擾、回聲等各種問題。

麥克風(fēng)陣列又分為：2麥克風(fēng)陣列，4麥克風(fēng)陣列，6麥克風(fēng)陣列，6+1麥克風(fēng)陣列。

隨著麥克風(fēng)數(shù)量的增多，拾音的距離，噪聲抑制，聲源定位的角度，以及價(jià)格，都會(huì)上升，所如如何選擇要貼合實(shí)際應(yīng)用的場景，找到最佳的方案。

舉個(gè)例子：
獵豹小雅AI音箱，用的就是6+1麥克風(fēng)陣列，因?yàn)橐槍?duì)360度的3-5米的場景中使用。而很多家電，比如電視機(jī)都是貼墻放置的，2麥克風(fēng)陣列的180度，就足夠使用了。
而兩者麥克風(fēng)陣列技術(shù)要求和價(jià)格相差數(shù)倍。所以對(duì)于產(chǎn)品落地來講，在提供解決方案的時(shí)候，選擇最優(yōu)的方案。

語音激活檢測：在用微信時(shí)候，你會(huì)點(diǎn)擊語音的按鈕，來讓語音開始識(shí)別。而在遠(yuǎn)場的時(shí)候，沒有辦法進(jìn)行相關(guān)的操作，所以需要判斷什么時(shí)候有語音，什么時(shí)候沒有語音。

語音喚醒：通過關(guān)鍵詞來喚醒你的語音設(shè)備，比如：嘿～Siri，這時(shí)候語音識(shí)別才開始工作。

語音喚醒難點(diǎn)在于，喚醒的響應(yīng)時(shí)間，功耗要低，喚醒的漏報(bào)和誤報(bào)率……等。

2語音技術(shù)應(yīng)用和未來的思考

目前的語音識(shí)別技術(shù)，相對(duì)成熟應(yīng)用還在近場語音：

從0開始搭建產(chǎn)品經(jīng)理AI知識(shí)框架：語音識(shí)別與合成

而語音產(chǎn)品的未來方向的挑戰(zhàn)：

遠(yuǎn)場語音：智能家居，車載語音…等
語音理解：與機(jī)器交互更“自然”的溝通

未來遠(yuǎn)場語音的場景比想象的更為復(fù)雜，雖然語音識(shí)別的相關(guān)技術(shù)在智能音箱的家居場景下表現(xiàn)的還不錯(cuò)，但家居環(huán)境畢竟相對(duì)安靜可控，但是其他的遠(yuǎn)場語音就沒有這么順利了。

例如：
車載識(shí)別，在開車的環(huán)境下太多噪音，發(fā)動(dòng)機(jī)的聲音，打開車窗的風(fēng)聲，車胎聲，路面聲音，這些噪音都會(huì)影響到語音的識(shí)別。
而解決的方法，是要在識(shí)別之前，消除掉這些噪音，但這樣就會(huì)產(chǎn)生一個(gè)問題，那么多種聲音，機(jī)器怎么知道要消除哪些？保留哪些？
現(xiàn)在的方法是怎么做的？扛著個(gè)麥克風(fēng)，去各個(gè)車型里面錄噪音，然后把各種車，各種場景下的噪音給機(jī)器去學(xué)習(xí)，讓機(jī)器分辨出哪些聲音是要消除的。但不同環(huán)境，路面，不同的汽車發(fā)出的聲音又都不完全一樣，有大量的工作和太多不可控的情況。

將來如果想在更多場景，比如酒吧，體育場，就會(huì)更復(fù)雜，除了環(huán)境音，還有更多人說話，比如“雞尾酒效應(yīng)”，所以未來的語音之路，會(huì)面臨更多挑戰(zhàn)。

語音的理解就涉及到另外一個(gè)AI技術(shù)了“自然語言處理”，目的是與機(jī)器溝通時(shí)候，它可以更好的理解你的意思，并給出相對(duì)的判斷或反饋，避免像現(xiàn)在的聊天機(jī)器人出現(xiàn)的所答非所問，上句不接下句的情況，而有關(guān)自然語言處理，是一個(gè)更大的課題，也是AI目前的主要瓶頸之一，會(huì)再下一個(gè)分享中具體進(jìn)行討論。

以上就是我有關(guān)AI語音的分享，是AI PM認(rèn)知系列的第三篇，如果任何的疑問或建議，歡迎隨時(shí)溝通探討。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：京城客家人老黃 > 《AI》

舉報(bào)/認(rèn)領(lǐng)