從早期蘋果的Siri,到最近國內(nèi)的智能音箱大戰(zhàn),越來越多AI語音產(chǎn)品走入了大家的生活。 近幾天我也在思考,相比已有更落地方案的計(jì)算機(jī)視覺技術(shù),AI的語音技術(shù)在產(chǎn)品應(yīng)用中的本質(zhì)是什么?這個(gè)思考我也跟一些語音領(lǐng)域的專家探討過,而其中我個(gè)人的理解是:
為什么我這么理解?那我們先來看看語音有哪些天然屬性:
所以,以下AI語音相關(guān)的分享,會(huì)圍繞兩個(gè)方面:
語音識(shí)別(Automatic Speech Recognition)是以語音為研究對(duì)象,通過語音信號(hào)處理和模式識(shí)別讓計(jì)算機(jī)自動(dòng)識(shí)別人類口述語言。 簡單來說,就是讓機(jī)器可以聽得懂人話。 其中比較核心的部分是語音聽寫:就是將語音信息轉(zhuǎn)化為文字信息。 中文語音聽寫的技術(shù)原理,如下:
而這里的特征提取,聲學(xué)模型和語言模型在技術(shù)實(shí)現(xiàn)上,有兩種方法:
目前語音識(shí)別技術(shù)主要是通過DNN實(shí)現(xiàn)的,特定場景下最高可以達(dá)到97%的識(shí)別率。 1.2語音合成:TTS語音合成(Text-To-Speech)是計(jì)算機(jī)將自己產(chǎn)生的、或外部輸入的文字信息轉(zhuǎn)變?yōu)榭梢月牭枚?、流利的漢語口語輸出的技術(shù)。 簡單來說,就是機(jī)器講文字朗讀出來。 中文的語音合成技術(shù)原理,如下:
目前主要實(shí)現(xiàn)是兩種方法:
拼接法的優(yōu)點(diǎn)就是更自然,但是缺點(diǎn)是需要大量的錄音,和存儲(chǔ)。 參數(shù)法的優(yōu)點(diǎn)就是存儲(chǔ)小,但是缺點(diǎn)就是不夠自然,聽起來就是怪怪的機(jī)器發(fā)音。 另外谷歌發(fā)布的WaveNet是基于語音網(wǎng)絡(luò)使用生成算法制作而成的,相對(duì)于以前的拼接法、參數(shù)法,在聲音表現(xiàn)力上更具優(yōu)勢。 此外,語音合成的技術(shù)主要體現(xiàn)在四個(gè)方面:
目前的語音合成技術(shù)相對(duì)比較成熟,進(jìn)一步優(yōu)化的同時(shí),大家的重點(diǎn)都放在了表現(xiàn)力上,以符合更多的場景應(yīng)用,滿足不同人對(duì)個(gè)性化的需求。
這個(gè)就是在不同場景下用戶對(duì)于表現(xiàn)力的個(gè)性化需求,因人而異。 1.3產(chǎn)品應(yīng)用中涉及的語音相關(guān)技術(shù)目前我們用微信語音或者是Siri時(shí),都屬于近場的識(shí)別,而智能音箱,車載設(shè)備,機(jī)器人的語音都屬于遠(yuǎn)場識(shí)別,遠(yuǎn)場識(shí)別會(huì)受到,距離,噪音,混響…等問題,需要有其他的相關(guān)技術(shù)來配合完成,提高識(shí)別率。 麥克風(fēng)陣列:由一定數(shù)量的麥克風(fēng)組成,用來對(duì)聲場的空間特性進(jìn)行采樣并處理的系統(tǒng)。用于在會(huì)議室、戶外、商場等各種復(fù)雜環(huán)境下,解決噪音、混響、人聲干擾、回聲等各種問題。 麥克風(fēng)陣列又分為:2麥克風(fēng)陣列,4麥克風(fēng)陣列,6麥克風(fēng)陣列,6+1麥克風(fēng)陣列。 隨著麥克風(fēng)數(shù)量的增多,拾音的距離,噪聲抑制,聲源定位的角度,以及價(jià)格,都會(huì)上升,所如如何選擇要貼合實(shí)際應(yīng)用的場景,找到最佳的方案。
語音激活檢測:在用微信時(shí)候,你會(huì)點(diǎn)擊語音的按鈕,來讓語音開始識(shí)別。而在遠(yuǎn)場的時(shí)候,沒有辦法進(jìn)行相關(guān)的操作,所以需要判斷什么時(shí)候有語音,什么時(shí)候沒有語音。 語音喚醒:通過關(guān)鍵詞來喚醒你的語音設(shè)備,比如:嘿~Siri,這時(shí)候語音識(shí)別才開始工作。 語音喚醒難點(diǎn)在于,喚醒的響應(yīng)時(shí)間,功耗要低,喚醒的漏報(bào)和誤報(bào)率……等。 2語音技術(shù)應(yīng)用和未來的思考目前的語音識(shí)別技術(shù),相對(duì)成熟應(yīng)用還在近場語音: 而語音產(chǎn)品的未來方向的挑戰(zhàn):
未來遠(yuǎn)場語音的場景比想象的更為復(fù)雜,雖然語音識(shí)別的相關(guān)技術(shù)在智能音箱的家居場景下表現(xiàn)的還不錯(cuò),但家居環(huán)境畢竟相對(duì)安靜可控,但是其他的遠(yuǎn)場語音就沒有這么順利了。
將來如果想在更多場景,比如酒吧,體育場,就會(huì)更復(fù)雜,除了環(huán)境音,還有更多人說話,比如“雞尾酒效應(yīng)”,所以未來的語音之路,會(huì)面臨更多挑戰(zhàn)。 語音的理解就涉及到另外一個(gè)AI技術(shù)了“自然語言處理”,目的是與機(jī)器溝通時(shí)候,它可以更好的理解你的意思,并給出相對(duì)的判斷或反饋,避免像現(xiàn)在的聊天機(jī)器人出現(xiàn)的所答非所問,上句不接下句的情況,而有關(guān)自然語言處理,是一個(gè)更大的課題,也是AI目前的主要瓶頸之一,會(huì)再下一個(gè)分享中具體進(jìn)行討論。 以上就是我有關(guān)AI語音的分享,是AI PM認(rèn)知系列的第三篇,如果任何的疑問或建議,歡迎隨時(shí)溝通探討。 |
|