一文告訴你智能語音中的VAD模塊為什么這么重要

發(fā)光的房子君 2019-07-19

展開全文

計算機交互技術(shù)通過幾年連續(xù)開發(fā)，語音信號中包含的情感信息越來越受到關(guān)注。通常，語音信號的感情特征多通過語音韻律的變化來表現(xiàn)。例如，當人們生氣或驚訝時，演講速度會增加，音量會增加，音調(diào)也會改變，而當你憂郁或傷心時，聲音往往很低。因此，振幅的結(jié)構(gòu)、發(fā)音的持續(xù)時間、說話速度等語音信號的特征是所有重要的研究特征。

在進行語音識別的過程中，系統(tǒng)的處理對象是有效語音信號。尤其在在多人說話的情況下，如果不對輸入信號做分離處理而直接進行語音識別的話，識別效果會很差。這時，需要從輸入信號中找到語音部分的起止點和終止點，從中抽取語音情感識別所需的信號特征。這樣的語音信號“切割”過程被稱為語音端點檢測（Voice Activity Detection,VAD），是一種驅(qū)動性的語音信號處理技術(shù)。

簡單來說，VAD就是將有效的語音信號和無用的語音信號或者噪音信號進行分離，以使后續(xù)的說話人識別、語義識別及語音情感分析等工作更加高效，是語音處理過程非常必要且關(guān)鍵的環(huán)節(jié)。

1.在存儲或傳輸語音的場景下，從連續(xù)的語音流中分離出有效語音可以降低存儲或傳輸?shù)臄?shù)據(jù)量；

2.只針對有效語音信號進行識別工作，在不降低語音信息量的前提下，可大大降低語音識別系統(tǒng)的運算量；

3.由于去除了非語音信號的中噪聲的干擾，系統(tǒng)的識別準確率也得到了極大提高；VAD技術(shù)的興起。

在VAD技術(shù)應(yīng)用比較廣就是智能電話機器人的開發(fā)，很多行業(yè)內(nèi)部人士已經(jīng)接觸過電銷機器人，并且我們在生活中也接到過許多機器人打來的電話。比如，一些來自企業(yè)招聘、教育培訓(xùn)、電話服務(wù)、等企業(yè)的銷售電話。機器人代替人工作業(yè)已經(jīng)屢見不鮮，但機器人代替人工打電話并且進行推銷業(yè)務(wù)，這樣的電話機器人好不好用，行業(yè)間一直有此疑問。

其次就是騷擾電話的層出不窮，好在今年3.15整治下，一些使用泛濫技術(shù)的企業(yè)都得到了應(yīng)有的懲罰。同時為了整頓行業(yè)內(nèi)部，也出臺了相關(guān)的規(guī)定，在諸多條件的限制下，語音交互市場也慢慢走上了正軌。

回到上面的話題從最早1959年，貝爾實驗室率先將VAD技術(shù)應(yīng)用于電話傳輸，到后來日本、英國、美國等各國專家相繼提出基于頻域、基于人工神經(jīng)網(wǎng)絡(luò)算法、基于倒譜距離等多種語音端點檢測方法，語音技術(shù)便進入高速發(fā)展階段。

目前，端點檢測的方法主要有兩大類，一是基于語音特征的檢測方法，該方法的關(guān)鍵在于對信號提取其魯棒性特征，以便能夠很好地區(qū)分語音/非語音。近幾年使用該方法的檢測算法主要有：基于能量特征、基于周期特征及基于多特征融合等算法，此方法對多種低信噪比（信噪比越低，混在信號里的噪聲越大）的情況有著較好的檢測正確率。

第二種是決策規(guī)則的檢測方法，包括基于統(tǒng)計模型和基于機器學(xué)習(xí)的檢測方法，是近年來的研究熱點。其中基于機器學(xué)習(xí)的端點檢測方法是將語音的檢測轉(zhuǎn)換成一個二元分類的問題，然后訓(xùn)練其學(xué)習(xí)其語音和噪聲的不同特性。

VAD技術(shù)的應(yīng)用難點和要求

目前，許多VAD算法都需要用到一些假設(shè)來保證實現(xiàn)良好的檢測性能，如：

· 在比較長的一段時間內(nèi)，背景噪音是平穩(wěn)的；

· 語音能量要高于噪音的能量，即信噪比高（混在信號里的噪聲?。?；

· 語音譜比噪音普更加有序；

· 語音信號的周期性要比噪音的周期性好；

如果上述假設(shè)都可以滿足，我們就可以使用較為簡單的檢測算法做出正確的檢測。但在實際情況中，上述假設(shè)很難同時滿足。因此，一個性能良好的VAD算法需要滿足以下要求：

· 在較低信噪比下仍有精準的檢測能力；

· 使用多個特征聯(lián)合進行檢測，特別是那些可以充分表征語音信號和噪音信號之間差異的特征；

· 在背景噪音有變化或未知噪音類型的情況下仍能較好的檢測，即噪音適應(yīng)性好；

· 對于與噪音特性相似的清音、爆破音和摩擦音等信號，能夠?qū)⑵湔_檢測為語音，盡可能的避免丟失。

以歐能智能的產(chǎn)品為例，通過語音情緒識別等情感計算技術(shù)為教學(xué)“賦能”，幫助企業(yè)和用戶提供更個性化的指導(dǎo)。對語音信號處理技術(shù)VAD的逐步應(yīng)用和深入研究，這些方面的研發(fā)將幫助歐能研發(fā)團隊大幅縮短數(shù)據(jù)處理時間，提高語音識別系統(tǒng)準確率，快速驅(qū)動更高效的產(chǎn)品落地。

智能語音技術(shù)是人工智能應(yīng)用最成熟的技術(shù)之一，并擁有交互的自然性，因而具有巨大的市場空間。科技巨頭都在打造自己的智能語音生態(tài)系統(tǒng)，在語音識別程序中，為了解決電話機器人好不好用的問題，減少了17%的運算時間，從而使得識別準確率相對提高了1%。