計算機交互技術(shù)通過幾年連續(xù)開發(fā),語音信號中包含的情感信息越來越受到關(guān)注。通常,語音信號的感情特征多通過語音韻律的變化來表現(xiàn)。例如,當人們生氣或驚訝時,演講速度會增加,音量會增加,音調(diào)也會改變,而當你憂郁或傷心時,聲音往往很低。因此,振幅的結(jié)構(gòu)、發(fā)音的持續(xù)時間、說話速度等語音信號的特征是所有重要的研究特征。 在進行語音識別的過程中,系統(tǒng)的處理對象是有效語音信號。尤其在在多人說話的情況下,如果不對輸入信號做分離處理而直接進行語音識別的話,識別效果會很差。這時,需要從輸入信號中找到語音部分的起止點和終止點,從中抽取語音情感識別所需的信號特征。這樣的語音信號“切割”過程被稱為語音端點檢測(Voice Activity Detection,VAD),是一種驅(qū)動性的語音信號處理技術(shù)。 簡單來說,VAD就是將有效的語音信號和無用的語音信號或者噪音信號進行分離,以使后續(xù)的說話人識別、語義識別及語音情感分析等工作更加高效,是語音處理過程非常必要且關(guān)鍵的環(huán)節(jié)。 1.在存儲或傳輸語音的場景下,從連續(xù)的語音流中分離出有效語音可以降低存儲或傳輸?shù)臄?shù)據(jù)量; 2.只針對有效語音信號進行識別工作,在不降低語音信息量的前提下,可大大降低語音識別系統(tǒng)的運算量; 3.由于去除了非語音信號的中噪聲的干擾,系統(tǒng)的識別準確率也得到了極大提高;VAD技術(shù)的興起。 在VAD技術(shù)應(yīng)用比較廣就是智能電話機器人的開發(fā),很多行業(yè)內(nèi)部人士已經(jīng)接觸過電銷機器人,并且我們在生活中也接到過許多機器人打來的電話。比如,一些來自企業(yè)招聘、教育培訓(xùn)、電話服務(wù)、等企業(yè)的銷售電話。機器人代替人工作業(yè)已經(jīng)屢見不鮮,但機器人代替人工打電話并且進行推銷業(yè)務(wù),這樣的電話機器人好不好用,行業(yè)間一直有此疑問。 其次就是騷擾電話的層出不窮,好在今年3.15整治下,一些使用泛濫技術(shù)的企業(yè)都得到了應(yīng)有的懲罰。同時為了整頓行業(yè)內(nèi)部,也出臺了相關(guān)的規(guī)定,在諸多條件的限制下,語音交互市場也慢慢走上了正軌。 回到上面的話題從最早1959年,貝爾實驗室率先將VAD技術(shù)應(yīng)用于電話傳輸,到后來日本、英國、美國等各國專家相繼提出基于頻域、基于人工神經(jīng)網(wǎng)絡(luò)算法、基于倒譜距離等多種語音端點檢測方法,語音技術(shù)便進入高速發(fā)展階段。 目前,端點檢測的方法主要有兩大類,一是基于語音特征的檢測方法,該方法的關(guān)鍵在于對信號提取其魯棒性特征,以便能夠很好地區(qū)分語音/非語音。近幾年使用該方法的檢測算法主要有:基于能量特征、基于周期特征及基于多特征融合等算法,此方法對多種低信噪比(信噪比越低,混在信號里的噪聲越大)的情況有著較好的檢測正確率。 第二種是決策規(guī)則的檢測方法,包括基于統(tǒng)計模型和基于機器學(xué)習(xí)的檢測方法,是近年來的研究熱點。其中基于機器學(xué)習(xí)的端點檢測方法是將語音的檢測轉(zhuǎn)換成一個二元分類的問題,然后訓(xùn)練其學(xué)習(xí)其語音和噪聲的不同特性。 VAD技術(shù)的應(yīng)用難點和要求 目前,許多VAD算法都需要用到一些假設(shè)來保證實現(xiàn)良好的檢測性能,如: · 在比較長的一段時間內(nèi),背景噪音是平穩(wěn)的; · 語音能量要高于噪音的能量,即信噪比高(混在信號里的噪聲?。?; · 語音譜比噪音普更加有序; · 語音信號的周期性要比噪音的周期性好; 如果上述假設(shè)都可以滿足,我們就可以使用較為簡單的檢測算法做出正確的檢測。但在實際情況中 ,上述假設(shè)很難同時滿足。因此,一個性能良好的VAD算法需要滿足以下要求: · 在較低信噪比下仍有精準的檢測能力; · 使用多個特征聯(lián)合進行檢測,特別是那些可以充分表征語音信號和噪音信號之間差異的特征; · 在背景噪音有變化或未知噪音類型的情況下仍能較好的檢測,即噪音適應(yīng)性好; · 對于與噪音特性相似的清音、爆破音和摩擦音等信號,能夠?qū)⑵湔_檢測為語音,盡可能的避免丟失。 以歐能智能的產(chǎn)品為例,通過語音情緒識別等情感計算技術(shù)為教學(xué)“賦能”,幫助企業(yè)和用戶提供更個性化的指導(dǎo)。對語音信號處理技術(shù)VAD的逐步應(yīng)用和深入研究,這些方面的研發(fā)將幫助歐能研發(fā)團隊大幅縮短數(shù)據(jù)處理時間,提高語音識別系統(tǒng)準確率,快速驅(qū)動更高效的產(chǎn)品落地。 智能語音技術(shù)是人工智能應(yīng)用最成熟的技術(shù)之一,并擁有交互的自然性,因而具有巨大的市場空間。科技巨頭都在打造自己的智能語音生態(tài)系統(tǒng),在語音識別程序中,為了解決電話機器人好不好用的問題,減少了17%的運算時間,從而使得識別準確率相對提高了1%。 |
|
來自: 發(fā)光的房子君 > 《智能》