在語音識別研究領(lǐng)域,音頻特征的選擇至關(guān)重要。在這里介紹一種非常成功的音頻特征——Mel Frequency Cepstrum Coefficient(MFCC),中文名字為梅爾頻率倒譜系數(shù)。MFCC特征的成功很大程度上得益于心理聲學(xué)的研究成果,它對人的聽覺機(jī)理進(jìn)行了建模。我們知道音頻信號從時域信號轉(zhuǎn)化為頻域信號之后,我們可以得到各種頻率分量的能量分布。心理聲學(xué)的研究結(jié)果表明,人耳對于低頻信號更加敏感,對于高頻信號less sensitive,具體是一種什么關(guān)系?心理聲學(xué)研究結(jié)果表明,在低頻部分是一種線性的關(guān)系,但是隨著頻率的升高,人耳對于頻率的敏感程度呈現(xiàn)對數(shù)增長的態(tài)勢。這意味著僅僅從各個頻率能量的分布設(shè)計符合人的聽覺習(xí)慣的音頻特征不是非常合理的。 MFCC 特征的設(shè)計者正式利用了上述人類的聽覺特性,使用了梅爾濾波器來對頻率分布進(jìn)行濾波。這里的梅爾濾波器的設(shè)計充分體現(xiàn)了上面提到的人的聽覺機(jī)理的問題。下面我們將詳細(xì)介紹MFCC特征。 一、作為一種頻率域的音頻特征,離散傅里葉變換是這些特征計算的基礎(chǔ)。一般我們會選擇快速傅里葉變換FFT算法。 相關(guān)的能量的求取解釋可以參考FFT部分,一個比較粗略的流程是這樣的。 二、梅爾濾波器 實際上是一種三角形濾波器,首先對frequency通過下面的公式映射到mel 標(biāo)度 下面這張圖充分體現(xiàn)了兩者的關(guān)系。 在mel scale我們是對其進(jìn)行等寬度的劃分,但是在frequency scale可以看到,隨之而變化的幅度確實逐漸變大的,在低頻部分剛開始并不是非常明顯的,但是隨著頻率的增大,這種趨勢變得愈加明顯。 mel三角形濾波器的設(shè)計是在mel scale進(jìn)行的,相鄰濾波器之間存在交叉的部分,下一個濾波器的開始位置是上一個濾波器的中心頻率位置,假設(shè)mel scale的范圍為[0,max],假設(shè)要劃分為N個梅爾濾波器,根據(jù)上面的分析,我們要將其等距劃分為N 1塊,如下所示。我們要獲得7個mel filter,則將mel scale等間距劃分為了8個區(qū)域,使用如圖所示的方式可以得到7個filter。每個三角形的中間位置是mel濾波器的中間位置,將其使用上面的公式的反變換,反變換到frequency,可以得到相應(yīng)的mel濾波器的中心頻率。 當(dāng)然上面這張圖的目的只是為了確定mel濾波器的邊界,在實際當(dāng)中的mel濾波器的filter過程是使用了在相對應(yīng)的頻率域的公式來進(jìn)行的 如下所示,我們可以得到在頻率域的mel濾波器。通過上面的計算我們可以得到相應(yīng)的N 1個三角濾波器的frequency的邊界,我們將其記為??(??),??=0,1,2,...,??f(m),m=0,1,2,...,N 下面的有的圖像引用自http://my.oschina.net/jamesju/blog/193343,在此版權(quán)說明 我們會發(fā)現(xiàn)上面的公式的分母是一個常數(shù),而且隨著frequency的增大,這個常數(shù)相對的也增大了,而且增大的幅度更大,所以造成整體的????(??)變小Hm(k)變小,從而說明隨著頻率的增大,相應(yīng)的filter權(quán)重會變小,這也說明了對于低頻部分的重視。 下面所示為濾波器的一個簡單示意圖。 上面的濾波的結(jié)果,是導(dǎo)致得到了N個值,因為每一個濾波器,會在對相應(yīng)的頻率能量加權(quán)之后,進(jìn)行了求和運(yùn)算。 三、非線性變換 一般為log對數(shù)運(yùn)算 四、離散余弦變換 (DCT) 參考資料: http://my.oschina.net/jamesju/blog/193343 |
|