【原】LEAF：可學(xué)習(xí)的音頻分類前端

雨夜的博客 2021-09-25

展開全文

視頻介紹：LEAF：可學(xué)習(xí)的音頻分類前端

在過去幾年中，開發(fā)用于音頻理解的機(jī)器學(xué)習(xí) (ML) 模型取得了巨大進(jìn)步。利用從數(shù)據(jù)中學(xué)習(xí)參數(shù)的能力，該領(lǐng)域已逐漸從復(fù)合的、手工制作的系統(tǒng)轉(zhuǎn)變?yōu)楫?dāng)今用于識別語音、理解音樂或?qū)B類叫聲等動(dòng)物發(fā)聲進(jìn)行分類的深度神經(jīng)分類器。然而，與可以從原始像素中學(xué)習(xí)的計(jì)算機(jī)視覺模型不同，用于音頻分類的深度神經(jīng)網(wǎng)絡(luò)很少從原始音頻波形中進(jìn)行訓(xùn)練。相反，他們依賴于 mel 濾波器組形式的預(yù)處理數(shù)據(jù)——手工制作的mel 縮放頻譜圖旨在復(fù)制人類聽覺反應(yīng)的某些方面。

盡管為 ML 任務(wù)建模 mel 濾波器組在歷史上是成功的，但它受到固定特征的固有偏差的限制：即使使用固定的 mel 尺度和對數(shù)壓縮通常效果很好，但我們不能保證它們提供最好的表示為了手頭的任務(wù)。特別是，即使匹配人類感知為某些應(yīng)用領(lǐng)域提供了良好的歸納偏差，例如語音識別或音樂理解，但這些偏差可能對模仿人耳不重要的領(lǐng)域有害，例如識別鯨魚叫聲. 因此，為了實(shí)現(xiàn)最佳性能，梅爾濾波器組應(yīng)該針對感興趣的任務(wù)進(jìn)行定制，這是一個(gè)繁瑣的過程，需要根據(jù)專家領(lǐng)域知識進(jìn)行迭代工作。因此，標(biāo)準(zhǔn) mel 濾波器組在實(shí)踐中用于大多數(shù)音頻分類任務(wù)，即使它們不是最理想的。此外，雖然研究人員已經(jīng)提出了 ML 系統(tǒng)來解決這些問題，例如時(shí)域?yàn)V波器組、SincNet和Wavegram，但它們的性能仍無法與傳統(tǒng)的 mel 濾波器組相匹敵。

在ICLR 2021接受的“ LEAF，一個(gè)完全可學(xué)習(xí)的音頻分類前端”中，我們提出了一種為音頻理解任務(wù)制作可學(xué)習(xí)頻譜圖的替代方法。LEarnable Audio Frontend (LEAF) 是一種神經(jīng)網(wǎng)絡(luò)，可以初始化為近似 mel 濾波器組，然后與任何音頻分類器聯(lián)合訓(xùn)練以適應(yīng)手頭的任務(wù)，同時(shí)只需向完整模型添加少量參數(shù)。我們表明，在廣泛的音頻信號和分類任務(wù)（包括語音、音樂和鳥鳴）中，LEAF 頻譜圖提高了固定 mel 濾波器組和先前提出的可學(xué)習(xí)系統(tǒng)的分類性能。我們已經(jīng)在TensorFlow 2 中實(shí)現(xiàn)了代碼并通過以下方式將其發(fā)布到社區(qū)我們的 GitHub 存儲庫。

Mel 濾波器組：模仿人類對聲音

的感知?jiǎng)?chuàng)建 mel 濾波器組的傳統(tǒng)方法的第一步是通過開窗捕捉聲音的時(shí)間變化，即將信號切割成具有固定持續(xù)時(shí)間的短段。然后，通過一組固定頻率濾波器傳遞窗口段來執(zhí)行濾波，復(fù)制人類對音高的對數(shù)靈敏度。因?yàn)槲覀儗Φ皖l的變化比高頻更敏感，梅爾濾波器組更重視聲音的低頻范圍。最后，音頻信號被壓縮以模擬耳朵對響度的對數(shù)敏感性——聲音需要將其功率增加一倍，人才能感知到 3分貝的增加。

LEAF 松散地遵循這種傳統(tǒng)的 mel 濾波器組生成方法，但將每個(gè)固定操作（即，過濾層、窗口層和壓縮函數(shù)）替換為學(xué)習(xí)的對應(yīng)物。LEAF 的輸出是類似于 mel 濾波器組的時(shí)頻表示（頻譜圖），但完全可學(xué)習(xí)。因此，例如，當(dāng) mel 濾波器組使用固定的音調(diào)比例時(shí)，LEAF 學(xué)習(xí)最適合感興趣任務(wù)的比例。任何可以使用 mel 濾波器組作為輸入特征進(jìn)行訓(xùn)練的模型，也可以在 LEAF 頻譜圖上進(jìn)行訓(xùn)練。

file

雖然 LEAF 可以隨機(jī)初始化，但它也可以以近似 mel 濾波器組的方式初始化，這已被證明是一個(gè)更好的起點(diǎn)。然后，可以用任何分類器訓(xùn)練 LEAF 以適應(yīng)感興趣的任務(wù)。

file

固定特征的參數(shù)有效替代方案

用可訓(xùn)練系統(tǒng)替換不涉及可學(xué)習(xí)參數(shù)的固定特征的潛在缺點(diǎn)是，它可以顯著增加要優(yōu)化的參數(shù)數(shù)量。為了避免這個(gè)問題，LEAF 使用Gabor卷積層，每個(gè)過濾器只有兩個(gè)參數(shù)，而不是標(biāo)準(zhǔn)卷積層典型的 ~400 個(gè)參數(shù)。這樣，即使與小分類器（例如EfficientNetB0 ）配對時(shí)，LEAF 模型也僅占總參數(shù)的 0.01%。

file

性能

我們將 LEAF 應(yīng)用于各種音頻分類任務(wù)，包括識別語音命令、說話人識別、聲學(xué)場景識別、識別樂器和尋找鳥鳴。平均而言，LEAF 優(yōu)于 mel 濾波器組和以前的可學(xué)習(xí)前端，例如時(shí)域?yàn)V波器組、SincNet和Wavegram. 特別是，LEAF 在不同任務(wù)中實(shí)現(xiàn)了 76.9% 的平均準(zhǔn)確率，而 mel 濾波器組的平均準(zhǔn)確率為 73.9%。此外，我們表明 LEAF 可以在多任務(wù)設(shè)置中進(jìn)行訓(xùn)練，這樣單個(gè) LEAF 參數(shù)化就可以在所有這些任務(wù)中很好地工作。最后，當(dāng)與大型音頻分類器結(jié)合使用時(shí)，LEAF 在具有挑戰(zhàn)性的AudioSet 基準(zhǔn)測試中達(dá)到了最先進(jìn)的性能，d-prime得分為 2.74 。 file

結(jié)論

音頻理解任務(wù)的范圍不斷擴(kuò)大，從通過語音診斷癡呆癥到檢測來自水下麥克風(fēng)的座頭鯨叫聲。使 mel 濾波器組適應(yīng)每項(xiàng)新任務(wù)可能需要大量的手動(dòng)調(diào)整和實(shí)驗(yàn)。在這種情況下，LEAF 為這些固定特征提供了替代品，可以訓(xùn)練這些特征以適應(yīng)感興趣的任務(wù)，只需最少的任務(wù)特定調(diào)整。因此，我們相信 LEAF 可以加速新音頻理解任務(wù)模型的開發(fā)。

更新說明：優(yōu)先更新微信公眾號“雨夜的博客”，后更新博客，之后才會陸續(xù)分發(fā)到各個(gè)平臺，如果先提前了解更多，請關(guān)注微信公眾號“雨夜的博客”。

博客來源：雨夜的博客