視頻介紹:LEAF:可學(xué)習(xí)的音頻分類前端在過去幾年中,開發(fā)用于音頻理解的機(jī)器學(xué)習(xí) (ML) 模型取得了巨大進(jìn)步。利用從數(shù)據(jù)中學(xué)習(xí)參數(shù)的能力,該領(lǐng)域已逐漸從復(fù)合的、手工制作的系統(tǒng)轉(zhuǎn)變?yōu)楫?dāng)今用于識別語音、理解音樂或?qū)B類叫聲等動(dòng)物發(fā)聲進(jìn)行分類的深度神經(jīng)分類器。然而,與可以從原始像素中學(xué)習(xí)的計(jì)算機(jī)視覺模型不同,用于音頻分類的深度神經(jīng)網(wǎng)絡(luò)很少從原始音頻波形中進(jìn)行訓(xùn)練。相反,他們依賴于 mel 濾波器組形式的預(yù)處理數(shù)據(jù)——手工制作的mel 縮放 頻譜圖 旨在復(fù)制人類聽覺反應(yīng)的某些方面。 盡管為 ML 任務(wù)建模 mel 濾波器組在歷史上是成功的,但它受到固定特征的固有偏差的限制:即使使用固定的 mel 尺度和對數(shù)壓縮通常效果很好,但我們不能保證它們提供最好的表示為了手頭的任務(wù)。特別是,即使匹配人類感知為某些應(yīng)用領(lǐng)域提供了良好的歸納偏差,例如語音識別或音樂理解,但這些偏差可能對模仿人耳不重要的領(lǐng)域有害,例如識別鯨魚叫聲. 因此,為了實(shí)現(xiàn)最佳性能,梅爾濾波器組應(yīng)該針對感興趣的任務(wù)進(jìn)行定制,這是一個(gè)繁瑣的過程,需要根據(jù)專家領(lǐng)域知識進(jìn)行迭代工作。因此,標(biāo)準(zhǔn) mel 濾波器組在實(shí)踐中用于大多數(shù)音頻分類任務(wù),即使它們不是最理想的。此外,雖然研究人員已經(jīng)提出了 ML 系統(tǒng)來解決這些問題,例如時(shí)域?yàn)V波器組、SincNet和Wavegram,但它們的性能仍無法與傳統(tǒng)的 mel 濾波器組相匹敵。 在ICLR 2021接受的“ LEAF,一個(gè)完全可學(xué)習(xí)的音頻分類前端”中,我們提出了一種為音頻理解任務(wù)制作可學(xué)習(xí)頻譜圖的替代方法。LEarnable Audio Frontend (LEAF) 是一種神經(jīng)網(wǎng)絡(luò),可以初始化為近似 mel 濾波器組,然后與任何音頻分類器聯(lián)合訓(xùn)練以適應(yīng)手頭的任務(wù),同時(shí)只需向完整模型添加少量參數(shù)。我們表明,在廣泛的音頻信號和分類任務(wù)(包括語音、音樂和鳥鳴)中,LEAF 頻譜圖提高了固定 mel 濾波器組和先前提出的可學(xué)習(xí)系統(tǒng)的分類性能。我們已經(jīng)在TensorFlow 2 中實(shí)現(xiàn)了代碼并通過以下方式將其發(fā)布到社區(qū)我們的 GitHub 存儲庫。 Mel 濾波器組:模仿人類對聲音的感知?jiǎng)?chuàng)建 mel 濾波器組的傳統(tǒng)方法的第一步是通過開窗捕捉聲音的時(shí)間變化,即將信號切割成具有固定持續(xù)時(shí)間的短段。然后,通過一組固定頻率濾波器傳遞窗口段來執(zhí)行濾波,復(fù)制人類對音高的對數(shù)靈敏度。因?yàn)槲覀儗Φ皖l的變化比高頻更敏感,梅爾濾波器組更重視聲音的低頻范圍。最后,音頻信號被壓縮以模擬耳朵對響度的對數(shù)敏感性——聲音需要將其功率增加一倍,人才能感知到 3分貝的增加。 LEAF 松散地遵循這種傳統(tǒng)的 mel 濾波器組生成方法,但將每個(gè)固定操作(即,過濾層、窗口層和壓縮函數(shù))替換為學(xué)習(xí)的對應(yīng)物。LEAF 的輸出是類似于 mel 濾波器組的時(shí)頻表示(頻譜圖),但完全可學(xué)習(xí)。因此,例如,當(dāng) mel 濾波器組使用固定的音調(diào)比例時(shí),LEAF 學(xué)習(xí)最適合感興趣任務(wù)的比例。任何可以使用 mel 濾波器組作為輸入特征進(jìn)行訓(xùn)練的模型,也可以在 LEAF 頻譜圖上進(jìn)行訓(xùn)練。 雖然 LEAF 可以隨機(jī)初始化,但它也可以以近似 mel 濾波器組的方式初始化,這已被證明是一個(gè)更好的起點(diǎn)。然后,可以用任何分類器訓(xùn)練 LEAF 以適應(yīng)感興趣的任務(wù)。 固定特征的參數(shù)有效替代方案用可訓(xùn)練系統(tǒng)替換不涉及可學(xué)習(xí)參數(shù)的固定特征的潛在缺點(diǎn)是,它可以顯著增加要優(yōu)化的參數(shù)數(shù)量。為了避免這個(gè)問題,LEAF 使用Gabor卷積層,每個(gè)過濾器只有兩個(gè)參數(shù),而不是標(biāo)準(zhǔn)卷積層典型的 ~400 個(gè)參數(shù)。這樣,即使與小分類器(例如EfficientNetB0 )配對時(shí),LEAF 模型也僅占總參數(shù)的 0.01%。 性能我們將 LEAF 應(yīng)用于各種音頻分類任務(wù),包括識別語音命令、說話人識別、聲學(xué)場景識別、識別樂器和尋找鳥鳴。平均而言,LEAF 優(yōu)于 mel 濾波器組和以前的可學(xué)習(xí)前端,例如時(shí)域?yàn)V波器組、SincNet和Wavegram. 特別是,LEAF 在不同任務(wù)中實(shí)現(xiàn)了 76.9% 的平均準(zhǔn)確率,而 mel 濾波器組的平均準(zhǔn)確率為 73.9%。此外,我們表明 LEAF 可以在多任務(wù)設(shè)置中進(jìn)行訓(xùn)練,這樣單個(gè) LEAF 參數(shù)化就可以在所有這些任務(wù)中很好地工作。最后,當(dāng)與大型音頻分類器結(jié)合使用時(shí),LEAF 在具有挑戰(zhàn)性的AudioSet 基準(zhǔn)測試中達(dá)到了最先進(jìn)的性能,d-prime得分為 2.74 。 結(jié)論音頻理解任務(wù)的范圍不斷擴(kuò)大,從通過語音診斷癡呆癥到檢測來自水下麥克風(fēng)的座頭鯨叫聲。使 mel 濾波器組適應(yīng)每項(xiàng)新任務(wù)可能需要大量的手動(dòng)調(diào)整和實(shí)驗(yàn)。在這種情況下,LEAF 為這些固定特征提供了替代品,可以訓(xùn)練這些特征以適應(yīng)感興趣的任務(wù),只需最少的任務(wù)特定調(diào)整。因此,我們相信 LEAF 可以加速新音頻理解任務(wù)模型的開發(fā)。 更新說明:優(yōu)先更新微信公眾號“雨夜的博客”,后更新博客,之后才會陸續(xù)分發(fā)到各個(gè)平臺,如果先提前了解更多,請關(guān)注微信公眾號“雨夜的博客”。 博客來源:雨夜的博客 |
|