【委員觀點(diǎn)】愛犯錯(cuò)的智能體 -- 聽覺篇(十二)：聽覺錯(cuò)覺與語音、歌唱的智能分析

親斤彳正禾呈 2019-04-13

展開全文

京中有善口技者。會(huì)賓客大宴，于廳事之東北角，施八尺屏障，口技人坐屏障中，一桌、一椅、一扇、一撫尺而已。眾賓團(tuán)坐。少頃，但聞屏障中撫尺一下，滿坐寂然，無敢嘩者。

遙聞深巷中犬吠，便有婦人驚覺欠伸，其夫囈語。既而兒醒，大啼。夫亦醒。婦撫兒乳，兒含乳啼，婦拍而嗚之。又一大兒醒，絮絮不止。當(dāng)是時(shí)，婦手拍兒聲，口中嗚聲，兒含乳啼聲，大兒初醒聲，夫叱大兒聲，一時(shí)齊發(fā)，眾妙畢備。滿坐賓客無不伸頸，側(cè)目，微笑，默嘆，以為妙絕。

未幾，夫齁聲起，婦拍兒亦漸拍漸止。微聞?dòng)惺笞髯魉魉?，盆器傾側(cè)，婦夢(mèng)中咳嗽。賓客意少舒，稍稍正坐。

忽一人大呼'火起'，夫起大呼，婦亦起大呼。兩兒齊哭。俄而百千人大呼，百千兒哭，百千犬吠。中間力拉崩倒之聲，火爆聲，呼呼風(fēng)聲，百千齊作；又夾百千求救聲，曳屋許許聲，搶奪聲，潑水聲。凡所應(yīng)有，無所不有。雖人有百手，手有百指，不能指其一端；人有百口，口有百舌，不能名其一處也。于是賓客無不變色離席，奮袖出臂，兩股戰(zhàn)戰(zhàn)，幾欲先走。

忽然撫尺一下，群響畢絕。撤屏視之，一人、一桌、一椅、一扇、一撫尺而已。

節(jié)選自《虞初新志》的《口技》，林嗣環(huán) (清)

圖1：口技

聲音能刻畫得如此妙不可言，聽覺系統(tǒng)功不可沒。就人而言，聽覺系統(tǒng)由左右兩只耳朵構(gòu)成，一方面能幫助我們形成立體聽覺，有助于辯識(shí)聲音的位置，另一方面也方便我們?cè)诓幌猜牭侥呈聲r(shí)，可以一只耳朵進(jìn)，一只耳朵出。它是除了視覺以外，另一個(gè)可以幫助我們實(shí)現(xiàn)遠(yuǎn)距離以及視覺系統(tǒng)不可用時(shí)識(shí)別目標(biāo)的感知系統(tǒng)。比如《紅樓夢(mèng)》中描繪的“未見其人先聞其聲”，便是林黛玉進(jìn)賈府初見王熙鳳的情形，朗朗的笑聲瞬間就把王熙鳳的形象樹立了起來。另外，因?yàn)槿说囊曈X接受外界信號(hào)是以光的速度完成的，而接收聲音的速度則慢得多。所以，聽覺系統(tǒng)還能幫助糾正視覺上的錯(cuò)覺。比如，有些人會(huì)看上去是非常的閃亮、聰明，這一印象會(huì)一直維持到聽到他開口說話為止。于是，為了保證視覺與聽覺美感上的“一致”，不少短視頻APP提供了大量有特色的聲音母帶。這也是短視頻大受歡迎的原因之一。因?yàn)閷?duì)人類文明而言，聽覺系統(tǒng)促進(jìn)了智能體之間的交流和提升了精神生活的檔次。

圖2 耳朵結(jié)構(gòu)圖

要更具體地了解聽覺系統(tǒng)，可參考圖2。它包括用于收集聲音的耳朵、用于聲音傳遞的外耳道、用于將聲音變?yōu)檎駝?dòng)頻率的耳膜、耳蝸內(nèi)用于將聲音轉(zhuǎn)為電脈沖的毛細(xì)胞、以及傳輸電脈沖的聽神經(jīng)和處理聲音的聽覺中樞。這里毛細(xì)胞是聽覺細(xì)胞，包括3500個(gè)內(nèi)毛細(xì)胞和12000個(gè)外毛細(xì)胞，以分別處理不同頻率的聲音。其中，低音部的毛細(xì)胞多，高音的相對(duì)較少。所以，對(duì)年紀(jì)大的人來說，首當(dāng)其沖損失的是高頻部分的聽力能力。

雖然人的聽覺系統(tǒng)中的毛細(xì)胞數(shù)量和布局，和人的視網(wǎng)膜有得一比。但由于現(xiàn)有傳感器設(shè)備的限制，機(jī)器在模仿時(shí)都將采集到的聲音最終簡化成一條曲線似的信號(hào)。好處是，多媒體研究最開始著手的方向，就是數(shù)字音頻處理。隨著計(jì)算機(jī)處理能力的增強(qiáng)，才逐漸將研究重點(diǎn)轉(zhuǎn)移到具有二維結(jié)構(gòu)的數(shù)字圖像上來。在1995年至本世紀(jì)初期，曾經(jīng)有一段時(shí)間，計(jì)算機(jī)學(xué)科中一大半的研究生從事的研究方向都與數(shù)字圖像處理密切相關(guān)。說不定，未來等量子計(jì)算機(jī)研制成功，基本的計(jì)算基元從二進(jìn)制轉(zhuǎn)成連續(xù)值后，也許得考慮量子語音處理、量子圖像處理了。

撇開這段歷史不表，因?yàn)槁曇羰嵌嘣吹摹㈦S時(shí)間變化的，當(dāng)聲音壓縮變成一維的語音信號(hào)后，語音處理的難度便大了不少。早期的語音處理研究是舉步維艱的。曾記得95年左右的微軟曾出過一版語音識(shí)別軟件，識(shí)別的性能遠(yuǎn)低于期望，很快就被市場淡忘。當(dāng)年在連續(xù)語音識(shí)別的主要方法，包括統(tǒng)計(jì)學(xué)領(lǐng)域60年代、后在70年代中期被挪到語音領(lǐng)域的隱馬爾可夫模型，和多個(gè)高斯分布組合的多元混合高斯模型。其中，隱馬爾可夫模型假定了聲音時(shí)間序列的前后時(shí)刻具有相關(guān)性，即馬爾可夫過程。同時(shí)，假定這些相關(guān)性由一組隱含的變量控制。將這些性質(zhì)構(gòu)成網(wǎng)絡(luò)后，便形成了隱馬爾可夫模型。盡管模型結(jié)構(gòu)有細(xì)微變化，但主體思想仍舊，曾在語音分析領(lǐng)域引領(lǐng)風(fēng)騷數(shù)十年。一直到近年來的深度學(xué)習(xí)的出現(xiàn)，語音識(shí)別也由于預(yù)測性能的顯著提高而隨之走向全面實(shí)用化。

但實(shí)用化并不意味著聽覺系統(tǒng)就完全被了解清楚了，里面仍有許多不明的機(jī)理，如聽覺錯(cuò)覺。同時(shí)，語音識(shí)別本身也還存在一些目前難以解決的問題。第三，人類在說話以外，還發(fā)展了音樂這樣獨(dú)一無二的能力，尤其是唱歌。理解唱歌，對(duì)于理解智能體本身也是有幫助的。本節(jié)中，我將從此三方面展開介紹。

一、聽覺錯(cuò)覺

聽覺系統(tǒng)和視覺系統(tǒng)一樣，雖然有效，但同樣存在不少有意思的錯(cuò)覺。這些錯(cuò)覺既有來自聽覺系統(tǒng)的，也有來自大腦生理或心理感受的，還有來自外部經(jīng)過特殊設(shè)計(jì)誘導(dǎo)的。

來自聽學(xué)系統(tǒng)的通常是功能性退化引起的。舉例來說，當(dāng)外界不存在聲源輸入時(shí)，而人又能感受到聲音信息時(shí)，就是聽覺系統(tǒng)本身出了問題，可大可小。比較常見的是耳鳴，一些神經(jīng)官能癥患者或神經(jīng)衰弱的人會(huì)比較容易出現(xiàn)這種問題。它產(chǎn)生的原因，一直是眾說紛紜，有認(rèn)為是大腦聽覺中樞存在問題所致，也有認(rèn)為與傳導(dǎo)聲音的神經(jīng)通道在無信號(hào)時(shí)的活動(dòng)有關(guān)。后一觀點(diǎn)里，比較有意思的一個(gè)研究成果是美國約翰-霍普金斯小組德懷特·彼格斯等最近做出的。他們?cè)诼犃€沒發(fā)育成熟的小鼠上進(jìn)行了實(shí)驗(yàn)，發(fā)現(xiàn)耳鳴的發(fā)生可能與聽覺系統(tǒng)早期階段，非感覺性毛細(xì)胞，即支撐細(xì)胞有直接聯(lián)系。他們認(rèn)為，在聽覺系統(tǒng)未成熟前，這些支撐細(xì)胞會(huì)本能釋放ATP能量分子(腺苷三磷酸)，形成電信號(hào)輸入大腦。這些電信號(hào)在發(fā)育初期聽起來就象是噪聲，可用于幫助聽覺系統(tǒng)盡早做好準(zhǔn)備。從我的感覺來看，這種準(zhǔn)備就像聽覺系統(tǒng)的自檢，和人晚上睡覺偶爾會(huì)蹬腿是為了自檢人是否還活著一個(gè)道理。而到長大以后，這種自檢偶爾還會(huì)被觸發(fā)。頻率發(fā)生過高的則有可能形成持續(xù)性耳鳴的疾病。所以，了解耳鳴的形成機(jī)理也許有助于理解人聽覺系統(tǒng)的早期發(fā)育。

除了這種耳鳴外，人甚至可以在不使用聽覺系統(tǒng)時(shí)，也能感受到聲音。比如，你沉思的時(shí)候，那個(gè)在你腦袋里說話的聲音，是誰發(fā)出的呢？

另一種錯(cuò)覺是人對(duì)聲音美感的感知。它包括說話聲和唱歌兩種錯(cuò)覺。

在日常生活中，說話人錯(cuò)覺更為常見。人們總是對(duì)自己的聲音比較滿意，直到聽到通過錄音方式播放出來的聲音后，才發(fā)現(xiàn)與自己以為聽到的還有點(diǎn)差距，有時(shí)會(huì)覺得錄音機(jī)里播出來的聲音會(huì)更難聽一些。其原因有兩個(gè)，一是因?yàn)槿嗽诼犠约郝曇舻臅r(shí)候，聲音是通過顱骨傳至內(nèi)耳再進(jìn)入聽覺中樞的。而其他人聽到的聲音，與錄音機(jī)通過空氣介質(zhì)傳播獲得的相同。傳播媒介不同，自然會(huì)有些差異。另一個(gè)原因可能是人類會(huì)習(xí)慣把自己的聲音標(biāo)定得更美好一些。在2000年兩位心理學(xué)家Dunning和Kruger提出的、獲得了《搞笑諾貝爾心理學(xué)獎(jiǎng)》的達(dá)克效應(yīng)(Dunning-Kruger Effect)可以部分解釋這一現(xiàn)象。簡單來說，人容易沉靜在自我營造的虛幻優(yōu)勢(shì)之中，過高估計(jì)自己的能力，屬于一種認(rèn)知偏差。因此，人也會(huì)在大腦中自動(dòng)地美化自己的聲音。

二、語音識(shí)別及相關(guān)應(yīng)用

拋去錯(cuò)覺不提，語音識(shí)別本身有許多細(xì)分和衍生的應(yīng)用值得研究。應(yīng)用面最寬的當(dāng)數(shù)語音轉(zhuǎn)換文字，可以是同一語種，也可以是跨語種。同語種的轉(zhuǎn)換，在深度學(xué)習(xí)出來后，性能確實(shí)有了一個(gè)質(zhì)的飛躍，在識(shí)別性能和用于語音搜索方面都已經(jīng)不是90年代可比擬的了。不過，現(xiàn)階段的水平也并非完全能替代其它輸入設(shè)備，仍存在一些無法有效解讀的場景。以中文為例，漢字的數(shù)量超過8萬個(gè)，常用的約3500個(gè)，但漢字重音率特別高，只有1600多個(gè)。兩個(gè)數(shù)量相比，便可以知道中文語音轉(zhuǎn)換文字的難度有多高。極端情況下，可以參考“中國現(xiàn)代語言學(xué)之父”趙元任（1892.11.3—1982.2.24）當(dāng)年寫過的三首詩，《施氏食獅史》、《熙戲犀》和《季姬擊雞記》。其中一首于1930年在美國寫的《施氏食獅史》如下：

石室詩士施氏，嗜獅，誓食十獅。施氏時(shí)時(shí)適市視獅。十時(shí)，適十獅適市。是時(shí)，適施氏適市。施氏視是十獅，恃矢勢(shì)，使是十獅逝世。氏拾是十獅尸，適石室。石室濕，氏使侍拭石室。石室拭，氏始試食是十獅尸。食時(shí)，始識(shí)是十獅尸，實(shí)十石獅尸。試釋是事。

這段幾乎完全同音的文字，機(jī)器目前仍很難根據(jù)語音將其轉(zhuǎn)成有效文字的。如果通過目前正流行的知識(shí)圖譜來對(duì)重音字進(jìn)行輔助解釋，也許可以部分解決這一問題，對(duì)于打字不方便的人來說，是比較好的選擇。但對(duì)于熟悉打字的，引入知識(shí)圖譜這樣的操作會(huì)浪費(fèi)大量不必要的時(shí)間。尤其像上例這種情況，知識(shí)圖譜能做的是每個(gè)單字可能都需要做解釋，顯然還不如打字來得快。

而跨語種的翻譯，國內(nèi)外都在做，也有一些小型配套硬件被推出，但離同聲翻譯的距離還很遠(yuǎn)，因此它不僅僅是語音識(shí)別的問題，還涉及到更復(fù)雜的自然語言處理，以及廣泛的背景知識(shí)。

語音也可以用于人身份的識(shí)別。盡管不如識(shí)別人的外表如人臉那么形象直觀，但仍然是重要的生物認(rèn)證方式之一，在反電話詐騙也有潛在的應(yīng)用。語音與視頻結(jié)合還能實(shí)現(xiàn)計(jì)算機(jī)讀唇語，這一技術(shù)對(duì)于聽力有障礙且交流困難的人尤其是聾啞人將有所幫助。

三、歌唱識(shí)別

人類聽覺系統(tǒng)除了用于交流、識(shí)別和警示外，還進(jìn)化了一種可能只有人類才具有的高級(jí)智能，就是音樂，如獨(dú)唱合唱、樂器獨(dú)奏合奏等。其中，唱歌是最容易又是最難的“樂器”。因?yàn)殡S便誰都能唱，唱得好是“余音繞梁，三日不絕”，反之也可能會(huì)“嘔啞嘲哳難為聽”。與語音識(shí)別相比，歌唱的分析有更多的困難要克服，原因可以從兩個(gè)方面來解釋。

1、與說話的區(qū)別

人在說語時(shí)多以聲帶振動(dòng)來發(fā)聲，音調(diào)、頻率都在人最自然的發(fā)聲區(qū)，偶爾有些人會(huì)用腹式呼吸來增強(qiáng)聲音的厚度和減少聲帶的疲勞。即使情緒波動(dòng)會(huì)影響發(fā)聲，但一般變化也不會(huì)太大。

而唱歌則需要比較多的技巧，有著與說話顯著不同的特點(diǎn)。首先，唱歌的音域變化范圍很寬。比如俄羅斯男歌手維塔斯能從最低音到最高音唱跨四個(gè)八度，最高的聲音能跟開水壺?zé)_水發(fā)的聲音一樣高，非常的厲害。不過我也能，多啦米發(fā)嗦拉希多，重復(fù)五次，也有五個(gè)八度。其次，共鳴腔的運(yùn)用上唱歌和講話的區(qū)別也非常之大。比如唱歌時(shí)用的頭部共鳴，有從鼻腔和后腦勺位置發(fā)聲共鳴的區(qū)別，這兩者導(dǎo)致的音色差別很大。要根據(jù)歌曲風(fēng)格不同來取舍，老百姓常聽到的美聲唱法喜歡把頭腔共鳴置后。如果留意看歌星唱歌，有些人唱高音的時(shí)候會(huì)擠眉弄眼，鼻子皺了起來，那其實(shí)就是在找高音共鳴的位置。為了歌曲表達(dá)的厚度，光靠頭腔還不夠，因?yàn)闀?huì)比較單薄，還得利用胸腔共鳴加強(qiáng)中低音區(qū)的共鳴。如果想把音域再提高，還可以學(xué)習(xí)用咽音技巧來發(fā)聲。而低音比如呼麥的唱法則要把氣運(yùn)到聲帶附近振動(dòng)發(fā)聲。第三，氣息也是造成說話和唱歌區(qū)別變大的地方。歌曲中有些歌詞特別長，只用平時(shí)說話那種比較淺的胸式呼吸往往很難保持旋律的穩(wěn)定和連續(xù)性，所以需要借助胸腹式呼吸以及更復(fù)雜的換氣技巧；第四，不像說話一般是四平八穩(wěn)的，歌曲的節(jié)奏變化很豐富，一首歌里可能快慢緩急都會(huì)出現(xiàn)；第五，對(duì)歌詞的理解和情感的投入也會(huì)使唱歌與說話有顯著的差別；第六，連讀問題。中文歌詞相對(duì)好一些，但英文在唱歌中的連讀就多得多了。

關(guān)于唱歌和說話，人們可能還會(huì)有個(gè)錯(cuò)覺，以為口吃的人唱歌一定唱不好。但實(shí)際上這兩者屬于不同的發(fā)聲機(jī)制。說話是需要思考要講的內(nèi)容，并進(jìn)行語言組織，再說出來。而唱歌通常是歌曲的語調(diào)、語速和語氣都已經(jīng)給定，人需要做的是將這些內(nèi)容經(jīng)過反復(fù)練習(xí)后復(fù)述即可。所以，口吃的人可以，試著通過學(xué)習(xí)唱歌來找到流利發(fā)聲的自信。

唱歌和說話的這些區(qū)別，使得唱歌中的語音識(shí)別變得尤其困難，但因此也衍生了更多的與語音和智能相關(guān)的應(yīng)用。

2、如何評(píng)價(jià)歌曲的美

唱歌對(duì)多數(shù)人來說，是緩解心情的方式之一。聽到喜歡的歌，學(xué)來便唱了?？墒浅煤貌缓媚?？很多人并不太清楚，對(duì)自己的歌聲也比較“自信” ，我也是如此。另外，什么樣的歌才可以定義為好聽的歌曲呢？

音樂里面定義好聽與否，有個(gè)與頻率f相關(guān)的通用法則。這是日本著名物理學(xué)家武者利光于1965年在應(yīng)用物理學(xué)會(huì)雜志發(fā)表的文章“生物信息和1/f起伏”中提出的1/f波動(dòng)原則。波動(dòng)或起伏指在某個(gè)物理量在宏觀平均值附近的隨機(jī)變化，其原則在很多領(lǐng)域都適用。就音樂來說，1/f表明旋律在局部可以呈現(xiàn)無序狀態(tài)，而在宏觀上具有某種相關(guān)性的，可以讓人感到舒適和諧的波動(dòng)。如鄧麗君的《甜蜜蜜》、《小城故事》等就是符合1/f波動(dòng)原則的曲子，所以大家很喜歡聽。但這一理論只適用解釋比較舒緩的歌曲。對(duì)于其它形式的音樂風(fēng)格，如搖滾、說唱等，則是因?yàn)槠涮N(yùn)含的律動(dòng)能幫助人宣泄和抒發(fā)心情有關(guān) 。更有甚者，還有完全背離1/f波動(dòng)原則的歌曲，如甲殼蟲樂隊(duì)(The Beatle)主唱約翰·列儂老婆小野洋子(Yoko Ono)在紐約的現(xiàn)代藝術(shù)博物館演唱的、幾乎接近噪聲的實(shí)驗(yàn)歌曲《Fireworks》（原唱Katy Perry）。當(dāng)然，國內(nèi)也有類似的，有興趣的不妨聽聽左小祖咒的《六枝花》。

為幫助評(píng)估音樂是否好聽，科學(xué)家們還提出了一些心理聲學(xué)的定性和定量指標(biāo)，如基于粗糙度、尖銳度、波動(dòng)度和音調(diào)等聲學(xué)特征組合構(gòu)成的“煩惱度”和“感知愉悅度”等復(fù)合聲學(xué)指標(biāo)。但不管如何約定，聲音的感知仍是以個(gè)體的主觀感受為評(píng)價(jià)，公眾認(rèn)同的并不見得能用于刻畫小眾的審美觀點(diǎn) 。有人喜歡粗獷低沉的聲音，有人喜歡清澈如水的，有人喜歡嘹亮的，有人喜歡委婉的，有人喜歡稀奇古怪的，有人喜歡平鋪直敘，有人喜歡口水歌，有人喜歡陽春白雪。音樂風(fēng)格的多樣性和個(gè)性化色彩的濃郁，使得人工智能很難真正地形成統(tǒng)一的客觀標(biāo)準(zhǔn)來替代這一領(lǐng)域的工作。

3、歌曲/歌唱的相關(guān)應(yīng)用

雖然歌曲/歌唱的分析顯然比單純的語音識(shí)別復(fù)雜、難度高，但在人工智能領(lǐng)域還是有一些相關(guān)的應(yīng)用。這里列舉幾個(gè)比較有應(yīng)用價(jià)值的。一是歌曲哼唱識(shí)別，這是目前多數(shù)提供音樂的平臺(tái)有或者正在嘗試做的一項(xiàng)功能。其任務(wù)是要根據(jù)局部片段的旋律，來識(shí)別可能的曲子。難點(diǎn)在于，并非每個(gè)人都能準(zhǔn)確地把旋律哼出來。多數(shù)采用這種方式找曲子的，原因可能是不記得歌名，或者只是一段遙遠(yuǎn)的旋律記憶。其次，人的發(fā)音頻率、說話的清晰度和原唱都有一定的差異。所以，哼唱識(shí)別的任務(wù)是要從不精確的哼唱中找到有效的候選集。

除了哼唱，另一個(gè)重要的應(yīng)用是自動(dòng)調(diào)音。一是因?yàn)楹苌儆腥四芫哂薪^對(duì)音高的能力，即使經(jīng)過專業(yè)訓(xùn)練，仍然可能不穩(wěn)。二是多數(shù)人的音準(zhǔn)和穩(wěn)定性是存在問題的。而喜愛唱歌的人又多，所以，自動(dòng)調(diào)音對(duì)于專業(yè)歌手和業(yè)余愛好者都有很大的應(yīng)用市場。但由于音樂的風(fēng)格往往千變?nèi)f化，而且還要學(xué)習(xí)和增強(qiáng)每個(gè)人特有的辨識(shí)度和個(gè)性化音色，所以，利用人工智能技術(shù)構(gòu)造自動(dòng)調(diào)音師的難度顯而易見。

另外，音樂聲與人聲分離也是一個(gè)極其重要的研究方向。人類在這方面的能力非常強(qiáng)，可以在非常嘈雜的環(huán)境中輕松選擇自己關(guān)注的聲音來聆聽。1953年Cherry將人類聽覺注意引發(fā)的這一現(xiàn)象稱為雞尾酒會(huì)效應(yīng)(Cocktail Party Effect)。雖然這一問題提出了半個(gè)多世紀(jì)，人工智能要實(shí)現(xiàn)和人相近的辨識(shí)能力還很難。因?yàn)楂@取的音頻信號(hào)一般是經(jīng)過多個(gè)聲源混合而成的一維的音頻信號(hào)，但要分離出原來的多個(gè)信號(hào)源是一對(duì)多的病態(tài)問題。在人工智能領(lǐng)域通常會(huì)假定這些信息源是相互獨(dú)立的，且不符合之前提過的高斯分布，輸出結(jié)果為這些信息源的加權(quán)組合。信息源的分離，又稱為盲源分離，早先的做法是利用機(jī)器學(xué)習(xí)和模式識(shí)別領(lǐng)域的獨(dú)立分量分析(Independent Component Analysis)的技術(shù)或其改進(jìn)版來實(shí)現(xiàn)，但這一方法的不足是收斂速度慢，且難以獲得唯一解。最近深度學(xué)習(xí)在這一方向上也有了長足的進(jìn)步。如“谷歌研究”2018年八月在圖形學(xué)頂級(jí)期刊ACM ToG上公布的最新成果。作者Ephrat等將音視頻結(jié)合起來，分別對(duì)視頻和音頻采用兩個(gè)深度學(xué)習(xí)模型提取各自特征。融合特征后，再用一個(gè)考慮時(shí)間變化的長短時(shí)記憶深度模LSTM來刻畫音視頻的時(shí)序特性，最后為每個(gè)說話者都采用兩個(gè)不同的解碼系統(tǒng)來分離音頻和視頻。該模型達(dá)到了目前的最佳效果，離模擬人類的雞尾酒會(huì)效應(yīng)又進(jìn)了一步。但其仍存在一些不足，主要有兩點(diǎn)。一是需要借助視頻，所以，人臉必須出現(xiàn)在畫面里幫助定位聲音源，這與人在雞尾酒會(huì)上并不需要視覺的幫助來定位相比還是要弱不少。其次，該研究還沒有涉及歌聲和樂器聲分離這一類更難的問題。

圖3：(a) 輸入的視頻幀與音頻；(b) 處理思路：分別提取視頻、音頻特征，并執(zhí)行音視頻源分離；(c): 為每個(gè)說話者輸出干凈的音頻 [1]

當(dāng)然，基于人工智能的音樂分析還有很多其他有意思的應(yīng)用，如計(jì)算機(jī)作曲/寫歌詞、設(shè)計(jì)像洛天依一樣的唱歌機(jī)器人等等。但總體來看，人類作者寫出的歌詞、旋律的意境往往具有更好的整體性和更強(qiáng)的邏輯性，而計(jì)算機(jī)模擬的目前還只能做到局部逼近，在大局觀、整體情緒情感的把握上仍然任重道遠(yuǎn)，也許現(xiàn)階段考慮與人的混合智能處理是不錯(cuò)的嘗試。

那么，音樂中還有沒有其他比較有意思的錯(cuò)覺呢？下回書表！

參考文獻(xiàn)：

1. Ariel Ephrat, Inbar Mosseri, Oran Lang, Tali Dekel, Kevin Wilson, Avinatan Hassidim, William T. Freeman, Michael Rubinstein. Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation. ACM Trans. Graph. 37(4): 112:1-112:11, Aug, 2018. arXiv:1804.03619v2

張軍平

2018年10月22日

文章來源：張軍平

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：親斤彳正禾呈 > 《科創(chuàng)》

舉報(bào)/認(rèn)領(lǐng)