京中有善口技者。會(huì)賓客大宴,于廳事之東北角,施八尺屏障,口技人坐屏障中,一桌、一椅、一扇、一撫尺而已。眾賓團(tuán)坐。少頃,但聞屏障中撫尺一下,滿坐寂然,無敢嘩者。 遙聞深巷中犬吠,便有婦人驚覺欠伸,其夫囈語。既而兒醒,大啼。夫亦醒。婦撫兒乳,兒含乳啼,婦拍而嗚之。又一大兒醒,絮絮不止。當(dāng)是時(shí),婦手拍兒聲,口中嗚聲,兒含乳啼聲,大兒初醒聲,夫叱大兒聲,一時(shí)齊發(fā),眾妙畢備。滿坐賓客無不伸頸,側(cè)目,微笑,默嘆,以為妙絕。 未幾,夫齁聲起,婦拍兒亦漸拍漸止。微聞?dòng)惺笞髯魉魉?,盆器傾側(cè),婦夢(mèng)中咳嗽。賓客意少舒,稍稍正坐。 忽一人大呼'火起',夫起大呼,婦亦起大呼。兩兒齊哭。俄而百千人大呼,百千兒哭,百千犬吠。中間力拉崩倒之聲,火爆聲,呼呼風(fēng)聲,百千齊作;又夾百千求救聲,曳屋許許聲,搶奪聲,潑水聲。凡所應(yīng)有,無所不有。雖人有百手,手有百指,不能指其一端;人有百口,口有百舌,不能名其一處也。于是賓客無不變色離席,奮袖出臂,兩股戰(zhàn)戰(zhàn),幾欲先走。 忽然撫尺一下,群響畢絕。撤屏視之,一人、一桌、一椅、一扇、一撫尺而已。 節(jié)選自《虞初新志》的《口技》,林嗣環(huán) (清) 圖1: 口技 聲音能刻畫得如此妙不可言,聽覺系統(tǒng)功不可沒。就人而言,聽覺系統(tǒng)由左右兩只耳朵構(gòu)成,一方面能幫助我們形成立體聽覺,有助于辯識(shí)聲音的位置,另一方面也方便我們?cè)诓幌猜牭侥呈聲r(shí),可以一只耳朵進(jìn),一只耳朵出。它是除了視覺以外,另一個(gè)可以幫助我們實(shí)現(xiàn)遠(yuǎn)距離以及視覺系統(tǒng)不可用時(shí)識(shí)別目標(biāo)的感知系統(tǒng)。比如《紅樓夢(mèng)》中描繪的“未見其人先聞其聲”,便是林黛玉進(jìn)賈府初見王熙鳳的情形,朗朗的笑聲瞬間就把王熙鳳的形象樹立了起來。另外,因?yàn)槿说囊曈X接受外界信號(hào)是以光的速度完成的,而接收聲音的速度則慢得多。所以,聽覺系統(tǒng)還能幫助糾正視覺上的錯(cuò)覺。比如,有些人會(huì)看上去是非常的閃亮、聰明,這一印象會(huì)一直維持到聽到他開口說話為止。于是,為了保證視覺與聽覺美感上的“一致”,不少短視頻APP提供了大量有特色的聲音母帶。這也是短視頻大受歡迎的原因之一。因?yàn)閷?duì)人類文明而言,聽覺系統(tǒng)促進(jìn)了智能體之間的交流和提升了精神生活的檔次。 圖2 耳朵結(jié)構(gòu)圖 要更具體地了解聽覺系統(tǒng),可參考圖2。它包括用于收集聲音的耳朵、用于聲音傳遞的外耳道、用于將聲音變?yōu)檎駝?dòng)頻率的耳膜、耳蝸內(nèi)用于將聲音轉(zhuǎn)為電脈沖的毛細(xì)胞、以及傳輸電脈沖的聽神經(jīng)和處理聲音的聽覺中樞。這里毛細(xì)胞是聽覺細(xì)胞,包括3500個(gè)內(nèi)毛細(xì)胞和12000個(gè)外毛細(xì)胞,以分別處理不同頻率的聲音。其中,低音部的毛細(xì)胞多,高音的相對(duì)較少。所以,對(duì)年紀(jì)大的人來說,首當(dāng)其沖損失的是高頻部分的聽力能力。 雖然人的聽覺系統(tǒng)中的毛細(xì)胞數(shù)量和布局,和人的視網(wǎng)膜有得一比。 但由于現(xiàn)有傳感器設(shè)備的限制, 機(jī)器在模仿時(shí)都將采集到的聲音最終簡化成一條曲線似的信號(hào)。好處是,多媒體研究最開始著手的方向,就是數(shù)字音頻處理。隨著計(jì)算機(jī)處理能力的增強(qiáng),才逐漸將研究重點(diǎn)轉(zhuǎn)移到具有二維結(jié)構(gòu)的數(shù)字圖像上來。在1995年至本世紀(jì)初期,曾經(jīng)有一段時(shí)間,計(jì)算機(jī)學(xué)科中一大半的研究生從事的研究方向都與數(shù)字圖像處理密切相關(guān)。說不定,未來等量子計(jì)算機(jī)研制成功,基本的計(jì)算基元從二進(jìn)制轉(zhuǎn)成連續(xù)值后,也許得考慮量子語音處理、量子圖像處理了。 撇開這段歷史不表,因?yàn)槁曇羰嵌嘣吹摹㈦S時(shí)間變化的,當(dāng)聲音壓縮變成一維的語音信號(hào)后,語音處理的難度便大了不少。 早期的語音處理研究是舉步維艱的。曾記得95年左右的微軟曾出過一版語音識(shí)別軟件,識(shí)別的性能遠(yuǎn)低于期望,很快就被市場淡忘。當(dāng)年在連續(xù)語音識(shí)別的主要方法,包括統(tǒng)計(jì)學(xué)領(lǐng)域60年代、后在70年代中期被挪到語音領(lǐng)域的隱馬爾可夫模型, 和多個(gè)高斯分布組合的多元混合高斯模型。其中,隱馬爾可夫模型假定了聲音時(shí)間序列的前后時(shí)刻具有相關(guān)性,即馬爾可夫過程。同時(shí),假定這些相關(guān)性由一組隱含的變量控制。將這些性質(zhì)構(gòu)成網(wǎng)絡(luò)后,便形成了隱馬爾可夫模型。盡管模型結(jié)構(gòu)有細(xì)微變化 ,但主體思想仍舊,曾在語音分析領(lǐng)域引領(lǐng)風(fēng)騷數(shù)十年。一直到近年來的深度學(xué)習(xí)的出現(xiàn),語音識(shí)別也由于預(yù)測性能的顯著提高而隨之走向全面實(shí)用化。 但實(shí)用化并不意味著聽覺系統(tǒng)就完全被了解清楚了,里面仍有許多不明的機(jī)理,如聽覺錯(cuò)覺。同時(shí),語音識(shí)別本身也還存在一些目前難以解決的問題。第三,人類在說話以外,還發(fā)展了音樂這樣獨(dú)一無二的能力,尤其是唱歌。理解唱歌,對(duì)于理解智能體本身也是有幫助的。本節(jié)中,我將從此三方面展開介紹。 一、聽覺錯(cuò)覺 聽覺系統(tǒng)和視覺系統(tǒng)一樣,雖然有效,但同樣存在不少有意思的錯(cuò)覺。這些錯(cuò)覺既有來自聽覺系統(tǒng)的,也有來自大腦生理或心理感受的,還有來自外部經(jīng)過特殊設(shè)計(jì)誘導(dǎo)的。 來自聽學(xué)系統(tǒng)的通常是功能性退化引起的。舉例來說,當(dāng)外界不存在聲源輸入時(shí),而人又能感受到聲音信息時(shí),就是聽覺系統(tǒng)本身出了問題,可大可小。比較常見的是耳鳴,一些神經(jīng)官能癥患者或神經(jīng)衰弱的人會(huì)比較容易出現(xiàn)這種問題。它產(chǎn)生的原因,一直是眾說紛紜,有認(rèn)為是大腦聽覺中樞存在問題所致,也有認(rèn)為與傳導(dǎo)聲音的神經(jīng)通道在無信號(hào)時(shí)的活動(dòng)有關(guān)。后一觀點(diǎn)里,比較有意思的一個(gè)研究成果是美國約翰-霍普金斯小組德懷特·彼格斯等最近做出的。他們?cè)诼犃€沒發(fā)育成熟的小鼠上進(jìn)行了實(shí)驗(yàn),發(fā)現(xiàn)耳鳴的發(fā)生可能與聽覺系統(tǒng)早期階段,非感覺性毛細(xì)胞,即支撐細(xì)胞有直接聯(lián)系。他們認(rèn)為,在聽覺系統(tǒng)未成熟前,這些支撐細(xì)胞會(huì)本能釋放ATP能量分子(腺苷三磷酸),形成電信號(hào)輸入大腦。這些電信號(hào)在發(fā)育初期聽起來就象是噪聲,可用于幫助聽覺系統(tǒng)盡早做好準(zhǔn)備。從我的感覺來看,這種準(zhǔn)備就像聽覺系統(tǒng)的自檢,和人晚上睡覺偶爾會(huì)蹬腿是為了自檢人是否還活著一個(gè)道理。而到長大以后,這種自檢偶爾還會(huì)被觸發(fā)。頻率發(fā)生過高的則有可能形成持續(xù)性耳鳴的疾病。所以,了解耳鳴的形成機(jī)理也許有助于理解人聽覺系統(tǒng)的早期發(fā)育。 除了這種耳鳴外,人甚至可以在不使用聽覺系統(tǒng)時(shí),也能感受到聲音。比如, 你沉思的時(shí)候,那個(gè)在你腦袋里說話的聲音,是誰發(fā)出的呢? 另一種錯(cuò)覺是人對(duì)聲音美感的感知。它包括說話聲和唱歌兩種錯(cuò)覺。 在日常生活中,說話人錯(cuò)覺更為常見。人們總是對(duì)自己的聲音比較滿意,直到聽到通過錄音方式播放出來的聲音后,才發(fā)現(xiàn)與自己以為聽到的還有點(diǎn)差距,有時(shí)會(huì)覺得錄音機(jī)里播出來的聲音會(huì)更難聽一些。其原因有兩個(gè),一是因?yàn)槿嗽诼犠约郝曇舻臅r(shí)候,聲音是通過顱骨傳至內(nèi)耳再進(jìn)入聽覺中樞的。而其他人聽到的聲音,與錄音機(jī)通過空氣介質(zhì)傳播獲得的相同。傳播媒介不同,自然會(huì)有些差異。另一個(gè)原因可能是人類會(huì)習(xí)慣把自己的聲音標(biāo)定得更美好一些。在2000年兩位心理學(xué)家Dunning和Kruger提出的、獲得了《搞笑諾貝爾心理學(xué)獎(jiǎng)》的達(dá)克效應(yīng)(Dunning-Kruger Effect)可以部分解釋這一現(xiàn)象。簡單來說,人容易沉靜在自我營造的虛幻優(yōu)勢(shì)之中,過高估計(jì)自己的能力,屬于一種認(rèn)知偏差。因此,人也會(huì)在大腦中自動(dòng)地美化自己的聲音。 拋去錯(cuò)覺不提,語音識(shí)別本身有許多細(xì)分和衍生的應(yīng)用值得研究。應(yīng)用面最寬的當(dāng)數(shù)語音轉(zhuǎn)換文字,可以是同一語種,也可以是跨語種。同語種的轉(zhuǎn)換,在深度學(xué)習(xí)出來后,性能確實(shí)有了一個(gè)質(zhì)的飛躍, 在識(shí)別性能和用于語音搜索方面都已經(jīng)不是90年代可比擬的了。不過,現(xiàn)階段的水平也并非完全能替代其它輸入設(shè)備,仍存在一些無法有效解讀的場景。以中文為例,漢字的數(shù)量超過8萬個(gè),常用的約3500個(gè),但漢字重音率特別高,只有1600多個(gè)。兩個(gè)數(shù)量相比,便可以知道中文語音轉(zhuǎn)換文字的難度有多高。極端情況下,可以參考“中國現(xiàn)代語言學(xué)之父”趙元任(1892.11.3—1982.2.24)當(dāng)年寫過的三首詩,《施氏食獅史》、《熙戲犀》和《季姬擊雞記》。其中一首于1930年在美國寫的《施氏食獅史》如下: 石室詩士施氏,嗜獅,誓食十獅。施氏時(shí)時(shí)適市視獅。十時(shí),適十獅適市。是時(shí),適施氏適市。施氏視是十獅,恃矢勢(shì),使是十獅逝世。氏拾是十獅尸,適石室。石室濕,氏使侍拭石室。石室拭,氏始試食是十獅尸。食時(shí),始識(shí)是十獅尸,實(shí)十石獅尸。試釋是事。 這段幾乎完全同音的文字,機(jī)器目前仍很難根據(jù)語音將其轉(zhuǎn)成有效文字的。如果通過目前正流行的知識(shí)圖譜來對(duì)重音字進(jìn)行輔助解釋,也許可以部分解決這一問題,對(duì)于打字不方便的人來說,是比較好的選擇。但對(duì)于熟悉打字的,引入知識(shí)圖譜這樣的操作會(huì)浪費(fèi)大量不必要的時(shí)間。尤其像上例這種情況,知識(shí)圖譜能做的是每個(gè)單字可能都需要做解釋,顯然還不如打字來得快 。 而跨語種的翻譯,國內(nèi)外都在做,也有一些小型配套硬件被推出,但離同聲翻譯的距離還很遠(yuǎn),因此它不僅僅是語音識(shí)別的問題,還涉及到更復(fù)雜的自然語言處理,以及廣泛的背景知識(shí)。 語音也可以用于人身份的識(shí)別。盡管不如識(shí)別人的外表如人臉那么形象直觀,但仍然是重要的生物認(rèn)證方式之一,在反電話詐騙也有潛在的應(yīng)用。語音與視頻結(jié)合還能實(shí)現(xiàn)計(jì)算機(jī)讀唇語,這一技術(shù)對(duì)于聽力有障礙且交流困難的人尤其是聾啞人將有所幫助。 三、歌唱識(shí)別 人類聽覺系統(tǒng)除了用于交流、識(shí)別和警示外,還進(jìn)化了一種可能只有人類才具有的高級(jí)智能,就是音樂,如獨(dú)唱合唱、樂器獨(dú)奏合奏等。其中,唱歌是最容易又是最難的“樂器”。因?yàn)殡S便誰都能唱,唱得好是“余音繞梁,三日不絕”,反之也可能會(huì)“嘔啞嘲哳難為聽”。與語音識(shí)別相比,歌唱的分析有更多的困難要克服,原因可以從兩個(gè)方面來解釋。 1、與說話的區(qū)別 人在說語時(shí)多以聲帶振動(dòng)來發(fā)聲,音調(diào)、頻率都在人最自然的發(fā)聲區(qū),偶爾有些人會(huì)用腹式呼吸來增強(qiáng)聲音的厚度和減少聲帶的疲勞。即使情緒波動(dòng)會(huì)影響發(fā)聲,但一般變化 也不會(huì)太大。 而唱歌則需要比較多的技巧,有著與說話顯著不同的特點(diǎn)。首先,唱歌的音域變化范圍很寬。比如俄羅斯男歌手維塔斯能從最低音到最高音唱跨四個(gè)八度,最高的聲音能跟開水壺?zé)_水發(fā)的聲音一樣高,非常的厲害。不過我也能,多啦米發(fā)嗦拉希多,重復(fù)五次,也有五個(gè)八度。其次,共鳴腔的運(yùn)用上唱歌和講話的區(qū)別也非常之大。比如唱歌時(shí)用的頭部共鳴,有從鼻腔和后腦勺位置發(fā)聲共鳴的區(qū)別,這兩者導(dǎo)致的音色差別很大。要根據(jù)歌曲風(fēng)格不同來取舍,老百姓常聽到的美聲唱法喜歡把頭腔共鳴置后。如果留意看歌星唱歌,有些人唱高音的時(shí)候會(huì)擠眉弄眼,鼻子皺了起來,那其實(shí)就是在找高音共鳴的位置。為了歌曲表達(dá)的厚度,光靠頭腔還不夠,因?yàn)闀?huì)比較單薄,還得利用胸腔共鳴加強(qiáng)中低音區(qū)的共鳴。如果想把音域再提高,還可以學(xué)習(xí)用咽音技巧來發(fā)聲。而低音比如呼麥的唱法則要把氣運(yùn)到聲帶附近振動(dòng)發(fā)聲。第三,氣息也是造成說話和唱歌區(qū)別變大的地方。歌曲中有些歌詞特別長,只用平時(shí)說話那種比較淺的胸式呼吸往往很難保持旋律的穩(wěn)定和連續(xù)性,所以需要借助胸腹式呼吸以及更復(fù)雜的換氣技巧;第四,不像說話一般是四平八穩(wěn)的,歌曲的節(jié)奏變化很豐富,一首歌里可能快慢緩急都會(huì)出現(xiàn);第五,對(duì)歌詞的理解和情感的投入也會(huì)使唱歌與說話有顯著的差別;第六,連讀問題。中文歌詞相對(duì)好一些,但英文在唱歌中的連讀就多得多了。 關(guān)于唱歌和說話,人們可能還會(huì)有個(gè)錯(cuò)覺,以為口吃的人唱歌一定唱不好。但實(shí)際上這兩者屬于不同的發(fā)聲機(jī)制。說話是需要思考要講的內(nèi)容,并進(jìn)行語言組織,再說出來。而唱歌通常是歌曲的語調(diào)、語速和語氣都已經(jīng)給定,人需要做的是將這些內(nèi)容經(jīng)過反復(fù)練習(xí)后復(fù)述即可。所以,口吃的人可以,試著通過學(xué)習(xí)唱歌來找到流利發(fā)聲的自信。 唱歌和說話的這些區(qū)別,使得唱歌中的語音識(shí)別變得尤其困難,但因此也衍生了更多的與語音和智能相關(guān)的應(yīng)用。 2、如何評(píng)價(jià)歌曲的美 唱歌對(duì)多數(shù)人來說,是緩解心情的方式之一。聽到喜歡的歌,學(xué)來便唱了??墒浅煤貌缓媚??很多人并不太清楚,對(duì)自己的歌聲也比較“自信” ,我也是如此 。另外, 什么樣的歌才可以定義為好聽的歌曲呢? 音樂里面定義好聽與否,有個(gè)與頻率f相關(guān)的通用法則。這是日本著名物理學(xué)家武者利光于1965年在應(yīng)用物理學(xué)會(huì)雜志發(fā)表的文章“生物信息和1/f起伏”中提出的1/f波動(dòng)原則。波動(dòng)或起伏指在某個(gè)物理量在宏觀平均值附近的隨機(jī)變化,其原則在很多領(lǐng)域都適用。就音樂來說,1/f表明旋律在局部可以呈現(xiàn)無序狀態(tài),而在宏觀上具有某種相關(guān)性的,可以讓人感到舒適和諧的波動(dòng)。如鄧麗君的《甜蜜蜜》、《小城故事》等就是符合1/f波動(dòng)原則的曲子,所以大家很喜歡聽。但這一理論只適用解釋比較舒緩的歌曲。對(duì)于其它形式的音樂風(fēng)格,如搖滾、說唱等,則是因?yàn)槠涮N(yùn)含的律動(dòng)能幫助人宣泄和抒發(fā)心情有關(guān) 。更有甚者,還有完全背離1/f波動(dòng)原則的歌曲,如甲殼蟲樂隊(duì)(The Beatle)主唱約翰·列儂老婆小野洋子(Yoko Ono)在紐約的現(xiàn)代藝術(shù)博物館演唱的、幾乎接近噪聲的實(shí)驗(yàn)歌曲《Fireworks》(原唱Katy Perry)。當(dāng)然,國內(nèi)也有類似的,有興趣的不妨聽聽左小祖咒的《六枝花》。 為幫助評(píng)估音樂是否好聽,科學(xué)家們還提出了一些心理聲學(xué)的定性和定量指標(biāo),如基于粗糙度、尖銳度、波動(dòng)度和音調(diào)等聲學(xué)特征組合構(gòu)成的“煩惱度”和“感知愉悅度”等復(fù)合聲學(xué)指標(biāo)。但不管如何約定,聲音的感知仍是以個(gè)體的主觀感受為評(píng)價(jià),公眾認(rèn)同的并不見得能用于刻畫小眾的審美觀點(diǎn) 。有人喜歡粗獷低沉的聲音,有人喜歡清澈如水的,有人喜歡嘹亮的,有人喜歡委婉的,有人喜歡稀奇古怪的,有人喜歡平鋪直敘,有人喜歡口水歌,有人喜歡陽春白雪。音樂風(fēng)格的多樣性和個(gè)性化色彩的濃郁,使得人工智能很難真正地形成統(tǒng)一的客觀標(biāo)準(zhǔn)來替代這一領(lǐng)域的工作。 3、歌曲/歌唱的相關(guān)應(yīng)用 雖然歌曲/歌唱的分析顯然比單純的語音識(shí)別復(fù)雜、難度高,但在人工智能領(lǐng)域還是有一些相關(guān)的應(yīng)用。這里列舉幾個(gè)比較有應(yīng)用價(jià)值的。一是歌曲哼唱識(shí)別,這是目前多數(shù)提供音樂的平臺(tái)有或者正在嘗試做的一項(xiàng)功能。其任務(wù)是要根據(jù)局部片段的旋律,來識(shí)別可能的曲子。難點(diǎn)在于,并非每個(gè)人都能準(zhǔn)確地把旋律哼出來。多數(shù)采用這種方式找曲子的,原因可能是不記得歌名,或者只是一段遙遠(yuǎn)的旋律記憶。其次,人的發(fā)音頻率、說話的清晰度和原唱都有一定的差異。所以,哼唱識(shí)別的任務(wù)是要從不精確的哼唱中找到有效的候選集。 除了哼唱,另一個(gè)重要的應(yīng)用是自動(dòng)調(diào)音。一是因?yàn)楹苌儆腥四芫哂薪^對(duì)音高的能力,即使經(jīng)過專業(yè)訓(xùn)練,仍然可能不穩(wěn)。二是多數(shù)人的音準(zhǔn)和穩(wěn)定性是存在問題的。而喜愛唱歌的人又多,所以,自動(dòng)調(diào)音對(duì)于專業(yè)歌手和業(yè)余愛好者都有很大的應(yīng)用市場。但由于音樂的風(fēng)格往往千變?nèi)f化,而且還要學(xué)習(xí)和增強(qiáng)每個(gè)人特有的辨識(shí)度和個(gè)性化音色,所以,利用人工智能技術(shù)構(gòu)造自動(dòng)調(diào)音師的難度顯而易見。 另外,音樂聲與人聲分離也是一個(gè)極其重要的研究方向。人類在這方面的能力非常強(qiáng),可以在非常嘈雜的環(huán)境中輕松選擇自己關(guān)注的聲音來聆聽。1953年Cherry將人類聽覺注意引發(fā)的這一現(xiàn)象稱為雞尾酒會(huì)效應(yīng)(Cocktail Party Effect)。雖然這一問題提出了半個(gè)多世紀(jì),人工智能要實(shí)現(xiàn)和人相近的辨識(shí)能力還很難。因?yàn)楂@取的音頻信號(hào)一般是經(jīng)過多個(gè)聲源混合而成的一維的音頻信號(hào),但要分離出原來的多個(gè)信號(hào)源是一對(duì)多的病態(tài)問題。在人工智能領(lǐng)域通常會(huì)假定這些信息源是相互獨(dú)立的,且不符合之前提過的高斯分布,輸出結(jié)果為這些信息源的加權(quán)組合。信息源的分離,又稱為盲源分離,早先的做法是利用機(jī)器學(xué)習(xí)和模式識(shí)別領(lǐng)域的獨(dú)立分量分析(Independent Component Analysis)的技術(shù)或其改進(jìn)版來實(shí)現(xiàn),但這一方法的不足是收斂速度慢,且難以獲得唯一解。最近深度學(xué)習(xí)在這一方向上也有了長足的進(jìn)步。如“谷歌研究”2018年八月在圖形學(xué)頂級(jí)期刊ACM ToG上公布的最新成果。作者Ephrat等將音視頻結(jié)合起來,分別對(duì)視頻和音頻采用兩個(gè)深度學(xué)習(xí)模型提取各自特征。融合特征后,再用一個(gè)考慮時(shí)間變化的長短時(shí)記憶深度模LSTM來刻畫音視頻的時(shí)序特性,最后為每個(gè)說話者都采用兩個(gè)不同的解碼系統(tǒng)來分離音頻和視頻。該模型達(dá)到了目前的最佳效果,離模擬人類的雞尾酒會(huì)效應(yīng)又進(jìn)了一步。但其仍存在一些不足,主要有兩點(diǎn)。一是需要借助視頻,所以,人臉必須出現(xiàn)在畫面里幫助定位聲音源,這與人在雞尾酒會(huì)上并不需要視覺的幫助來定位相比還是要弱不少。其次,該研究還沒有涉及歌聲和樂器聲分離這一類更難的問題。 圖3:(a) 輸入的視頻幀與音頻;(b) 處理思路:分別提取視頻、音頻特征,并執(zhí)行音視頻源分離;(c): 為每個(gè)說話者輸出干凈的音頻 [1] 當(dāng)然,基于人工智能的音樂分析還有很多其他有意思的應(yīng)用,如計(jì)算機(jī)作曲/寫歌詞、設(shè)計(jì)像洛天依一樣的唱歌機(jī)器人等等。但總體來看,人類作者寫出的歌詞、旋律的意境往往具有更好的整體性和更強(qiáng)的邏輯性,而計(jì)算機(jī)模擬的目前還只能做到局部逼近,在大局觀、整體情緒情感的把握上仍然任重道遠(yuǎn),也許現(xiàn)階段考慮與人的混合智能處理是不錯(cuò)的嘗試。 那么,音樂中還有沒有其他比較有意思的錯(cuò)覺呢?下回書表! 參考文獻(xiàn): 1. Ariel Ephrat, Inbar Mosseri, Oran Lang, Tali Dekel, Kevin Wilson, Avinatan Hassidim, William T. Freeman, Michael Rubinstein. Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation. ACM Trans. Graph. 37(4): 112:1-112:11, Aug, 2018. arXiv:1804.03619v2 張軍平 2018年10月22日 文章來源:張軍平 |
|