上個(gè)世紀(jì)七八十年代,麥克風(fēng)陣列技術(shù)已經(jīng)開始應(yīng)用到語(yǔ)音技術(shù)的研究中,2000年左右,業(yè)界開始慢慢深入,進(jìn)行基于麥克風(fēng)陣列相關(guān)算法的專題研究。到了物聯(lián)網(wǎng)時(shí)代,市場(chǎng)的刺激和產(chǎn)品的需求,極大的推動(dòng)了相關(guān)的技術(shù)進(jìn)展,尤其是2014年亞馬遜echo的正式發(fā)布,這一領(lǐng)先性的語(yǔ)音技術(shù)迅速進(jìn)入到民用級(jí)產(chǎn)品的應(yīng)用范疇中。 一般來(lái)說(shuō),人耳能聽到的聲音頻率在20~20000赫茲之間,而很有意思的是,聽覺其實(shí)是一種預(yù)警機(jī)制,除了聽到聲音,更重要的是具備分辨聲源方向的能力,屏蔽主赫茲以外的聲音更是為了對(duì)人體起到一定的保護(hù)作用,為有效交流提供保證(否則整個(gè)世界就真的太吵了)。那么,相似地,麥克風(fēng)陣列,其實(shí)就相當(dāng)于機(jī)器之耳,不僅只是為了采集音頻,識(shí)別信號(hào),傳輸信息,還為了更好的聲源定位和噪音降解,雜音屏蔽等。 思必馳于2015年年底推出了環(huán)形6+1遠(yuǎn)場(chǎng)麥克風(fēng)陣列,也是目前國(guó)內(nèi)唯一一款6+1環(huán)麥,亞馬遜echo核心功能的“中國(guó)版”技術(shù)。目前被廣泛運(yùn)用在機(jī)器人和音箱等智能家居產(chǎn)品中。那么這款環(huán)麥具體有什么樣的功能和優(yōu)勢(shì)? 麥克風(fēng)陣列能解決的問題 【語(yǔ)音增強(qiáng)】解決噪聲環(huán)境下的識(shí)別 噪聲環(huán)境是影響語(yǔ)音識(shí)別的一個(gè)重要因素,普通家居環(huán)境下的噪音有混響、回聲、背景噪音、人聲干擾等多種類型。不同步的語(yǔ)音相互疊加產(chǎn)生音素的交疊掩蔽效應(yīng),嚴(yán)重影響語(yǔ)音識(shí)別的效果。解決該問題需要從抑制噪聲和語(yǔ)音增強(qiáng)兩方面入手。思必馳環(huán)形6+1遠(yuǎn)場(chǎng)麥克風(fēng)陣列利用拾音波束成形,采用獨(dú)特算法,有效抑制波束之外的噪聲,同時(shí)融合語(yǔ)音信號(hào)的空時(shí)信息,從含噪聲的語(yǔ)音信號(hào)中提取出純凈語(yǔ)音,有效地增強(qiáng)說(shuō)話人語(yǔ)音。 【聲源定位】輔助多功能聯(lián)動(dòng) 對(duì)麥克風(fēng)拾音來(lái)講,聲源的位置的不確定性為語(yǔ)音交互帶來(lái)了阻礙。思必馳環(huán)形6+1遠(yuǎn)場(chǎng)麥克風(fēng)陣列實(shí)現(xiàn)360°環(huán)形拾音,多麥克定向,準(zhǔn)確計(jì)算目標(biāo)說(shuō)話人的角度和距離,實(shí)現(xiàn)對(duì)目標(biāo)說(shuō)話人的跟蹤以及后續(xù)的語(yǔ)音定向拾取,精準(zhǔn)度控制在±10°以內(nèi),成為智能語(yǔ)音交互中捕捉說(shuō)話人語(yǔ)音的重要方式。聲源定位功能不限制說(shuō)話人運(yùn)動(dòng),不需要移位操作,這增強(qiáng)了產(chǎn)品設(shè)計(jì)的靈活性和功能的多樣性,可有效地實(shí)現(xiàn)對(duì)產(chǎn)品的多功能輔助作用。 【遠(yuǎn)場(chǎng)交互】打破遠(yuǎn)距離溝通障礙 語(yǔ)音會(huì)隨著傳播距離衰減,傳播距離越遠(yuǎn),背景噪聲和干擾所占比例就越大,同時(shí)混響也越嚴(yán)重,這對(duì)語(yǔ)音的遠(yuǎn)場(chǎng)識(shí)別及交互提出了較高要求。思必馳環(huán)形6+1遠(yuǎn)場(chǎng)麥克風(fēng)陣列在前端充分利用其空域?yàn)V波特性,抑制拾音波束外的回聲、混響等噪聲,進(jìn)行語(yǔ)音增強(qiáng)處理,輔之以語(yǔ)音識(shí)別引擎的二次處理,實(shí)現(xiàn)優(yōu)質(zhì)的遠(yuǎn)場(chǎng)識(shí)別交互。思必馳已實(shí)現(xiàn)了國(guó)內(nèi)領(lǐng)先的5米遠(yuǎn)場(chǎng)交互,5米識(shí)別率達(dá)92%,3米識(shí)別率達(dá)94%,1米識(shí)別率達(dá)96%以上,遠(yuǎn)場(chǎng)識(shí)別媲美近講。 【打斷糾錯(cuò)】針對(duì)錯(cuò)誤識(shí)別的解決辦法 語(yǔ)音系統(tǒng)的認(rèn)知能力是智能語(yǔ)音不容回避的問題,用戶需求決定了要識(shí)別錯(cuò)誤、糾正打斷,認(rèn)知型語(yǔ)音技術(shù)成為語(yǔ)音交互的必然趨勢(shì)。思必馳環(huán)形6+1遠(yuǎn)場(chǎng)麥克風(fēng)陣列融入了自適應(yīng)、理解糾錯(cuò)、智能反饋等認(rèn)知技術(shù),重新提取大數(shù)據(jù)因素,并進(jìn)行二次計(jì)算,實(shí)現(xiàn)智能糾正打斷,能夠適應(yīng)更多的應(yīng)用環(huán)境,具有進(jìn)化調(diào)整功能,從而在人機(jī)交互的過程中,使機(jī)器更“聽話”。 【多輪對(duì)話】應(yīng)對(duì)用戶的復(fù)雜需求指令 復(fù)雜任務(wù)的處理要求人機(jī)能夠進(jìn)行多輪對(duì)話,要求機(jī)器能夠基于上下文的任務(wù)關(guān)系,進(jìn)行任務(wù)切換和指代消減。就此,思必馳推出了“對(duì)話管理” 技術(shù),并成功應(yīng)用于環(huán)形6+1遠(yuǎn)場(chǎng)麥克風(fēng)陣列?;趯?duì)話邏輯,允許人機(jī)進(jìn)行多輪語(yǔ)音互動(dòng),讓機(jī)器理解用戶的深層意圖并提供反饋。而機(jī)器可以通過深度學(xué)習(xí),可以根據(jù)上下文語(yǔ)境準(zhǔn)確追蹤用戶意圖,并隨著數(shù)據(jù)的積累而越發(fā)靈活精準(zhǔn)。深諳語(yǔ)音交互之道的多輪對(duì)話,使人機(jī)交互更自然流暢。 【后端服務(wù)】實(shí)際場(chǎng)景下的功能需求 語(yǔ)音技術(shù)的應(yīng)用場(chǎng)景、功能設(shè)計(jì)千差萬(wàn)別,保證用戶體驗(yàn)的首要標(biāo)準(zhǔn)是滿足用戶的功能需求。當(dāng)前智能硬件更多的是在生活場(chǎng)景中的應(yīng)用,需要提供周邊、資訊、音樂、訂餐、訂票、導(dǎo)航等生活服務(wù),自然語(yǔ)言僅是人機(jī)交互的入口,而后端的內(nèi)容和服務(wù)才是真正的交互對(duì)象。目前思必馳“環(huán)形6+1遠(yuǎn)場(chǎng)麥克風(fēng)陣列”解決方案整合了高德地圖、酷我音樂、蝦米音樂、喜馬拉雅電臺(tái)、考拉電臺(tái)、大眾點(diǎn)評(píng)等生活服務(wù)方面的諸多關(guān)鍵資源,致力將智能語(yǔ)音服務(wù)整合成一體化產(chǎn)品,打造體驗(yàn)閉環(huán),形成完整的生態(tài)鏈。 思必馳麥克風(fēng)陣列的應(yīng)用領(lǐng)域 當(dāng)前思必馳“環(huán)形6+1遠(yuǎn)場(chǎng)麥克風(fēng)陣列”解決方案主要應(yīng)用于以下幾個(gè)領(lǐng)域: 1. 機(jī)器人 思必馳針對(duì)智能機(jī)器人業(yè)務(wù)提供“環(huán)形6+1遠(yuǎn)場(chǎng)麥克風(fēng)陣列”軟硬一體化解決方案,使機(jī)器人反應(yīng)靈敏,能說(shuō)會(huì)道,聞聲識(shí)路。在一般家居環(huán)境下,能夠隨時(shí)隨地捕捉用戶聲音倩影,自由對(duì)話。你無(wú)聊,我陪你閑聊;你搜索,我提供資源;你呼喚我,我聞聲而來(lái);我做錯(cuò)了,由你糾正打斷。思必馳智能語(yǔ)音實(shí)現(xiàn)更人性化的人機(jī)交互。 2. WiFi音箱 “環(huán)形6+1遠(yuǎn)場(chǎng)麥克風(fēng)陣列”使音箱不僅只屬于音樂,也屬于生活。想聽歌,隨時(shí)語(yǔ)音操控;想安靜,任你打斷關(guān)閉;生活周邊,吃喝玩樂,你問我答,貼心的樂活專家;行程安排,路線訂票,你下令,我執(zhí)行,專業(yè)的資訊助手…..小小音箱不再僅僅是音樂播放器,思必馳交互語(yǔ)音讓它成為了生活工作的小能手。 3. 智能中控系統(tǒng) 傳統(tǒng)家居中控采用按鍵或觸控的方式,但思必馳“環(huán)形6+1遠(yuǎn)場(chǎng)麥克風(fēng)陣列”使智能中控系統(tǒng)更便捷精準(zhǔn)。比如支持智能語(yǔ)音系統(tǒng)的路由器,可通過智能語(yǔ)音操控幫助用戶管理家中的各個(gè)聯(lián)網(wǎng)設(shè)備。聯(lián)網(wǎng)設(shè)備的分散性及位置的不確定性強(qiáng)調(diào)了拾音角度和拾音范圍的隨意性,思必馳“環(huán)形6+1遠(yuǎn)場(chǎng)麥克風(fēng)陣列”可有效解決這一問題,使中控更加精準(zhǔn)有效。 4. 智能電視(“4麥線性麥克風(fēng)陣列”解決方案) 就電視類的家居產(chǎn)品而言,“4麥線性麥克風(fēng)陣列”解決方案更為適宜。此類家居具有位置相對(duì)固定的特點(diǎn),環(huán)形360°麥克風(fēng)解決方案稍顯不合理,而線性180°麥克風(fēng)解決方案完全可滿足用戶需求,性價(jià)比更高?!?麥線性麥克風(fēng)陣列”解決方案亦可實(shí)現(xiàn)5米遠(yuǎn)場(chǎng)識(shí)別,識(shí)別率達(dá)92%以上,同時(shí)為用戶提供云端豐富的第三方內(nèi)容。在電視行業(yè)向智能家居轉(zhuǎn)型的過程中,智能語(yǔ)音大亮鮮招,思必馳“4麥線性麥克風(fēng)陣列”解決方案實(shí)現(xiàn)更快的語(yǔ)音控制,更自由的語(yǔ)音搜索,更高效的語(yǔ)音交互及更豐富的內(nèi)容服務(wù),扔掉遙控器,拋棄終端APP,一語(yǔ)控制,隨心所欲,家居操控更便捷。 Echo與環(huán)形6+1麥克風(fēng)陣列 談到環(huán)形麥克風(fēng)技術(shù)的市場(chǎng)應(yīng)用,亞馬遜Echo音箱無(wú)疑成為國(guó)際市場(chǎng)典范,以消費(fèi)級(jí)電子產(chǎn)品來(lái)衡量,Echo表現(xiàn)出色,能迅速360°全方位識(shí)別語(yǔ)音并做出反應(yīng),準(zhǔn)確進(jìn)行聲源定位,結(jié)合豐富的后端資源,支持多樣功能。 該產(chǎn)品技術(shù)理念與思必馳“環(huán)形6+1遠(yuǎn)場(chǎng)麥克風(fēng)陣列”解決方案可謂是不謀而合,極為相近但卻又不盡相同。Echo是成熟的市場(chǎng)產(chǎn)品,主要采用英文進(jìn)行語(yǔ)音交互;思必馳“環(huán)形6+1遠(yuǎn)場(chǎng)麥克風(fēng)陣列”是智能語(yǔ)音解決方案,專注國(guó)內(nèi)中文市場(chǎng)。前者對(duì)后者的市場(chǎng)應(yīng)用有較大的借鑒意義,思必馳環(huán)麥技術(shù)專注智能硬件領(lǐng)域,不僅僅局限于音箱,還包括機(jī)器人、家居中控等等,環(huán)麥技術(shù)的應(yīng)用領(lǐng)域?qū)⑦M(jìn)一步拓寬。 打造中國(guó)版的Echo 如今,人工智能技術(shù)日新月異,智能產(chǎn)品應(yīng)用領(lǐng)域飛速拓展,優(yōu)質(zhì)智能家居產(chǎn)品終將突破Echo類的音箱型產(chǎn)品,電視、機(jī)器人、個(gè)人網(wǎng)關(guān)等高頻使用的產(chǎn)品形態(tài)均具備較大市場(chǎng)潛力。思必馳“環(huán)形6+1遠(yuǎn)場(chǎng)麥克風(fēng)陣列”解決方案將先進(jìn)的語(yǔ)音交互技術(shù)與豐富的后端資源相結(jié)合,突破音箱類產(chǎn)品形態(tài),為更多優(yōu)秀的智能硬件產(chǎn)品提供語(yǔ)音操作及交互服務(wù)。在可以預(yù)見的未來(lái),智能語(yǔ)音將作為有效媒介傳遞價(jià)值,思必馳將借助“環(huán)形6+1遠(yuǎn)場(chǎng)麥克風(fēng)陣列”解決方案,致力于打造中國(guó)版Echo。 |
|
來(lái)自: llvsh > 《聲控系統(tǒng)》