智能語音行業(yè)研究報告

panpan研報社 2017-06-12

展開全文

一、智能語音：談入口太早，但不可或缺

智能音箱是臺面上的狂歡，本質(zhì)還在用戶、數(shù)據(jù)和服務(wù)

自2014年11月Amazon推出收款基于語音交互的智能音箱Echo以來，2015年科大訊飛發(fā)布智能音箱叮咚，2016年谷歌發(fā)布智能音箱Google Home。

而進入2017年以后更是密集，5月聯(lián)想發(fā)布智能音箱，Amazon發(fā)布帶觸屏的Echo Show，微軟聯(lián)手音頻設(shè)備制造商哈曼.卡頓合作打造Invoke，6月蘋果發(fā)布HomePod。同時國內(nèi)BAT等互聯(lián)網(wǎng)巨頭也紛紛有意入局。

智能音箱本身不是目的，爭奪的是背后的用戶、數(shù)據(jù)以及服務(wù)入口。其實基于語音交互技術(shù)的入口產(chǎn)品可以是音箱、電視等家居產(chǎn)品，甚至可以是室內(nèi)可及的智能設(shè)備，之所以選擇音箱作為突破口，只不過看重這樣一款在初期能承擔(dān)除交互之外其他功能的載體。

對于用戶而言，需要的是能夠?qū)⒈姸喾彪s的應(yīng)用和接口進行封裝的工具，不再需要自己主動到每一個具體應(yīng)用上獲取服務(wù)，而是借助語音交互統(tǒng)一的入口提供。對于巨頭公司而言，目的在于借此獲得移動互聯(lián)網(wǎng)之后一個能夠獲取用戶數(shù)據(jù)并持續(xù)提供服務(wù)的入口。

單就智能音箱而言，交互體驗和連接的服務(wù)是影響用戶選擇的重要因素。拋開智能音箱的設(shè)定，其本質(zhì)是一款基于語音進行人機交互的智能硬件，在算法層面涉及到降噪、遠場識別、喚醒與打斷以及多輪會話、語義分析等自然語言理解技術(shù)，硬件層面主要涉及到進行聲音采集的麥克風(fēng)陣列技術(shù)以及聲音播放時揚聲器處理。軟硬件的協(xié)同配合方能使得人機交互更為自然。

如果說播放音樂是傳統(tǒng)音箱的主要功能，那么對于智能音箱而言，這已經(jīng)幾乎成為附帶選項，互相之間拼的不是、或者說不只是音質(zhì)問題，更多是人機交互的體驗，以及交互背后所能支撐和兼容的服務(wù)數(shù)量與質(zhì)量。無論是對接線上的互聯(lián)網(wǎng)服務(wù)，還是線下智能家居系列產(chǎn)品，若無法形成產(chǎn)品、應(yīng)用以及數(shù)據(jù)的生態(tài)閉環(huán)，則智能音箱的入口目標(biāo)就難以達成。

國內(nèi)智能音箱的慘淡銷量還與消費習(xí)慣相關(guān)，用戶培育需要時間。與Amazon Echo千萬量級銷量相比，國內(nèi)科大訊飛與京東聯(lián)合發(fā)布的叮咚音箱銷量似乎遜色不止一籌。除了在技術(shù)和應(yīng)用層面可能存在的差異之外，各自根植的土壤環(huán)境也有著先天的差異。

若去掉“智能”的概念，智能音箱首先是個音箱，與歐美超過85%的家庭音箱普及率相比，國內(nèi)甚至不足20%，在對音樂以及音箱設(shè)備的需求觀念上的差異導(dǎo)致音箱對歐美人群或許是“生活剛需”，而對國內(nèi)用戶或許目前還只是少部分人的愛好。正如前文所述，音箱只是恰好成為載體之一，最核心的依然是物聯(lián)網(wǎng)時代智能終端的人機交互入口。

信息獲取與表達決定語音交互成為階段性不可或缺的一環(huán)

互聯(lián)網(wǎng)PC時代人機交互主要依賴鼠標(biāo)和鍵盤，移動互聯(lián)網(wǎng)時代觸摸屏交互成為標(biāo)配，那么人工智能時代的交互會由哪種方式主宰？基于語音控制的智能音箱還是智能電視？

這些或許有可能成為智能家居入口，但即便Amazon Echo已然達到千萬級銷量及超過1萬項技能點，似乎也不足以成為人工智能時代交互入口的產(chǎn)品擔(dān)當(dāng)。

從信息獲取以及表達的角度來看，交互入口的演變必然是從習(xí)慣到本能的革命。從信息獲取來看，研究表明，人的各種感覺器官從外界獲取信息來源=視覺60% 聽覺20% 觸覺15% 味覺3% 嗅覺2%。

其中視覺、聽覺及觸覺累計高達95%，基于此或許就不難理解為何無論是互聯(lián)網(wǎng)時代的PC還是移動互聯(lián)網(wǎng)時代的智能機，不僅無法離開鍵鼠套裝和觸摸傳感器，而且還無法離開那塊或大或小的顯示屏。

從信息表達來看，1967年美國著名心理學(xué)家、傳播學(xué)家艾伯特梅拉比安等人經(jīng)過大量實驗，提出人類在溝通中全部的表達信息=肢體語言信息55% 聲音信息38% 語言信息7%，或許這也能在一定程度上解釋為何各家智能音箱先后登場卻依然未能挑起入口大梁。

我們認(rèn)為，從鍵鼠輸入的抽象符號到觸摸屏直接的滑動與按壓，這已經(jīng)在一定程度上靠近了人類習(xí)慣，而未來的交互方式將更為接近人的本能。

語音或許是人機交互的階段性成果，基于語音的人機交互或許會成為某個特定場景的入口，但語音與肢體動作的融合或許更可能擔(dān)當(dāng)?shù)闷鹨粋€時代的交互入口，至于更為遙遠的未來，或許會有類似腦電波等其他方式。

二、智能語音相關(guān)技術(shù)及發(fā)展歷史

智能語音主要研究人機之間語音信息的處理和反饋問題，從表現(xiàn)形式來看，即研究如何通過語音實現(xiàn)人機交互，相關(guān)支撐技術(shù)主要可劃分為基礎(chǔ)語音技術(shù)、智能化技術(shù)以及大數(shù)據(jù)技術(shù)。

語音識別準(zhǔn)確率在引入深度學(xué)習(xí)之后得到快速提升。語音目標(biāo)在于使機器最終能夠?qū)⒆R別語音中的內(nèi)容、說話人、語種等信息。在技術(shù)思路經(jīng)歷了基于標(biāo)準(zhǔn)模板匹配和基于統(tǒng)計模型(HMM）兩個階段；

2010年開始由微軟的俞棟、鄧力等與Hinton合作，在語音識別領(lǐng)域引入深度學(xué)習(xí)替換傳統(tǒng)的特征提取，隨著深度學(xué)習(xí)的引入以及在此基礎(chǔ)上派生的各類模型的組合，語音識別準(zhǔn)確率大幅提升。

2017年3月IBM通過長短時記憶、WaveNet語言模型和三個強聲學(xué)模型的組合，在Switchboard數(shù)據(jù)集上電話語音識別錯誤率降低到5.5%，無論是對比微軟2016年測試結(jié)果給出的人類速記員5.9%錯誤率還是此次IBM給出的人類5.1%，機器都已經(jīng)極為接近人類水平。

語音合成已有200多年悠久歷史，表現(xiàn)力尚有待繼續(xù)提升。在計算機技術(shù)出現(xiàn)之前主要模仿人體發(fā)聲原理制作相應(yīng)硬件，計算機技術(shù)出現(xiàn)后音質(zhì)、音色和自然度都有提升。隨著技術(shù)演進，語音合成的復(fù)雜度、自然度和音質(zhì)都已取得不錯的成績，目前研究重點在于提高合成音的表現(xiàn)力，如語氣和情感等。

聲紋識別目前也正向著深度學(xué)習(xí)方向發(fā)展，但不管是用傳統(tǒng)算法還是深度學(xué)習(xí)，都需要事先建立聲紋庫。

聲紋識別主要根據(jù)語音波形反饋的說話人生理和行為特征，自動識別說話人身份，在安全性上可與指紋、掌形和虹膜等生物識別技術(shù)相媲美，目前已經(jīng)用于公安和司法系統(tǒng)證據(jù)鑒定中的身份鑒別，以及銀行支付過程的身份認(rèn)證。

聲紋識別和語音識別結(jié)合，能通過識別內(nèi)容防止錄音假冒，和情緒識別結(jié)合，則可以感知識別對象是否處于受脅迫狀態(tài)。聲紋識別需要相應(yīng)的聲紋庫，且至少要保證合理的性別、年齡段、地域、口音、職業(yè)分布。

測試樣本應(yīng)該涵蓋文本內(nèi)容是否相關(guān)、采集設(shè)備、傳輸信道、環(huán)境噪音、錄音回放、聲音模仿、時間跨度、采樣時長、健康狀況和情感因素等主要影響因素，因而聲紋數(shù)據(jù)庫成為聲紋識別技術(shù)突破的重要門檻。目前最全的是公安部的聲紋鑒別庫。

自然語言理解目前尚處于淺層語義分析階段，大致包含詞法分析、句法分析、語義分析這三個既遞進又相互包含的層面。

目前機器對句子的理解還只能做到語義角色標(biāo)注層面，即標(biāo)出句中的句子成分和主被動關(guān)系等，屬于淺層語義分析技術(shù)。未來要讓機器更好地理解人類語言，并實現(xiàn)自然交互，還有待深度學(xué)習(xí)等機器學(xué)習(xí)方法的進步。

多輪對話，主要建立在語音識別、合成以及自然語言理解等技術(shù)基礎(chǔ)之上，自然度和準(zhǔn)確度有待提高。

多輪對話系統(tǒng)一般分為任務(wù)型和閑聊型，任務(wù)型是協(xié)助用戶完成具體的某項事情，如：設(shè)置鬧鐘、查天氣等；而閑聊型是實現(xiàn)人機的情感聊天互動，如陪護型機器人。多輪對話相比單輪對話方式提高了用戶交互的自然度和準(zhǔn)確度。

對話管理是實現(xiàn)多輪對話系統(tǒng)的核心，功能分為對話狀態(tài)追蹤(DST)和對話決策(Dialog Policy)，前者作用是更新對話狀態(tài)，記錄到目前為止用戶所有的聊天記錄和系統(tǒng)行為，后者依據(jù)DST對話狀態(tài)產(chǎn)生系統(tǒng)行為，即決定下一步反饋或調(diào)用等行為。

三、智能語音產(chǎn)業(yè)發(fā)展現(xiàn)狀

市場規(guī)模快速擴大，且國內(nèi)增速顯著超過全球

在移動互聯(lián)網(wǎng)、大數(shù)據(jù)、云計算、深度學(xué)習(xí)等技術(shù)的發(fā)展推動下，智能語音技術(shù)漸趨成熟，行業(yè)發(fā)展進入場景應(yīng)用布局階段。移動互聯(lián)網(wǎng)、智能家居、汽車、醫(yī)療、教育等領(lǐng)域的應(yīng)用帶動智能語音產(chǎn)業(yè)規(guī)模持續(xù)快速增長。

2015年全球智能語音市場規(guī)模達62.1億美元，同比增長34.2%。中國智能語音產(chǎn)業(yè)市場規(guī)模也逐步擴大，2015年40.3億元產(chǎn)業(yè)規(guī)模約占全球市場份額10%，且增速顯著高于全球市場，預(yù)計至2017年份額占比將提升到14%。

各要素齊發(fā)力，推動智能語音形成完整產(chǎn)業(yè)鏈

借用我們前序報告中提出的人工智能商業(yè)化應(yīng)用“人機料法環(huán)”模型，智能語音產(chǎn)業(yè)在人才儲備、計算設(shè)施、數(shù)據(jù)積累、技術(shù)算法以及應(yīng)用場景等五要素共同推動下已形成較為完整的產(chǎn)業(yè)鏈。

從產(chǎn)業(yè)鏈角度，智能語音行業(yè)可分為四個部分。基礎(chǔ)研究機構(gòu)：語音合成、語音識別、聲紋識別等基礎(chǔ)技術(shù)的研發(fā)和技術(shù)輸出；語音語義數(shù)據(jù)提供商：為算法研究或技術(shù)輸出機構(gòu)提供語音、語義數(shù)據(jù)庫以及定制化的數(shù)據(jù)采集和處理；

語音技術(shù)提供商：將基礎(chǔ)技術(shù)轉(zhuǎn)換為軟件或行業(yè)整體解決方案，提供嵌入式或平臺式的語音軟件服務(wù)、行業(yè)智能語音系統(tǒng)整體解決方案；

智能語音應(yīng)用提供商：智能移動設(shè)備、智能車載系統(tǒng)、智能家居等智能終端廠商，以及輸入法、娛樂等各類APP或軟件客戶端等，從產(chǎn)品屬性來看主要包括消費級產(chǎn)品和專業(yè)級行業(yè)應(yīng)用。

算法紅利逐漸消失，一家獨大轉(zhuǎn)向多方競爭

隨著深度學(xué)習(xí)的引入和發(fā)展，智能語音的算法紅利正逐漸消失。Nuance自2005年與ScanSoft合并后，成為全球最大的語音技術(shù)廠商，憑借自身先進的語音識別、自然語言理解技術(shù)以及優(yōu)秀的語音解決方案在2012年全球語音市場中占據(jù)62%，加上谷歌、微軟合計占據(jù)超過85%。

2010年深度學(xué)習(xí)首次引入語音識別，隨后配合計算能力的提升和海量語音語料數(shù)據(jù)的積累，識別準(zhǔn)確率得到大幅提升。盡管2015年Nuance全球市場份額仍居第一，但已大幅下降至31.6%，而谷歌、蘋果、微軟及科大訊飛市場份額增長較快，分別達到28.4%、15.4%、8.1%和4.5%。

科技巨頭對于深度學(xué)習(xí)算法及機器學(xué)習(xí)框架的開源使得智能語音技術(shù)的調(diào)用變得更為簡單，模塊化的設(shè)計使得應(yīng)用部署與實施門檻顯著降低。

目前中國智能語音市場被科大訊飛、百度和蘋果占據(jù)絕大多數(shù)市場份額，2015年三家合計達79%。其中，科大訊飛市場份額為44.2%，處于市場領(lǐng)先地位。百度進入勢頭強勁，市場份額增長快速。

美國權(quán)威雜志《麻省理工科技評論》公布的2016年十大突破技術(shù)，百度硅谷的Deep Speech2智能語音技術(shù)赫然在列。谷歌、微軟、蘋果、百度等互聯(lián)網(wǎng)巨頭在資金、數(shù)據(jù)和2C應(yīng)用用戶拓展三方面優(yōu)勢明顯，各方強勢介入將使得全球智能語音行業(yè)由一家獨大演變成多方參與競爭的格局。

技術(shù)驅(qū)動，場景應(yīng)用并借助數(shù)據(jù)形成正反饋，三者成為智能語音行業(yè)的主要壁壘。技術(shù)算法壁壘：隨著智能語音技術(shù)的發(fā)展,語音識別技術(shù)日益成熟，開源語音識別工具降低了語音識別的門檻，但使用過程的穩(wěn)定性仍有待解決。

語音識別技術(shù)進入突破量變到質(zhì)變的臨界點，相關(guān)技術(shù)和配套設(shè)施的研發(fā)能夠為企業(yè)筑起護城河，百度、搜狗、科大訊飛等公司安靜狀態(tài)下語音識別準(zhǔn)確率大都達到 97%,目前均在向更高準(zhǔn)確率以及非標(biāo)準(zhǔn)環(huán)境下的應(yīng)用發(fā)展。

應(yīng)用場景壁壘：2B應(yīng)用涉及金融、電信、醫(yī)療、交通等行業(yè)，這些行業(yè)對系統(tǒng)的穩(wěn)定性要求非常高，非常重視實際應(yīng)用案例情況,會通過嚴(yán)格的招投標(biāo)選擇最具實力和經(jīng)驗的智能語音技術(shù)和服務(wù)供應(yīng)商，一旦通過評測會保持穩(wěn)定合作，新企業(yè)進入壁壘較高；2C應(yīng)用層面互聯(lián)網(wǎng)巨大具有商業(yè)應(yīng)用和信息入口優(yōu)勢。

數(shù)據(jù)積累壁壘：智能語音在各場景應(yīng)用用戶體驗和客戶粘度提升的關(guān)鍵是積累真實環(huán)境下的各種語音資料和文本資料進行迭代優(yōu)化，智能語音應(yīng)用后形成數(shù)據(jù)閉環(huán)將不斷提升壁壘優(yōu)勢。

目前智能語音產(chǎn)業(yè)的參與者可以分為三大類型：從科研實驗室走出來的獨立語音技術(shù)研發(fā)和服務(wù)提供商，如源于斯坦福研究院STAR實驗室的Nuance、與中國科學(xué)技術(shù)大學(xué)合作的科大訊飛，圍繞智能語音技術(shù)研發(fā)到應(yīng)用各環(huán)節(jié)的初創(chuàng)企業(yè)。

如思必馳、云知聲、出門問問、聲智科技、三角獸、驀然等創(chuàng)業(yè)公司，希望搶占下一代人機交互入口的科技巨頭，如蘋果、谷歌、微軟、亞馬遜、百度、騰訊、搜狗等。

2010年開始，互聯(lián)網(wǎng)巨頭紛紛通過自主研發(fā)或者并購/參股的方式深入布局智能語音產(chǎn)業(yè)參股的方式深入布局智能語音產(chǎn)業(yè) 。在智能語音上的布局重點圍繞虛擬助手，并且為占據(jù)一定的市場先機，紛紛開始布局智能車載、智能家具、智能醫(yī)療、可穿戴設(shè)備等細(xì)分市場。

融合場景、借力硬件提升語音技術(shù)實用和穩(wěn)定性

由于語音信號的多樣性和復(fù)雜性，在真實使用場景中，考慮到空間距離、背景噪音、其他人聲干擾、回聲、方言、口音等問題，準(zhǔn)確率會大打折扣。提高現(xiàn)實場景中的用戶體驗是智能語音技術(shù)完成質(zhì)的突破的關(guān)鍵，涉及技術(shù)包括遠場語音識別、喚醒目標(biāo)檢測、全雙工交互、個性化識別技術(shù)等。

2016年10月intel與科大訊飛宣布合作共同研發(fā)AI芯片，將麥克風(fēng)陣列、遠場語音識別等功能集成到SOC當(dāng)中，形成完整的遠場語音交互鏈條。

目前近場、發(fā)音標(biāo)準(zhǔn)的語音識別已經(jīng)相當(dāng)成熟，手機端Siri即可視為這一類型，國內(nèi)科大訊飛、百度、搜狗等在近場、安靜環(huán)境下的語音識別準(zhǔn)確率都已提升到97%以上。

但對于遠場語音識別而言，雖然從技術(shù)原理上來看與近場幾乎相同，但由于音源和麥克風(fēng)之間的空間距離增大，聲音傳播過程會受到其他人聲、回聲等影響，在具體使用場景下準(zhǔn)確率依然對軟硬件都提高了技術(shù)要求。

四、智能語音的應(yīng)用前景

巨頭搶灘虛擬語音助手，并逐漸切入場景應(yīng)用

語音交互的特點是簡單、快速、解放雙手和眼睛，在很多場景能夠給用戶帶來巨大的體驗優(yōu)化。例如：避免繁瑣操作：手機眾多APP中直接用語音進入一個應(yīng)用。

很小或沒有屏幕：智能電視中用語音直接打開特定節(jié)目替代操作不便的遙控器、通過智能穿戴設(shè)備訪問互聯(lián)網(wǎng)。手眼無暇顧及：如開車過程、會議記錄。發(fā)掘語音數(shù)據(jù)的價值：如利用電子病歷語音數(shù)據(jù)輔助診療。

互聯(lián)網(wǎng)女皇Mary Meeker在《2016年互聯(lián)網(wǎng)趨勢》中指出，語音交互將成為人機交互的新范式。而事實上隨著智能語音技術(shù)的逐漸成熟以及自然語言理解的發(fā)展，語音已經(jīng)成為不同場景下人與智能設(shè)備之間交互的重要手段。

巨頭紛紛以虛擬語音助手切入智能語音應(yīng)用場景。由于物聯(lián)網(wǎng)涉及太多領(lǐng)域，跨平臺、跨設(shè)備、跨品牌等諸多因素制約產(chǎn)業(yè)發(fā)展，統(tǒng)一標(biāo)準(zhǔn)是物聯(lián)網(wǎng)行業(yè)發(fā)展的基礎(chǔ)，在此邏輯基礎(chǔ)上谷歌、微軟、亞馬遜等科技巨頭紛紛以智能虛擬助手作為切入口，打造開放平臺、以開源形式吸引開發(fā)者構(gòu)建應(yīng)用開發(fā)生態(tài)。

面向消費級產(chǎn)品和專業(yè)級行業(yè)應(yīng)用，虛擬數(shù)字助手用戶數(shù)與市場規(guī)?？焖僭鲩L。語音、語義等相關(guān)技術(shù)的可用性逐漸提高，帶來虛擬數(shù)字助手市場的擴張。從應(yīng)用方向和場景來看，主要用于消費級產(chǎn)品和專業(yè)級行業(yè)應(yīng)用。

消費級市場主要是2C或2B2C，應(yīng)用于衣食住行等生活場景，如手機、智能車載、智能家居、可穿戴設(shè)備等。專業(yè)級行業(yè)應(yīng)用主要是2B，應(yīng)用于特定場景，如醫(yī)療、教育、呼叫中心、庭審等各個行業(yè)。

根據(jù)Tractica的預(yù)測，活躍消費者虛擬助手用戶數(shù)量將從2015年3.9億上升至2021年18億，活躍企業(yè)虛擬助手用戶數(shù)量將從2015年1.55億上升至2021年8.43億。虛擬助手市場規(guī)模將從2015年16億美元增長至2021年158億美元。

消費級產(chǎn)品應(yīng)用場景

消費級市場智能虛擬助手的功能是基于語音交互實現(xiàn)設(shè)備控制、日程管理、信息查詢、生活服務(wù)、情感陪伴等。

一方面可以通過開放平臺接入第三方應(yīng)用和服務(wù)豐富智能虛擬助手的功能，目前手機虛擬助手正是通過連接各類APP征服終端，另一方面可植入智能硬件終端，向汽車、家居、可穿戴設(shè)備等產(chǎn)品延伸，建立消費級智能語音產(chǎn)品的生態(tài)體系。

智能語音車載

開車時雙手和雙眼被占用，語音交互成為該場景下最合適的交互方式。智能語音與汽車的結(jié)合主要為智能車載產(chǎn)品，通過語音完成導(dǎo)航、音樂搜索與播放、信息聽寫等。隨著車聯(lián)網(wǎng)的發(fā)展，未來將跟社交、娛樂、餐飲等服務(wù)進一步結(jié)合，在保證安全的前提下提升駕乘體驗。

騰訊汽車等相關(guān)調(diào)研機構(gòu)的數(shù)據(jù)顯示智能車載系統(tǒng)的迭代更新過程中，語音交互的作用和重要性已經(jīng)越來越得到車主的認(rèn)可。IMS Research預(yù)計到2019年全球?qū)⒂?5%的新車搭載智能語音系統(tǒng)。

在智能車載領(lǐng)域，Nuance、蘋果、谷歌、科大訊飛、百度等語音識別巨頭分別推出Dragon Drive車載語音開發(fā)平臺、CarPlay、AndroidAuto、汽車語點系統(tǒng)、CarLife等智能車載系統(tǒng)，并紛紛與汽車廠商達成合作，搶占智能車載新興市場。

智能語音家居

智能家居產(chǎn)業(yè)處于快速發(fā)展期，語音控制逐漸成為常見技能點。智能語音可以跟電視、音響、空調(diào)、窗簾、燈具、玩具等各種家用設(shè)備和智能家居控制中樞系統(tǒng)相結(jié)合，通過語音交互實現(xiàn)一個入口控制全部功能。

大數(shù)據(jù)及人工智能技術(shù)的推動、關(guān)鍵技術(shù)與部件成本的下降以及產(chǎn)業(yè)聯(lián)盟標(biāo)準(zhǔn)化協(xié)議的建立帶來智能家居市場規(guī)模的快速增長。Statista研究數(shù)據(jù)顯示，2016年全球智能家居市場規(guī)模已經(jīng)達到168億美元，其中中國市場占7%，預(yù)計到2021年全球智能家居市場規(guī)模將達到793億美元，中國市場份額上升至17%。

國外互聯(lián)網(wǎng)巨頭紛紛以智能家居產(chǎn)品與智能語音相結(jié)合的方式進入智能家居領(lǐng)域。蘋果于2014年推出HomeKit智能家居平臺，并與Siri不斷加強融合。

亞馬遜2014年推出的搭載Alexa的Echo智能音箱，通過語音可以實現(xiàn)播放音樂、新聞、網(wǎng)購下單、Uber叫車、定外賣等任務(wù)，根據(jù)CIRP、RBC Capital Market等公司的估計，自2014年發(fā)售以來，Echo系列產(chǎn)品累計銷售量接近一千萬臺，銷售額達到8-10 億美元。

2016年谷歌推出Google Home智能音箱，搭載Google Assistant虛擬助手，積極強化Google Assistant在智能家居領(lǐng)域的布局。從互聯(lián)網(wǎng)巨頭的布局可以看出智能語音與智能家居的融合是大勢所趨。

智能語音可穿戴設(shè)備

可穿戴設(shè)備受硬件形態(tài)的約束，語音交互方式相比觸摸交互方式具有顯著優(yōu)勢。智能語音技術(shù)的引入可將設(shè)備從智能手機上解放出來，創(chuàng)造獨立體驗。例如出門問問Ticwear內(nèi)置貼片式SIM芯片與3G通訊模塊，擁有獨立通訊號碼并可實現(xiàn)實時在線，支持包括語音撥號、短信、拍照，微信語音回復(fù)，語音搜索等功能在內(nèi)的全中文語音交互。

智能語音在可穿戴設(shè)備上的滲透促進可穿戴設(shè)備產(chǎn)業(yè)及智能語音應(yīng)用的增長。蘋果2016年發(fā)布無線耳機AirPods，能與蘋果手機上的Siri進行語音交互。

根據(jù)市場調(diào)研公司Slice Intelligence發(fā)布的美國無線耳機市場線上銷售情況報告，蘋果2016年發(fā)布的AirPods在上市銷售的一個月后迅速占據(jù)了無線耳機市場26%的市場份額。

根據(jù)前瞻產(chǎn)業(yè)研究院的預(yù)測，中國健身及運動類可穿戴設(shè)備市場規(guī)模將從2015年90億元左右增加至2021年244億元，年復(fù)合增長率達18%，智能語音在可穿戴設(shè)備上的滲透將促進智能語音產(chǎn)業(yè)規(guī)模快速增長。

專業(yè)級行業(yè)應(yīng)用場景

專業(yè)級市場虛擬助手適用于多種應(yīng)用場景，從實現(xiàn)功能來看主要形式有語音識別轉(zhuǎn)寫以及語音、語義內(nèi)容的分析，以醫(yī)療、教育和客服三個領(lǐng)域為例，語音技術(shù)與場景的深度融合將為技術(shù)壁壘構(gòu)建應(yīng)用端的護城河。

智能語音醫(yī)療

智能語音在醫(yī)療行業(yè)的應(yīng)用主要有三種：語音導(dǎo)診機器人；電子病歷語音錄入與轉(zhuǎn)寫、臨床報告語音錄入與轉(zhuǎn)寫。語音錄入大大提高醫(yī)生工作效率和工作質(zhì)量；患者能夠通過語音電子病歷系統(tǒng)下載打印，能夠擁有完整、清晰易懂的病歷；醫(yī)院可以科學(xué)管理診療過程和診療信息。

隨著語音病歷的積累，利用大數(shù)據(jù)技術(shù)和深度學(xué)習(xí)技術(shù)能夠挖掘醫(yī)學(xué)案例語音資料的價值，實現(xiàn)智能輔助診療。

Nuance是全球智能語音醫(yī)療解決方案的龍頭企業(yè)。Nuance的醫(yī)療解決方案已經(jīng)覆蓋了全美72%的醫(yī)療機構(gòu)，客戶遍及全球30多個國家，每年獲得3億多醫(yī)患交流數(shù)據(jù)。

每年為超過50萬名醫(yī)生、1萬個醫(yī)療機構(gòu)提供服務(wù)，醫(yī)療產(chǎn)品也實現(xiàn)了多樣化：臨床文檔改良（CDI）、臨床語音識別、實時聽寫、計算機輔助編碼、醫(yī)療質(zhì)量把控、移動云計算等。

國內(nèi)科大訊飛也積極布局醫(yī)療領(lǐng)域，2016年與北京大學(xué)口腔醫(yī)院口腔數(shù)字化醫(yī)療技術(shù)和材料國家工程實驗室共建基于語音的門診病歷采集系統(tǒng)正式進入試點，目前科大訊飛的智能語音系統(tǒng)已在北大口腔、瑞金醫(yī)院、301醫(yī)院等超過20家醫(yī)院落地使用。

智能語音教育

智能語音在教育上的應(yīng)用主要圍繞教育體系下“學(xué)、練、測、評 ”等核心需求，主要產(chǎn)品有智能語音訓(xùn)練與評測、互動教學(xué)等。

作為國內(nèi)智能語音在教育方面的應(yīng)用先行者，科大訊飛已經(jīng)將智能語音技術(shù)應(yīng)用在口語訓(xùn)練與考試、互動教學(xué)以及兒童早教智能硬件等產(chǎn)品，而基于語音基礎(chǔ)上拓展開的語義分析技術(shù)則開始逐漸應(yīng)用于主觀題評閱等環(huán)節(jié)。

智能語音客服

智能語音與客戶服務(wù)的結(jié)合能夠運用在金融、電信、交通、智能語音與客戶服務(wù)的結(jié)合能夠運用在金融、電信、交通、O2O、旅游等各個行業(yè)，主要形式有、旅游等各個行業(yè)，主要形式有智能問答、語音質(zhì)檢、語料挖掘、隱私保護。

相比傳統(tǒng)客戶服務(wù)，智能語音的引入能夠發(fā)揮三方面的作用：降低企業(yè)運營成本，智能客服有效減少客服坐席，減少培訓(xùn)成本，智能語音質(zhì)檢能夠提升質(zhì)檢效率，降低質(zhì)檢人力成本。

提高營銷能力，智能客服能夠?qū)崿F(xiàn)快速反應(yīng)、為重點和熱點問題提供快速統(tǒng)一答復(fù)，確保服務(wù)標(biāo)準(zhǔn)化24小時全天候在線為客戶提供問題解決方案，輔助商業(yè)決策。

語音識別全文轉(zhuǎn)寫能夠?qū)崿F(xiàn)全量客服質(zhì)檢，同時可以利用自然語言處理技術(shù)分析文本，挖掘客戶信息，輔助制定企業(yè)商業(yè)策略。充分尊重客戶隱私，隱藏客戶真實身份，防止人工客服對客戶的騷擾。

根據(jù)中國產(chǎn)業(yè)信息網(wǎng)的數(shù)據(jù)，2014年中國呼叫中心坐席總數(shù)達85萬個，呼叫中心座席規(guī)模近年來保持穩(wěn)定增長，隨著人口紅利的消失，企業(yè)對智能客服的需求會越來越強烈，智能語音在客服領(lǐng)域有較大的滲透空間。

智能語音在呼叫中心領(lǐng)域的應(yīng)用已較為廣泛，Nuance、科大訊飛、騰訊、阿里巴巴等都布局了相應(yīng)業(yè)務(wù)。

其中，科大訊飛提供的智能客服解決方案已成功應(yīng)用于電信、金融、電力、交通和教育等行業(yè)，在國內(nèi)主流行業(yè)市場占有率達到80%。主要客戶有中國移動10086、中國聯(lián)通10010、工商銀行、招商銀行、中信銀行、深圳發(fā)展銀行等。

欲了解相關(guān)報告可點下面鏈接：

“加微信好友AILI12308可以獲得更多專業(yè)報告”