一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

干貨 | 騰訊云智能語音行業(yè)落地探索與實(shí)踐

 海峰w2fvi8979f 2019-02-27

作者簡介

 

倪捷,騰訊云高級(jí)產(chǎn)品經(jīng)理。北京郵電大學(xué)碩士?,F(xiàn)在騰訊云大數(shù)據(jù)與人工智能產(chǎn)品中心AI應(yīng)用產(chǎn)品組擔(dān)任高級(jí)產(chǎn)品經(jīng)理,負(fù)責(zé)智能語音相關(guān)AI產(chǎn)品,擁有互聯(lián)網(wǎng)、金融等行業(yè)人工智能落地的豐富經(jīng)驗(yàn)。本文來自倪捷在“2018攜程技術(shù)峰會(huì)”上的分享。

 

本文梳理了智能語音技術(shù)發(fā)展路線,行業(yè)現(xiàn)狀以及其面臨的挑戰(zhàn)等相關(guān)情況,并詳細(xì)闡述了語音技術(shù)的常見落地場景以及相應(yīng)的一些優(yōu)化。同時(shí),分享了騰訊云智能語音落地案例,為語音技術(shù)的實(shí)踐使用提供借鑒,來共同推動(dòng)語音技術(shù)的交流和發(fā)展。


一、語音識(shí)別基礎(chǔ)原理(ASR)


圖1 語音識(shí)別基礎(chǔ)原理示意圖


語音識(shí)別技術(shù)原理如圖1所示:首先需要利用相關(guān)技術(shù)對聲音進(jìn)行特征提取并建立聲學(xué)模型,然后結(jié)合詞典,語言模型等方法,在一定的搜索空間內(nèi)進(jìn)行搜索和解碼最終得到結(jié)果。


1.1 業(yè)界語音識(shí)別水平及面臨的挑戰(zhàn)


現(xiàn)有業(yè)界的語音識(shí)別技術(shù)在理想條件下普遍能達(dá)到97%,這個(gè)理想條件包含背景安靜,近場,普通話標(biāo)準(zhǔn),朗讀等條件。但是現(xiàn)實(shí)中往往會(huì)面臨對識(shí)別器的效果產(chǎn)生惡化影響的情況,如,發(fā)音人的口語化嚴(yán)重,輕度口音,在這種程度較輕的情況下,業(yè)界依然能夠保持85%-90%的識(shí)別正確率。


進(jìn)一步,如果語音背景嘈雜,發(fā)音人遠(yuǎn)離拾音器或者存在嚴(yán)重的口音疊加,這種情況下,識(shí)別率會(huì)有明顯的下降。


總結(jié)語音識(shí)別面臨的挑戰(zhàn),如下列所示:


  • 噪聲影響:例如車載環(huán)境下會(huì)有回聲以及各種噪聲源。

  • 遠(yuǎn)場識(shí)別:麥克風(fēng)和聲源距離過遠(yuǎn)時(shí)收音識(shí)別效果較差。

  • 專業(yè)領(lǐng)域識(shí)別:導(dǎo)航、辦公、旅游、美食等不同場景有語言模型。

  • 方言口音:全球有上千種語言,中國的方言種類也非常多。

  • 口語化:不同情緒下語速、聲調(diào)不同,吞字、結(jié)巴會(huì)造成音頻質(zhì)量參差不齊。

  • 高質(zhì)量收音:在多人、聲音嘈雜的場景下,如何“聽清楚”。


二、語音合成(TTS)


語音合成在早些時(shí)候并不熱門,但是隨著技術(shù)的成熟和依賴高質(zhì)量溝通體驗(yàn)的人機(jī)溝通的發(fā)展又逐漸熱門起來。另外,現(xiàn)在業(yè)內(nèi)很多推銷及客服電話已經(jīng)實(shí)現(xiàn)機(jī)器人打電話的過程甚至溝通能力,在這種情況下需要高質(zhì)量的語音合成技術(shù)來有效降低用戶直接掛斷電話的概率。


語音合成可以簡單理解為,將文字轉(zhuǎn)化為擬人化的聲音,滿足多種場景對不同聲音的需求,完成人機(jī)語音交互的閉環(huán)的過程。


當(dāng)前業(yè)內(nèi)最熱門的技術(shù)是Google主導(dǎo)開發(fā)的WaveNet引擎,其對應(yīng)MOS值達(dá)到了4.5+,而真人錄音的MOS值在4.4+左右,幾乎可以以假亂真。


2.1 語音合成面臨的挑戰(zhàn)


同語音識(shí)別一樣,語音合成也面臨很多的挑戰(zhàn)。聲音也要具備多適應(yīng)的特點(diǎn),在不同的場景需要不同的聲音以及用戶提出的語音定制化的要求,這些需求對語音合成技術(shù)提出下列所示的挑戰(zhàn):


  • 語音定制化:聲音也是品牌的代表,追求品牌的公司不愿意共享聲音

  • 錄音時(shí)長:合成要求一定量的高質(zhì)量錄音,會(huì)帶來錄音時(shí)間及其它成本

  • 聲音的適應(yīng)性:有的聲音適合讀物朗讀,有的聲音適合做語音助手

  • 多音字,特殊讀法

  • 擬真度:發(fā)音準(zhǔn)確性,流暢度,抑揚(yáng)頓挫等一系列因素決定合成效果與真人差距

  • 主觀性:對聲音好壞的判斷有一定個(gè)人主觀性,難有客觀的標(biāo)準(zhǔn)


三、典型落地場景下語音技術(shù)的優(yōu)化


3.1 語音輸入法


語音輸入法最早是內(nèi)嵌到手機(jī)中的,通常是手機(jī)廠商像Google,蘋果,三星等這些公司主導(dǎo)在做,后續(xù)才逐漸出現(xiàn)在輸入法軟件,如訊飛,百度,搜狗等。


用戶在實(shí)用場景或者APP中,通用語音輸入法一方面由于需要切換才能進(jìn)行相關(guān)操作,缺乏靈活性,另外一方面無法根據(jù)場景或者APP進(jìn)行定制化,如場景熱詞的定制。因此,現(xiàn)有語音輸入法的發(fā)展趨勢為從輸入法軟件向APP內(nèi)部遷移,如王者榮耀中的語音輸入文字交互的場景。


3.2 錄音轉(zhuǎn)寫(人與人交互)


錄音轉(zhuǎn)寫主要是用于服務(wù)質(zhì)量,甚至責(zé)任的判定,如話務(wù)員日常跟客戶交流的話術(shù)是否符合標(biāo)準(zhǔn)。它能夠有效解決:人工抽檢速度慢,覆蓋率低;標(biāo)準(zhǔn)不一,無法避免個(gè)人主觀性影響;成本高,需要大量人力,且需要定期培訓(xùn)、抽查等等難題。


不同于語音輸入法場景,是人與機(jī)器溝通,人會(huì)下意識(shí)“遷就”機(jī)器而刻意放慢語速,而錄音轉(zhuǎn)寫面對的是人與人的溝通,會(huì)面臨交互口語化程度高,背景噪聲不可控等問題,因此大大提升了錄音轉(zhuǎn)寫的難度。實(shí)踐證明,能有效提高錄音轉(zhuǎn)寫準(zhǔn)確率的方法如下:


1)選擇正確的引擎參數(shù)。如:采樣率:8K or 16K,單聲道or 雙聲道。

2)盡可能提升錄音質(zhì)量,降低背景噪音,減少無關(guān)聲音的輸入,使說話人不要遠(yuǎn)離麥克風(fēng),不要采用大壓縮比的音頻格式。

3)定制化提升,語料訓(xùn)練,熱詞。


3.3 客服機(jī)器人


經(jīng)過大量探索和實(shí)踐證明語音最大落地場景就是機(jī)器人。例如,客服場景,它面臨的80%以上的問題都是重復(fù)的,因此機(jī)器人的使用能夠大大的減輕客服人員的壓力。而語音機(jī)器人結(jié)合語音識(shí)別,語音合成等等技術(shù),實(shí)現(xiàn)多渠道的覆蓋,為用戶提供更好的體驗(yàn)??梢哉f基于人工智能的客服系統(tǒng)逐漸變?yōu)槠髽I(yè)的競爭力。


語音技術(shù)的發(fā)展也為新時(shí)代數(shù)字化服務(wù)提出了更高的要求,如:更好的人機(jī)交互體驗(yàn),更豐富的智能化功能,更多樣的人機(jī)交互渠道。簡而言之,語音是人類最自然的溝通方式,語音技術(shù)與機(jī)器人能力的結(jié)合會(huì)帶來全新的服務(wù)體驗(yàn)。


四、騰訊云智能語音落地案例分享


騰訊云在智能語音方面已經(jīng)有一些成功的落地方案,包括跟金融行業(yè),故宮,亞朵酒店等的一些合作。


對于金融級(jí)任務(wù)機(jī)器人,主要完成一些基礎(chǔ)轉(zhuǎn)賬操作,用戶通過語音進(jìn)行人機(jī)交互,其中包含銀行卡的選擇,轉(zhuǎn)賬金額的確認(rèn),最終轉(zhuǎn)賬等功能,是在金融行業(yè)語音交互上的進(jìn)一步探索。


在跟故宮的聯(lián)合合作中,主要是對故宮展品的介紹進(jìn)行語音合成。用戶可以通過掃描相應(yīng)的二維碼來獲取語音的展示,這些合成的語音質(zhì)量非常高,擬人化強(qiáng)。


在此同時(shí),跟亞朵酒店的合作中,利用“小微”智能音箱打造智慧酒店的行業(yè)智能解決方案。在酒店中,接入相關(guān)設(shè)備,他可以聽得懂、看得見。這是一個(gè)專門適合懶人的黑科技,只需要張開嘴輕聲呼喚'HI,小微',然后通過語音交互令窗簾、音箱、燈光、空調(diào)都在掌握之中。除此之外,它還可以查詢天氣、交通路線、新聞資訊、查詢機(jī)票等。該方案已經(jīng)在北京,深圳等城市落地和使用。


另外語音技術(shù)也可以應(yīng)用在其他的場景中。例如在視頻中,實(shí)現(xiàn)音頻判斷是否違規(guī)的鑒別能力;在記錄方面,可以應(yīng)用在法庭記錄等場景,節(jié)省大量的人工的工作;也可以應(yīng)用在翻譯和同傳方面。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    亚洲欧美日韩另类第一页| 亚洲性日韩精品一区二区| 99久久人妻精品免费一区| 国产毛片对白精品看片| 成在线人免费视频一区二区| 欧美日韩亚洲精品内裤| 欧美一区二区三区播放| 国产精品日韩精品一区| 亚洲国产精品国自产拍社区| 亚洲精品av少妇在线观看| 中文久久乱码一区二区| 午夜福利92在线观看| 老司机精品线观看86| 欧美野外在线刺激在线观看| 欧美黄色黑人一区二区| 办公室丝袜高跟秘书国产| 色播五月激情五月婷婷| 国产日韩在线一二三区| 91偷拍裸体一区二区三区| 九九热这里只有精品视频| 国产不卡最新在线视频| 亚洲中文字幕综合网在线| 国产免费成人激情视频| 成年人视频日本大香蕉久久| 午夜精品在线观看视频午夜| 亚洲精品中文字幕无限乱码| 亚洲中文字幕有码在线观看| 欧美日韩欧美国产另类| 亚洲欧洲成人精品香蕉网| 黑人粗大一区二区三区| 97人妻人人揉人人躁人人| 老司机精品福利视频在线播放| 一区二区三区人妻在线| 婷婷激情五月天丁香社区| 亚洲高清中文字幕一区二三区 | 爱草草在线观看免费视频| 青青久久亚洲婷婷中文网| 欧美在线观看视频免费不卡| 国内外免费在线激情视频| 视频一区日韩经典中文字幕| 日本在线高清精品人妻|