計算機時代,輸入的主要工具是鍵盤。人工智能時代,語音輸入成為主流。而在這方面,中國走在了世界前列——科大訊飛公司已經(jīng)連續(xù)11年獲得全球語音合成大賽冠軍,百度語音也在今年被MIT科技評為2016年十大突破性技術之一。 目前,兩家公司對外公布的語音識別率都是97%。這意味著什么呢? 百度首席科學家吳恩達講一口軟糯的美式中文,記者注意到,當他說到“長段語句”時,最開始系統(tǒng)誤聽成了“長男語句”。但是經(jīng)過兩三句話后,結合上下文的“音頻切分”“切成短的去識別”等內(nèi)容,系統(tǒng)自動將“長男語句”更正為“長段語句”。 訊飛的語音識別同樣達到了高精度。當訊飛集團董事長劉慶峰用帶著濃重口音的普通話快速演講時,顯示屏不僅實時出現(xiàn)了中文,還能同步翻譯成英語、維吾爾語、日語、韓語等十幾個語種。 毫無疑問,新技術已經(jīng)為人工智能裝上了一對堪比真人的“耳朵”。不過機器能聽人說話只是第一步,要實現(xiàn)無障礙的語音交流,還需要系統(tǒng)會說話,而且要像真人一樣說話。 訊飛的普通話語音合成系統(tǒng)達到了4.5分。也就是說,訊飛語音合成的普通話,比大多數(shù)人都要標準、自然。公司在此基礎上發(fā)展了特殊音色,想讓機器給你模仿一段郭德綱的聲音或者模仿一段林志玲的聲音都沒有問題。 百度語音主要聚焦在為合成語音“加入情感”,目前可接近真人發(fā)聲效果。現(xiàn)場測試表明,57%的用戶無法區(qū)分真人語音與合成語音,基本可代替真人講故事。《讀者》雜志使用百度的情感語音開發(fā)“聽書”功能,為農(nóng)村的留守兒童、老人以及不便閱讀的殘障人士提供近似真人朗讀的聽書體驗。
人工智能能聽會說,能在各種語言之間無障礙切換,最直接的應用領域就是翻譯和速記。 今年11月,上海高級法院招待了11個國家的法院大法官和高層管理。訊飛的翻譯轉寫平臺為會議提供多國語言的實時翻譯,得到了參會國際專家的高度評價。普通消費者想要體驗,可以使用訊飛輸入法、百度輸入法的語音輸入,比打字快得多。 人工智能更大的“野心”是讓一切物體都有耳朵,都會說話,特別是智能家居領域,是任何一個企業(yè)都不想放過的入口。今年5月谷歌推出了谷歌家庭,蘋果更新的iOS10里加入了家庭板塊,亞馬遜的echo試圖用一只音箱操控家里的冰箱、洗衣機、空調等全部家電。訊飛則將自己的語音交互解決方案稱為aiui系統(tǒng),其核心依然是用語音連接全世界。 除了能夠跟汽車無障礙溝通的“飛魚助手”,訊飛的電視機操作系統(tǒng)也已經(jīng)廣泛應用。操作者只要說出“安徽衛(wèi)視”“中央一臺”“錦繡未央第十集”等要求,電視就會自動切換。如果說“我想學英語”“我想玩游戲”,電視也會自動打開應用程序。最令人驚訝的是,在欣賞《冰雪奇緣》中聽到好聽的歌曲,操作者問“這首歌是什么名字”,系統(tǒng)很快在后臺識別、搜索出了《let it go》。整個過程里,系統(tǒng)準確無誤地完成了多輪對話和上下文理解,完全沒有其他系統(tǒng)例如蘋果siri對話時的斷續(xù)感。
訊飛語音和百度語音的背后都有一個聰明的腦袋:訊飛超腦和百度大腦。簡單地說,這是一種深度學習的云端計算機。訊飛超腦和百度大腦都是開放的系統(tǒng),通過軟件開發(fā)工具包(SDK),其他企業(yè)可以免費應用這一服務。 作為語音市場的老大哥,訊飛在這一領域深耕近20年,能提供從芯片到后臺的本地引擎、再到后面的云傳輸、語音服務的整套解決方案,占據(jù)了超過80%的市場份額。 青島海爾克路德機器人應用了訊飛系統(tǒng)。公司市場部工作人員蘇青竹告訴記者,訊飛進入市場早,技術好,他們已經(jīng)合作多年?,F(xiàn)在克勞德機器人可以擔任幼兒園老師,在青島流亭機場擔任人工客服,還為泰康人壽定制了保險客服版本。 據(jù)介紹,訊飛語音和人工智能開放平臺已經(jīng)覆蓋8.9億終端用戶,20萬位開發(fā)伙伴,每日提供30億次的服務,其中僅機器人領域全球3000多家機器人采用訊飛技術大腦。百度也在2013年對外開放了語音技術服務,很快得到了市場認可。自上線以來,每日在線語音識別要求從500萬次上升到1.4億次,在線語音合成每日請求達2億次,開發(fā)者數(shù)量超過14萬人。 愛奇藝公司就應用了百度的語音模塊。公司技術總監(jiān)吳桂林問自己手機上的愛奇藝客戶端:“成龍兒子演的電影?”屏幕上立即出現(xiàn)了房祖名參演的電影。 “別看就一句話,但系統(tǒng)不僅要識別我說的話,還要懂成龍、兒子和房祖名的關系,并完成搜索,難度相當大?!眳枪鹆直硎荆瑦燮嫠噺?013年和百度合作,應用了百度語音助手,并開發(fā)了語義分析技術和知識圖譜。目前,愛奇藝用戶每天使用語音搜索超過100萬次,而且呈現(xiàn)成倍增長。 “識別準確率高、軟件開發(fā)工具包(SDK)應用方便、技術支持隨叫隨到?!眳枪鹆挚偨Y百度語音助手的好處時,特別強調了免費,“我們和百度合作的時候,只有百度語音沒有真正的流量限制”。 “未來我們會有陪伴機器人、個性化私教、音樂作曲、機器人醫(yī)生等等。”吳恩達對人工智能的未來寄予厚望,但他認為任何一家公司都無法獨占這么多領域和機會,“所以我們的目標就是把人工智能技術輸出給大家,近期百度語音開放平臺再開放四項免費語音技術:情感合成、遠場方案、喚醒二期技術和長語音方案,希望支持其他企業(yè)探索有潛力的項目”。 |
|