就在蘋果秋季發(fā)布會的前一天,近20家中國科技企業(yè)在北京召開發(fā)布會,其中最受關(guān)注的是一年一度的“百度世界”。百度世界大會對標蘋果的WWDC或Google I/O,向開發(fā)者、合作伙伴和用戶傳遞百度在技術(shù)等方面的研究成果,因此每一年都會展出一些黑科技,2014年令外界印象最深刻的是“筷搜”,由百度CEO李彥宏親自發(fā)布。今年李彥宏推出了名為“度秘”的秘書式機器人,并演示了一個驚艷的DEMO(DEMO看看就好,最新版手機百度已上線該功能)。這個度秘跟筷搜一樣具有科技含量,不過相對于處于概念性階段的筷搜而言,更具實用價值。 語音助手大都只是玩具 2011年蘋果隨著iPhone 4S一起推出Siri,將語音助手帶入大眾視野。隨后Google Now、微軟Cortana以及中國的百度語音助手、搜狗語音助手、智能360、蟲洞、訊飛靈犀語音助手陸續(xù)面世。由于智能手機天然具備“聽”和“說”的硬件基礎(chǔ),再加上移動互聯(lián)網(wǎng)帶來的語音場景,人們都認為語音助手是時候迎來爆發(fā)了。 這些年語音技術(shù)不斷提升。語音識別、語義理解、語音合成和聲紋識別幾個領(lǐng)域的進展可謂突飛猛進。不過,中國語音巨頭科大訊飛更多將技術(shù)應(yīng)用到教育等行業(yè)應(yīng)用中。而想要復制Siri的中國玩家們都沒能成為殺手級產(chǎn)品——實際上,Siri、Google Now以及微軟Cortana幾個老牌玩家也表現(xiàn)平平。 為什么會這樣?如你所見,智能手機的語音助手在過去很大程度只是“玩具”。人們許多時候都在調(diào)戲Siri,它的笨拙甚至會激怒用戶惡語相向——不信去百度檢索下東北司機怒罵車載語音助手的視頻。識別率不夠高、對噪音環(huán)境支持很弱、識別速度不夠快、能回答的問題太少、很多任務(wù)無法完成……這是語音助手過去被詬病的地方。語音助手是剛需,只不過大家都沒有完善的解決方案,正是因為此,語音助手市場機會重重,這是一塊并未真正被開拓的處女地。 度秘要做秘書式機器人 很多人都幻想過擁有一位漂亮、貼心的秘書,對你言聽計從、完成各種任務(wù),不過聘請一個專職秘書可不是每個人都能負擔得起。但如果機器能夠做到這一點,相信沒人會拒絕。遺憾的是,這類場景只存在于科幻片之中,機器想要跟人類一樣聰明還需要很漫長的時間。不過,這并未打消探索者的勇氣,百度世界大會推出的“度秘”則是采取秘書式機器人的思路——就像它的名字一樣。 相對于各類語音助手而言,度秘有兩個新的嘗試。 1、與用戶多輪對話,就像人與人之間的交流一樣,基于上下文理解用戶的意圖。要做到這一點主要是技術(shù)挑戰(zhàn)大——機器識別單句自然語言的語義都不容易?;谏舷挛牡扔谝粩嘤涗浗换ミ^程,不只是理解單句話,要知道人類有時候都“跟不上”別人說話。百度基于深度學習的Deep Speech技術(shù)部分實現(xiàn)了多輪交互,這是更加簡單、自然和便捷的方式。除了百度,微軟此前曾推出過小冰對話機器人,有小道消息稱微信或?qū)⑼瞥鲱愃频闹С侄噍唽υ挼臋C器人——它們都是文本形式。 2、可以完成更多任務(wù),主要是指獲取生活服務(wù)。李彥宏演示了通過度秘訂咖啡、訂餐廳、預訂寵物醫(yī)院、購買電影票等操作,整個過程是“連貫”進行的。這走在了前面:Siri最多被使用的設(shè)置鬧鐘、問天氣、調(diào)用通信錄打電話這類功能,是在操作手機本身,互聯(lián)網(wǎng)內(nèi)容和生活服務(wù)獲取不是它的強項(最近Siri與百度百科達成合作來解決這些問題)。Google Now主要做信息推送,微軟Cortana解決個性化資訊獲取和設(shè)備數(shù)據(jù)處理,F(xiàn)acebook M正在小范圍測試預訂餐廳等服務(wù),Magic以及國內(nèi)的“神豬”通過人工處理用戶的語音指令——跟12580等電話呼叫中心本質(zhì)一樣。只有度秘是自動化地獲取多樣化的生活服務(wù)。 幾大語音助理對比 度秘之所以能夠同時實現(xiàn)多輪交互和服務(wù)獲取,我認為原因在這里: 1、深度學習為核心的人工智能技術(shù)被應(yīng)用到語音,這是多輪交互的基礎(chǔ)。除了百度,微軟在人工智能上布局較早,所以可以做小冰,Cortana未來也可以支持多輪。 2、百度連接人與服務(wù)大戰(zhàn)略下本身就在將越來越多的生活服務(wù)“搬到互聯(lián)網(wǎng)”上,結(jié)構(gòu)化、標簽化、交易化,通過糯米、外賣、票務(wù)等子業(yè)務(wù)可以實現(xiàn)預訂。就是說,百度有服務(wù)內(nèi)容,同時具有服務(wù)內(nèi)容和智能技術(shù)的玩家并不多。 3、識別率以及抗噪能力這兩個基礎(chǔ)技術(shù)足夠用。今年早些時候百度曾宣布基于深度學習的語音識別技術(shù)超過了微軟和Google,能夠識別準確“聽清”,是“聽懂”的前提條件。 Siri正在被重新定義 巧合的是,據(jù)外媒報道9月9日蘋果所發(fā)布的iPhone6S重頭戲?qū)⑹荢iri。上個與Siri與百度達成合作引入百度百科內(nèi)容,很大程度彌補了Siri內(nèi)容不足的問題。Siri已經(jīng)意識到現(xiàn)存問題,不甘只做被用戶“調(diào)戲”的玩具。它想要重新定義自己,不再只做“語音助理”,不想將市場讓給另辟蹊徑的百度們。 通過語音識別來替換拼音的輸入法,通過語音來設(shè)置手機鬧鐘,通過語音去關(guān)閉客廳的電燈,通過語音去點一首歌曲……都只是部分應(yīng)用場景,主要在解決“交互問題”,即輸入和輸出,這顯得有些大材小用了。在可見的未來語音助理都會向著秘書機器人方向發(fā)展,它可以幫助你安排生活、幫助你設(shè)置設(shè)備、按照你的指令設(shè)置環(huán)境、陪你聊天……就像秘書一樣——當然,不能像實體機器人那樣給你擁抱,幫你做飯,陪你睡覺,但是機器人都需要智能的語音能力。 百度首席科學家吳恩達在百度世界分享了一個很有意思的觀點:很多人沒有意識到95%的準確度到99%的準確度帶來的是質(zhì)變,99% is a game changer,99%準確度將徹底改變?nèi)伺c設(shè)備應(yīng)用交互。他認為人工智能已經(jīng)走向智能伴侶時代。度秘基于相對成熟的語音和AI技術(shù),做到99%的程度是現(xiàn)實的目標,有望成為game changer。這樣看來在人工智能上百度的對手已經(jīng)不是阿里或者騰訊了,而是海外科技巨頭,Cortana、Google Now、Siri們很快都會支持類似的“秘書式機器人”功能,新一輪廝殺已經(jīng)開始。 |
|