當AI發(fā)展借新基建東風進一步加速后,每個垂直門類都開始表現出一邊深化技術、一邊廣拓生態(tài)的兩大特征。 最近的百度大腦語言與知識技術峰會直接表現了這一點。 一次性推出11項發(fā)布,AI技術的大規(guī)模應用進程被行業(yè)巨頭加快,而正如百度CTO王海峰所言,“在百度語言與知識技術的布局和發(fā)展中,我們始終在注意把握兩個趨勢,即技術發(fā)展趨勢和產業(yè)發(fā)展趨勢,并力爭引領趨勢?!?作為AI皇冠上的明珠,NLP在一邊繼續(xù)進行技術深化的同時,產業(yè)落地也開始齊頭并進。 如果從2010年百度成立自然語言處理部算起,NLP從技術和產業(yè)上全面布局已經走過整整十個年頭。 作為AI領域發(fā)展時間最久、積累最豐厚的垂直領域,NLP正在嘗試塑造出一個產業(yè)智能化從技術到應用的完整范式,對百度而言,這張AI王牌中的王牌也是時候打出手了。 01 密集發(fā)布技術成果后,NLP巨頭的產業(yè)落地呈現三大特征 巨頭的密集動作,直接表現出NLP這個AI排頭兵在產業(yè)落地上的三大特征。 1、技術“稱王”后,領頭羊正在擔起行業(yè)責任 過去十年,百度大腦在NLP領域積累了大量的技術成果,例如包括國家科技進步獎在內的20多個獎項,30多項國際競賽冠軍,發(fā)表學術論文超過300篇,申請專利2000多項。 長期的數據和技術沉淀讓百度NLP在國內處在了領先的位置,成為中國NLP發(fā)展的一面旗幟。而這種沉淀即便放到國際視野下,仍然可以支撐百度進入NLP頭部梯隊,代表中國AI在關鍵的語言和知識垂直領域占據重要的席位,獲得行業(yè)話語權。 根據公開資料整理 在以絕對的技術“稱王”后,百度同時承擔起推動技術產業(yè)化落地的責任。這次推出的中文自然語言處理數據共建計劃『千言』和語言與知識技術算力共享計劃,是領頭羊承擔行業(yè)責任、推動包括友商在內的行業(yè)共同進步的體現,已經脫離競爭范疇。 以算力共享計劃為例,百度準備在該計劃中,面向廣大開發(fā)者和研究人員開放共享百度的算力,初步投入約1億元的資源,邀請不僅限于百度語言與知識開源開放技術用戶還包括更多的中文語言與知識技術開發(fā)者、研究人員免費使用這些算力。 千言數據共建計劃也有類似的資源共享屬性,在這兩大計劃加持下,百度NLP將以整個行業(yè)的姿態(tài)共同解決發(fā)展中的技術挑戰(zhàn)。 2、矩陣式產品推進,已成為NLP產業(yè)落地的“新常態(tài)” 細數此次百度大腦新發(fā)布或升級的幾個主要產品,包括: 文心ERNIE語義理解技術與平臺,面向開發(fā)者提供各種NLP開發(fā)資源和能力; TextMind智能文檔分析平臺,面向企業(yè)文檔的規(guī)范化; 智能創(chuàng)作平臺,面向創(chuàng)作者提供的一個高集成度的內容創(chuàng)作平臺,功能方面進行了升級; UNIT智能對話與定制服務平臺,各大廠AI都在搞的服務,百度做得最早,現在重新整合進行了一次升級; AI同傳會議解決方案,利用前沿NLP技術構建的企業(yè)翻譯解決方案。 一股腦推出這些產品,表明NLP巨頭在產業(yè)落地時典型的矩陣化特征。這其中既有百度原本就占據優(yōu)勢的業(yè)務(例如UNIT、智能創(chuàng)作平臺)的再升級,也有根據市場需要新開發(fā)的能力,例如文心ERNIE、TextMind; 換一個角度看,這個矩陣也顯示出百度NLP既能實現最底層的賦能,也能走向臺前完成一線解決方案的塑造。 以AI同傳會議解決方案為例,隨著技術不斷突破,結合產品設計,同傳這個被認為是難度頗高的NLP領域已經可以實用。百度新發(fā)布AI 同傳會議解決方案,讓企業(yè)可以在只用一臺電腦,一部手機的情況下就能快速搭建一套同傳服務,參會人員可以選擇屬于自己的語種,同傳服務成為語言轉換的高效率“樞紐”。 回過頭來看,也只有NLP方面有深度積累的巨頭才能完成這樣的產業(yè)落地矩陣構建。 3、“降落傘”規(guī)則,支撐AI技術落地走得更穩(wěn) 合格率99.9%的降落傘會導致每千名士兵有一人因為產品不合格而失去生命,當軍方要求生產廠家負責人自己親身檢測產品后,“難以突破的”合格率馬上被提到了100%。 這個二戰(zhàn)典故帶來的“降落傘”規(guī)則在很多當代產業(yè)合作中被實踐,百度NLP也是如此,很多產品或解決方案都有應用在百度龐大的互聯(lián)網、科技生態(tài)中的“經歷”。 例如,在百度移動生態(tài)的內容推薦及內容審核中,已經廣泛存在NLP的身影,即便到了視聽內容時代,百度在視頻推薦方面超越行業(yè)的內容理解能力,同樣有NLP的功勞。 而不止于移動生態(tài),百度多樣化業(yè)務布局中也存在NLP的印記,例如領先行業(yè)的金融信貸風控能力,或者百度最近大力推進的智慧醫(yī)療,其中涉及語義和知識也需要NLP加持。 02 破解“既要-又要”難題,語言與知識領域的AI已經完成三大挑戰(zhàn) NLP產業(yè)應用往往面臨“既要-又要”的表面矛盾,而所謂的產業(yè)落地,某種程度上就是破解這些“無法兼得”矛盾的過程。 這從百度NLP的產品或解決方案中可見一斑。 1、既要通用性的便利,又要定制化的深度 一方面,由于通用性,產業(yè)開發(fā)者可以基于共有的方案快速實現產品或解決方案的部署及上線;另一方面,隨著產業(yè)智能化走向深度,不同產業(yè)客戶往往都開始追求屬于自己獨特的定制化能力。 這種通用性和定制化的矛盾,隨著產業(yè)對AI追求深化將越來越明顯。 可以看到,百度NLP此次的動作,越來越貼合“魚和熊掌兼得”的現實需要。以語義理解技術與平臺文心ERNIE為例,一站式能力即能夠實現解決方案的快速部署適配,也能夠滿足開發(fā)者的個性化需求。 這是因為,深度學習平臺飛槳上打造的文心,除了享受到飛槳賦予的能力,還依托于百度領先的NLP技術,集成了預訓練模型、算法集、開發(fā)套件、平臺化服務,這些使得開發(fā)者既能夠更簡單地制作自己的NLP模型,也能夠便捷地融入企業(yè)的特殊需要。 通俗地說,這是一片已經耕好的黑土地,只要撒入不同作物的種子,就能快速長出自己想要的莊稼。 2、既要成本低,又要效率高,還要“體驗”好 NLP產業(yè)落地還有牽扯要素更多的“我全都要”現象——在應用開發(fā)過程中,因為降本增效的主旋律,希望成本能夠更低、效率可以更高,而開發(fā)者在龐雜的開發(fā)工作面前又往往還希望體驗能夠更好。 如果在過去,這種需求大概會被技術服務方懟回來,但隨著平臺化能力的提升,NLP已經完全具備了滿足這種矛盾需求的能力。 仍然以文心為例,它全面降低了NLP的定制開發(fā)成本,在強大語義理解能力下對數據標注廣度和深度要求降低——90%準確度的模型,過去需要5100條數據,現在可能只要220條數據;在算力上也類似,由于集成了ERNIE預訓練模型,企業(yè)只需要單機微調即可取得世界領先效果的NLP模型,極大降低算力成本。 可以看出,這種成本的降低伴隨著效率的提升,二者是一體兩面的關系。而更進一步看,對實際參與開發(fā)工作的開發(fā)者而言,僅需要配置或編寫少量代碼便可完成從模型訓練到模型評估,1周的工作1天完成,這本身也是一種體驗上的優(yōu)化。 類似的還有UNIT智能對話與定制服務平臺,在本次升級后數據標注成本的進一步降低30%以上。重點場景預置的場景化解決方案,能夠幫助開發(fā)者以更低的成本、更高的效率完成智能對話系統(tǒng)的構建,而這種構建也不需要長篇大論、邏輯復雜的編程,只需要調用對應的模塊即可。 3、既要單環(huán)節(jié)強化,也要全鏈條深入 “既全且深”在過去是NLP開發(fā)者對平臺服務的美好理想,既能夠提供全面的服務,每個細分服務還能夠做到足夠得深。 現在,這種理想已經變成現實,它同樣得益于技術和服務的長期積累。 以百度NLP智能創(chuàng)作平臺為例,該平臺一年多以來的自動創(chuàng)作文章累計200萬+,相當一個10人團隊至少工作45年;“圖文轉視頻能力”上線4個月,被7000多家客戶使用,自動創(chuàng)作短視頻15萬,相當于一個人至少要工作100年。 在此基礎上,智能創(chuàng)作平臺進行了再升級,一次性推出囊括智能策劃、智能采編和智能審校全鏈條的3大場景方案,而每個環(huán)節(jié),都十分深度而不只是簡單的布局。 例如,在智能采編環(huán)節(jié),借助融合文本、視覺、語音的跨模態(tài)AI技術,一方面提供文章創(chuàng)作多樣、易用的工具,另一方面,還整合了視頻編輯、圖文與視頻互相轉換等視頻生產實用能力,實際應用可以幫助視頻生產速度達到原有的6倍。 可以認為,在百度等巨頭的積極探索下,過去NLP領域那些不可能、充滿矛盾的產業(yè)應用需求,最終將變得稀松平常。 03 讓AI強者恒強的“自增強循環(huán)”,這次AI巨頭又有了新的玩法 在AI發(fā)展領域有典型的來自實踐的“自增強循環(huán)”現象,即在深度積累下不斷在自身業(yè)務、產業(yè)領域進行實踐,將成果反饋,推動算法、數據等不斷進步,自我強化,對行業(yè)的領先像滾雪球一樣越滾越大。 例如,百度NLP領先行業(yè)的UNIT,自發(fā)布以來,2.7萬多開發(fā)者在平臺累積知識條目總量2.4億,支撐了超過10萬個智能對話應用,與最終用戶總計進行了超過4200億次交互。 這些實踐的強化,反過來讓UNIT能力更上一層樓,推出更多更低成本、更高效率、更好開發(fā)體驗的服務,這種正向循環(huán)讓UNIT超越競品越來越多。 所謂的“強者恒強”,其實根本上就是來自于這種“自增強循環(huán)”。 現在,百度在NLP領域推進這種“自增強循環(huán)”又多了一種玩法。如果說過去的“自增強”過程是在自己的地盤中實踐推進,那么百度此次推出的行業(yè)計劃,則帶有聯(lián)合整個行業(yè)共同完成“自增強循環(huán)”的意味。 此次百度NLP推出的千言開源數據計劃十分典型。 在百度的構想中,它試圖“團結”來自國內多家高校和企業(yè)的數據資源研發(fā)者,共同建設這樣一個數據項目,在更多的“同行”加入下,獲得更豐富的任務類型、更多的開源數據集合。 這樣做的好處,是讓計劃中的每一個參與者都能享受到整個行業(yè)的數據和模型積累,從復雜知識構建、語義理解、知識融合、多模態(tài)融合等角度推動技術的進步,畢竟,百度NLP積累再多,也少于整個行業(yè),而NLP又是一個極度依賴積累的AI垂直領域。 千言第一期總共涵蓋了7大任務,20多個中文開源數據集合,這會是百度另一種“自增強循環(huán)”的開啟,只不過,它依靠的是整個行業(yè)橫向而不是自身實踐縱向的推進力量,也將惠及整個行業(yè)。 通過行業(yè)共建的方式汲取精華獲得群策群力的成長,這是百度AI、NLP更大的手筆。 以這樣的視角再來看百度在此次峰會上推出以王海峰為代表的百度NLP“十年十人”,可以認為,百度NLP在十年發(fā)展后,已經不單被定義為一種屬于企業(yè)個體的優(yōu)勢技術,更成為百度推動機器更好地理解世界、服務于人這種技術信仰的典型代表,實現著更高維度的技術情懷。 總而言之,已經完成“技術扛鼎”的百度NLP,重心已經轉移到了產業(yè)落地上。作為走在NLP應用于產業(yè)智能化最前線的巨頭,百度走出了有自身調性的路子,也通過滿足產業(yè)更復雜深度的方式來獲得更廣泛的認可,以及相對競爭對手的優(yōu)勢。與此同時,從競爭到競合的行業(yè)態(tài)勢,也通過百度的引導開始發(fā)生在NLP領域。 *此內容為【科技向令說】原創(chuàng),未經授權,任何人不得以任何方式使用,包括轉載、摘編、復制或建立鏡像。 【完】 曾響鈴 1鈦媒體、品途、人人都是產品經理等多家創(chuàng)投、科技網站年度十大作者; 2 虎嘯獎評委; 3 作家:【移動互聯(lián)網+ 新常態(tài)下的商業(yè)機會】等暢銷書作者; 4 《中國經營報》《商界》《商界評論》《銷售與市場》等近十家報刊、雜志特約評論員; 5 鈦媒體、36kr、虎嗅、界面、澎湃新聞等近80家專欄作者; 6 “腦藝人”(腦力手藝人)概念提出者,現演變?yōu)椤白悦襟w”,成為一個行業(yè); 7 騰訊全媒派榮譽導師、多家科技智能公司傳播顧問。 重點關注領域 1人工智能 |區(qū)塊鏈 |汽車產業(yè)鏈| 內容創(chuàng)業(yè) |新零售 2 電商 |新媒體營銷 |企業(yè)級服務| 家居業(yè) |社區(qū)O2O 3智能手機 |網紅| 體育IP |互聯(lián)網金融 |無人機 4共享經濟 | 直播、短視頻 |傳統(tǒng)企業(yè)轉型 最新著作 |
|