大模型發(fā)展風(fēng)起云涌,使得AI應(yīng)用又成為了市場熱點(diǎn)。但這場創(chuàng)新運(yùn)動(dòng)和上一輪AI熱潮的背景不同,如今行業(yè)不缺技術(shù)、也不乏商業(yè)模式健康的玩家,最稀缺的資源,已然變成了高質(zhì)量數(shù)據(jù)。大模型的模型從何而來?本質(zhì)上,就靠海量數(shù)據(jù)的“喂養(yǎng)”。 不過,這個(gè)過程絕非輸入輸出那么簡單,而是要從收集數(shù)據(jù)做起,經(jīng)過系統(tǒng)性工程,在不斷的訓(xùn)練微調(diào)中形成最終的成果,還要將其與應(yīng)用場景進(jìn)行適配,融入真實(shí)應(yīng)用。通過“人工”的持續(xù)努力實(shí)現(xiàn)“智能”,其難度可想而知。 正因?yàn)槿绱?,人工智能領(lǐng)域,才有越來越明顯的“得數(shù)據(jù)者得天下”的特征。考慮到這一工作的投入與難度,普通企業(yè)顯然難以自主完成建設(shè)。大模型時(shí)代,企業(yè)需要的新生產(chǎn)力,大概率得向?qū)I(yè)人工智能數(shù)據(jù)服務(wù)商要答案。 今年9月,云測數(shù)據(jù)攜“面向垂直行業(yè)大模型AI數(shù)據(jù)解決方案”亮相2023年中國國際服務(wù)貿(mào)易交易會(huì)(簡稱“服貿(mào)會(huì)”),為行業(yè)大模型的發(fā)展落地,帶來了專業(yè)解法。 高質(zhì)量AI模型,靠好數(shù)據(jù)“養(yǎng)”出來 OpenAI攜GPT驚艷世界,對(duì)話式AI令許多用戶耳目一新。但大模型的生產(chǎn)力并不只如此,從國內(nèi)大廠的通用大模型上線,到海外市場涌現(xiàn)的營銷、金融等領(lǐng)域的專業(yè)大模型,這輪熱潮顯然有著類似產(chǎn)業(yè)革命的味道,用曾經(jīng)流行過的話術(shù)講:千行百業(yè)或許都值得用大模型“重做一遍”。 不過,行業(yè)用大模型“重做”意味著,通用大模型并不適合企業(yè)直接應(yīng)用,只有轉(zhuǎn)化為行業(yè)大模型才更容易發(fā)揮生產(chǎn)力。大模型仍然構(gòu)筑于“算力+數(shù)據(jù)”的底座上,算力可外購,數(shù)據(jù)則不是好邁的門檻。 一方面,各行各業(yè)的發(fā)展與AI大模型概念碰撞,落地的核心仍然是算法,而算法的質(zhì)量又取決于數(shù)據(jù)的質(zhì)量。對(duì)普通企業(yè)來說,配置專門的隊(duì)伍進(jìn)行AI數(shù)據(jù)工作難度大且性價(jià)比不高,且專業(yè)性并不一定能滿足大模型建設(shè)的需求。沒有高質(zhì)量的AI數(shù)據(jù)養(yǎng)料,場景化AI應(yīng)用將無從談起。 同時(shí),要處理的數(shù)據(jù)規(guī)模也是一大難點(diǎn)。信通院數(shù)據(jù)顯示,OpenAI自 2020年推出GPT-3以來,超大預(yù)訓(xùn)練模型參數(shù)數(shù)量、訓(xùn)練數(shù)據(jù)規(guī)模每年增長300倍,普通企業(yè)顯然很難擁有這樣的能力。 但另一方面,像外購算力一樣采購AI數(shù)據(jù)服務(wù),也沒有那么容易。 比如,行業(yè)大模型的AI數(shù)據(jù)來自應(yīng)用場景,采集能力影響著最終的準(zhǔn)確程度,這就要求服務(wù)商必須有豐富的場景化意識(shí),了解行業(yè)需求;大模型更看重人機(jī)協(xié)作,需要在預(yù)訓(xùn)練后進(jìn)行持續(xù)微調(diào)再融入場景,所以針對(duì)大模型進(jìn)行的預(yù)訓(xùn)練環(huán)節(jié),含有大量的垂直行業(yè)數(shù)據(jù),考驗(yàn)服務(wù)商在不同環(huán)節(jié)的處理能力;而在整個(gè)過程中,為了提升把通用大模型轉(zhuǎn)化為行業(yè)大模型的能力,數(shù)據(jù)服務(wù)商必定要有一整套完備的工具、系統(tǒng)和平臺(tái)。 這樣一來,無論是在收集標(biāo)注等環(huán)節(jié)的效率,還是垂直行業(yè)海量數(shù)據(jù)集對(duì)質(zhì)量的要求,都對(duì)大模型發(fā)展趨勢下的AI數(shù)據(jù)服務(wù)提出了新的要求。行業(yè)的厲兵秣馬,開啟的是更深度的競爭。 據(jù)媒體披露,OpenAI成立8年來,花費(fèi)高達(dá)10億美元用于模型訓(xùn)練,可見要落地于垂直行業(yè)更會(huì)難上加難。預(yù)訓(xùn)練、強(qiáng)化學(xué)習(xí)、人工反饋,無一不是費(fèi)時(shí)費(fèi)力費(fèi)資源的工作。只有真正專精的AI數(shù)據(jù)服務(wù)商,才能靠對(duì)業(yè)務(wù)的深入理解、對(duì)工具和能力的長期建設(shè),形成規(guī)模、效率等多方面優(yōu)勢。也只有這樣的第三方平臺(tái),才能貼合企業(yè)的垂直需求,做到高效、適用性強(qiáng)。 如今,專業(yè)AI數(shù)據(jù)服務(wù)商,已經(jīng)成為破局大模型數(shù)據(jù)養(yǎng)料問題的關(guān)鍵角色。 全鏈條、多行業(yè),云測數(shù)據(jù)深度護(hù)航行業(yè)大模型 對(duì)AI數(shù)據(jù)服務(wù)的質(zhì)量、效率、場景化等方面的要求,本質(zhì)上是因?yàn)锳I技術(shù)需要深入行業(yè)。在深入行業(yè)的過程中,大模型所需要的行業(yè)數(shù)據(jù)更多,而面對(duì)于行業(yè)數(shù)據(jù),有許多現(xiàn)實(shí)的要求必須滿足。在數(shù)據(jù)處理環(huán)節(jié),機(jī)器處理數(shù)據(jù)與人工處理兩者如何結(jié)合確保質(zhì)量與效率并行;在技術(shù)支持方面,數(shù)據(jù)處理工具的先進(jìn)性、易用性、豐富性是否可能達(dá)到AI項(xiàng)目要求;在企業(yè)經(jīng)營層面,科學(xué)的流程管理、完善的交付體系等能力建設(shè)是否具備先進(jìn)性。 所以,市場要求AI數(shù)據(jù)服務(wù)商既要有專門的工具、能力和解決方案,又要能夠提供千人千面且富有行業(yè)深度的數(shù)據(jù)解決方案,滿足不同層次的需求。 云測數(shù)據(jù)去年發(fā)布了“面向AI工程化的數(shù)據(jù)解決方案”,今年則在延續(xù)既有優(yōu)勢的基礎(chǔ)上,面向行業(yè)大模型建設(shè)中存在的普遍性問題,升級(jí)發(fā)布了面向垂直行業(yè)大模型AI數(shù)據(jù)解決方案。為行業(yè)大模型的發(fā)展提供從持續(xù)預(yù)訓(xùn)練、任務(wù)微調(diào)、評(píng)測聯(lián)調(diào)測試到應(yīng)用發(fā)布的端到端過程中的高質(zhì)高效數(shù)據(jù),從基礎(chǔ)設(shè)施層面,打牢行業(yè)大模型的根基。 這種全鏈條能力,來自云測數(shù)據(jù)長期積累的經(jīng)驗(yàn)與技術(shù)。一方面,云測數(shù)據(jù)長期深耕智能駕駛、智能家居、電商、智慧金融等領(lǐng)域,對(duì)場景的理解十分深入,而這大大提升了構(gòu)建行業(yè)大模型、應(yīng)用于場景的能力。 比如在智能駕駛領(lǐng)域,云測數(shù)據(jù)作為唯一一家訓(xùn)練數(shù)據(jù)服務(wù)代表廠商,參與《智能網(wǎng)聯(lián)汽車場景數(shù)據(jù)圖像標(biāo)注要求與方法》《智能網(wǎng)聯(lián)汽車激光雷達(dá)點(diǎn)云數(shù)據(jù)標(biāo)注要求及方法》的編制工作,同為共同編制單位多為中國科學(xué)院自動(dòng)化研究所、中國汽車技術(shù)研究中心、北京汽車研究總院等單位,可見云測數(shù)據(jù)的專業(yè)水平。 除了對(duì)專業(yè)場景的深入理解,云測數(shù)據(jù)的優(yōu)勢還在于擁有面向行業(yè)場景的數(shù)據(jù)采集能力和豐富數(shù)據(jù)集積累,通過其采集場景實(shí)驗(yàn)室可提供生物認(rèn)證、智能座艙、家庭場景、語音交互等豐富的場景數(shù)據(jù)樣本,覆蓋圖像、語音、文本等多模態(tài)類型,可以在廣泛、持續(xù)的基礎(chǔ)上,為行業(yè)大模型預(yù)訓(xùn)練提供賦能。 另一方面,云測數(shù)據(jù)在長期服務(wù)實(shí)踐中,逐漸對(duì)需求進(jìn)行解構(gòu),可以通過不同維度、不同形式的數(shù)據(jù)觸點(diǎn),基于客戶需求進(jìn)行定制化數(shù)據(jù)服務(wù)。并且,由于具有多維度的數(shù)據(jù)采集工具,以及豐富的數(shù)據(jù)交付經(jīng)驗(yàn),云測數(shù)據(jù)擁有與數(shù)據(jù)內(nèi)容更新頻率相匹配的訂閱式采集能力,這就為適應(yīng)場景的變化、適配用戶需求的迭代打下了基礎(chǔ)。 總結(jié)而言,作為專業(yè)AI數(shù)據(jù)服務(wù)商,云測數(shù)據(jù)已形成一套針對(duì)多模態(tài)、多任務(wù)需求,進(jìn)行標(biāo)準(zhǔn)化、工程化數(shù)據(jù)服務(wù)的模式。在大模型深入千行百業(yè)的過程中,用高質(zhì)量AI數(shù)據(jù)服務(wù),促成高質(zhì)量行業(yè)大模型的誕生。 用更高質(zhì)量的數(shù)據(jù)服務(wù),助力產(chǎn)業(yè)跑出加速度 無論哪種大模型,要轉(zhuǎn)化為企業(yè)生產(chǎn)力,就要先具備融入生產(chǎn)流程、融合企業(yè)能力底座的條件。從“面向垂直行業(yè)大模型AI數(shù)據(jù)解決方案”的發(fā)展環(huán)節(jié)看,也就是全環(huán)節(jié)都要與企業(yè)需求契合,把數(shù)據(jù)的高質(zhì)量作為一種標(biāo)準(zhǔn)去執(zhí)行。 在持續(xù)預(yù)訓(xùn)練環(huán)節(jié),云測數(shù)據(jù)通過前文提到的定制化場景化數(shù)據(jù)采集能力,以及持續(xù)訂閱服務(wù)能力,在金融、電商、智能駕駛等領(lǐng)域,根據(jù)企業(yè)要求完成數(shù)據(jù)的采集、清洗、分類,做到數(shù)據(jù)的優(yōu)中選優(yōu)。其中,云測數(shù)據(jù)標(biāo)注平臺(tái)、工具支持集成API接口能力和科學(xué)的作業(yè)協(xié)同能力,在保證數(shù)據(jù)處理精度的前提下大大提高了數(shù)據(jù)流轉(zhuǎn)效率。 在下游任務(wù)微調(diào)階段,也就是對(duì)人機(jī)協(xié)作的優(yōu)化上,云測數(shù)據(jù)始終堅(jiān)持用更完善、靈活的標(biāo)注工具,對(duì)多模態(tài)數(shù)據(jù)進(jìn)行細(xì)致的微調(diào),適配人機(jī)耦合的需求,讓大模型更精準(zhǔn)。公開數(shù)據(jù)顯示,云測數(shù)據(jù)的標(biāo)注平臺(tái)最高交付精準(zhǔn)度達(dá)到99.99%,并提供包含QA-instruct、prompt等文本類任務(wù)項(xiàng)目和多模態(tài)大模型的相關(guān)能力支持,竭力保證數(shù)據(jù)處理的成效。 而在聯(lián)調(diào)灰度發(fā)布環(huán)節(jié),云測數(shù)據(jù)充分展示了對(duì)專業(yè)化、場景化和業(yè)務(wù)系統(tǒng)集成的關(guān)注。 云測數(shù)據(jù)特定領(lǐng)域的專家池,對(duì)家居、駕艙等各類垂直場景具備深度了解,能夠根據(jù)實(shí)際場景提出獨(dú)特有效的交互內(nèi)容。在RLHF(Reinforcement Learning from Human Feedback)過程中,靠人工專業(yè)性帶來更高質(zhì)量的反饋,提升最終的數(shù)據(jù)質(zhì)量,放大模型價(jià)值。與此同時(shí),通過對(duì)企業(yè)需求的解讀,云測數(shù)據(jù)可以搭建真實(shí)場景實(shí)驗(yàn)室、基于特定場景的樣本資源池,對(duì)行業(yè)大模型進(jìn)行垂直領(lǐng)域的深度測試。 最后,云測數(shù)據(jù)提供標(biāo)準(zhǔn)API接口,通過以集成數(shù)據(jù)底座為核心的數(shù)據(jù)標(biāo)注平臺(tái),一邊輸出經(jīng)過多輪質(zhì)檢的數(shù)據(jù),一邊收集難例數(shù)據(jù)以回流完成清洗標(biāo)注,讓模型調(diào)優(yōu)成為一個(gè)持續(xù)的進(jìn)程,并對(duì)接各類業(yè)務(wù)系統(tǒng),成為最終可以正式發(fā)布的產(chǎn)品。 據(jù)此,我們也可以認(rèn)為,云測數(shù)據(jù)本質(zhì)上已為有需求的用戶打造了一套“保姆式”服務(wù)——有場景化數(shù)據(jù)采集能力和高精度專業(yè)數(shù)據(jù)標(biāo)注能力,有針對(duì)多模態(tài)任務(wù)處理的先進(jìn)數(shù)據(jù)處理平臺(tái),有嵌入用戶業(yè)務(wù)系統(tǒng)的API工具和項(xiàng)目管理體系。落地行業(yè)大模型應(yīng)用,從此不再可望不可及。 正如云測數(shù)據(jù)總經(jīng)理賈宇航所說:“AI數(shù)據(jù)質(zhì)量,決定著算法的精度,AI算法精度決定產(chǎn)品質(zhì)量?!比斯ぶ悄茴I(lǐng)域的頂尖學(xué)者吳恩達(dá)也表達(dá)過此觀點(diǎn),即人工智能的價(jià)值需要吸收標(biāo)注的高質(zhì)量數(shù)據(jù)而釋放,高質(zhì)量數(shù)據(jù)的增加,會(huì)催化人工智能更快發(fā)展。中國市場數(shù)據(jù)規(guī)模不可估量,市場前景廣闊,競爭因此更重視質(zhì)量。云測數(shù)據(jù)堅(jiān)持的場景化、標(biāo)準(zhǔn)化、工程化,就像在幫助AI數(shù)據(jù)服務(wù)走向工業(yè)時(shí)代,讓數(shù)據(jù)價(jià)值的釋放像泉水一樣,源源不斷。 此前,“數(shù)據(jù)二十條”等政策層面激發(fā)數(shù)據(jù)要素活力、豐富數(shù)據(jù)應(yīng)用場景優(yōu)勢的綱領(lǐng),讓數(shù)據(jù)市場如烈火烹油。大模型一出,更讓企業(yè)視數(shù)據(jù)為新時(shí)代的“石油”。大模型發(fā)展的窗口期,自然也成為了AI數(shù)據(jù)服務(wù)突飛猛進(jìn)的窗口期。 但最后,誰能在這條賽道跑得更遠(yuǎn),最終要看能否為客戶創(chuàng)造價(jià)值,跑通正循環(huán)。當(dāng)前談最終勝利還為時(shí)過早,但有一點(diǎn)可以肯定,對(duì)已經(jīng)形成成熟解決方案的云測數(shù)據(jù)來說,紅利期,已經(jīng)開啟了。 來源:松果財(cái)經(jīng) |
|