作者|油醋 “不作詩(shī),也沒(méi)有時(shí)間作詩(shī),它要深入到各行各業(yè)?!比A為云CEO張平安給迷霧中的盤(pán)古大模型定了調(diào)。 7月7日東莞,華為云在開(kāi)發(fā)者大會(huì)上發(fā)布盤(pán)古大模型3.0。關(guān)于華為做大模型的方向,它已經(jīng)做了什么,它的技術(shù)架構(gòu),答案逐漸清晰。 這么多大模型里,盤(pán)古看起來(lái)是與行業(yè)連接最緊密的,緊密到甚至讓人感覺(jué)它是難得從行業(yè)里抽身請(qǐng)假,來(lái)發(fā)布會(huì)亮了個(gè)相。 這是一個(gè)不做C端的大模型,而在B端的一些具體場(chǎng)景中,它宣稱(chēng)自己已經(jīng)是一位滿(mǎn)級(jí)選手。 43年的數(shù)據(jù)7月6日,華為輪值董事長(zhǎng)胡厚崑在世界人工智能大會(huì)上預(yù)告了盤(pán)古大模型3.0的發(fā)布。同日的另一件事是,盤(pán)古氣象大模型在高分辨率全球 AI 氣象預(yù)報(bào)系統(tǒng)方面的研究成果在《Nature》正刊發(fā)表。這是近年來(lái)中國(guó)科技公司首篇作為唯一署名單位發(fā)表的《Nature》正刊論文。 今年5月,盤(pán)古氣象大模型提前10天預(yù)測(cè)到了臺(tái)風(fēng)瑪娃的路徑。這件事交給數(shù)值預(yù)報(bào)的話(huà),需要3000臺(tái)高性能計(jì)算機(jī)花5個(gè)小時(shí)。盤(pán)古氣象大模型只花了10秒鐘,用了一臺(tái)服務(wù)器,一張卡。 相比傳統(tǒng)的數(shù)值預(yù)報(bào),盤(pán)古氣象大模型在天氣預(yù)測(cè)速度上提升了1萬(wàn)倍,并且是首個(gè)精度超過(guò)傳統(tǒng)數(shù)值預(yù)報(bào)方法的AI模型。歐洲中期預(yù)報(bào)中心和中央氣象臺(tái)等都在實(shí)測(cè)中發(fā)現(xiàn)盤(pán)古預(yù)測(cè)的優(yōu)越性。 《Nature》審稿人對(duì)該成果給予高度評(píng)價(jià): “華為云盤(pán)古氣象大模型讓人們重新審視氣象預(yù)報(bào)模型的未來(lái)?!?/span> 盤(pán)古氣象大模型的模型開(kāi)發(fā)摒棄了無(wú)法完全處理3D氣象信息的2D神經(jīng)網(wǎng)絡(luò),采用三維神經(jīng)網(wǎng)絡(luò)(3D Earth-Specific Transformer),參數(shù)量為2.56億。 在此之前,這樣一個(gè)行業(yè)大模型的訓(xùn)練首先要克服巨大的數(shù)據(jù)工程。盤(pán)古3.0喂進(jìn)去了43年的天氣歷史數(shù)據(jù),以及200tb的海量數(shù)據(jù)。 列車(chē)檢測(cè)員行業(yè)大模型是一個(gè)工程學(xué)問(wèn)題。在大模型推理這樣的辦法出現(xiàn)之前,這些繁瑣的事精也需要被分擔(dān)。比如3000太高性能計(jì)算機(jī),或者大量人力。 在貨運(yùn)鐵路上,每天有無(wú)數(shù)高速攝像機(jī)以一節(jié)車(chē)廂80張的高頻速度對(duì)經(jīng)過(guò)的貨車(chē)底部拍照,然后傳回列車(chē)檢測(cè)員的電腦屏幕。他們被要求每秒需審閱1張圖,1000列貨車(chē)會(huì)生產(chǎn)出400萬(wàn)張照片,需要260雙眼睛來(lái)消化巨大的信息量。 列車(chē)檢測(cè)員,一個(gè)急需減負(fù)的工種。 這樣通過(guò)通過(guò)高速攝像來(lái)動(dòng)態(tài)采集列車(chē)車(chē)底配件、車(chē)體側(cè)部等部位圖像,實(shí)時(shí)判別貨運(yùn)列車(chē)是否存在故障的貨運(yùn)鐵路巡檢模式被稱(chēng)為T(mén)FDS(貨車(chē)運(yùn)行故障動(dòng)態(tài)圖像檢測(cè)),基于TFDS預(yù)訓(xùn)練大模型和超過(guò)360萬(wàn)張以上的鐵路貨車(chē)圖像,華為在盤(pán)古3.0的基礎(chǔ)上訓(xùn)練出了鐵路大模型。 這個(gè)鐵路大模型現(xiàn)在已經(jīng)可以精準(zhǔn)識(shí)別67種貨車(chē)車(chē)型,可識(shí)別的故障種類(lèi)達(dá)到430種以上。其無(wú)故障圖片篩除率達(dá)到了95%,對(duì)于列車(chē)檢測(cè)員來(lái)說(shuō)這意味著原本400萬(wàn)張的工作量,現(xiàn)在減到了20萬(wàn)張。 5+N+X華為云人工智能領(lǐng)域首席科學(xué)家田奇指出了通用大模型落地行業(yè)的三個(gè)挑戰(zhàn): 通用性強(qiáng),但專(zhuān)業(yè)性弱。 知識(shí)雖多,但技能不足。 價(jià)值挖掘快,但數(shù)據(jù)安全難保障。 為了解決這三層問(wèn)題,華為的大模型體系設(shè)計(jì)成三層架構(gòu):L0(基礎(chǔ)大模型)、L1(行業(yè)大模型)和L2(場(chǎng)景模型)。 以盤(pán)古鐵路大模型為例,TFDS預(yù)訓(xùn)練大模型的開(kāi)發(fā)過(guò)程就是L1層,而在更具體的應(yīng)用層面,比如故障狀態(tài)分類(lèi)、關(guān)鍵點(diǎn)檢測(cè)則是L2層。 L2層是X個(gè),也就是無(wú)數(shù)個(gè)更細(xì)化的具體場(chǎng)景模型。比如氣象領(lǐng)域的臺(tái)風(fēng)預(yù)測(cè),或是金融行業(yè)的銀行網(wǎng)點(diǎn)助手等。重點(diǎn)是開(kāi)箱即用。 L1層是包括氣象、鐵路以及政務(wù)、金融等行業(yè)在內(nèi)的N個(gè)行業(yè)大模型,在行業(yè)公開(kāi)數(shù)據(jù)以及企業(yè)自有數(shù)據(jù)的支持下幫助企業(yè)訓(xùn)練出自己的大模型。盤(pán)古在這一層為客戶(hù)提供了公有云部署、云專(zhuān)屬資源池以及HCS私有化部署三種部署方式。 為L(zhǎng)1、L2層提供基礎(chǔ)能力的則是自然語(yǔ)言大模型、多模態(tài)大模型、視覺(jué)大模型、預(yù)測(cè)大模型以及科學(xué)計(jì)算大模型,這5個(gè)基礎(chǔ)大模型。在L0和L1層的基礎(chǔ)上,華為云提供了大模型行業(yè)開(kāi)發(fā)套件,為企業(yè)以自有數(shù)據(jù)訓(xùn)練自己的專(zhuān)屬行業(yè)大模型提供途徑。 這一套三層架構(gòu)也叫做5+N+X。 L0層內(nèi),盤(pán)古3.0包含一個(gè)3萬(wàn)億tokens的訓(xùn)練數(shù)據(jù)集,和包括問(wèn)答、生成、視覺(jué)等8個(gè)領(lǐng)域100多種能力在內(nèi)的能力集。但基礎(chǔ)大模型與能力集以及與數(shù)據(jù)集都是分別解耦的,這意味著在實(shí)際訓(xùn)練過(guò)程中,數(shù)據(jù)集可以在100億參數(shù)或者1000億參數(shù)的大模型之間快速轉(zhuǎn)換?;A(chǔ)大模型層內(nèi)的三層結(jié)構(gòu)中間更靈活的按需組合,可以更大限度發(fā)揮基礎(chǔ)大模型的通用能力。 除此之外,盤(pán)古3.0提供了100億、380億、710和千億參數(shù)的不同尺寸基礎(chǔ)大模型,以滿(mǎn)足不同客戶(hù)的需求。 這個(gè)5+N+X的三層架構(gòu)在縱向上追求擊打場(chǎng)景的精準(zhǔn)度,在橫向上講究靈活。 “優(yōu)勢(shì)在別處模型能力因?yàn)樾袠I(yè)而具像化的同時(shí),底層算力的基礎(chǔ)在支撐著盤(pán)古大模型能夠完美的匹配企業(yè)的需求。 昇騰和鯤鵬兩款芯片為基礎(chǔ)的AI算力云平臺(tái)配合異構(gòu)計(jì)算架構(gòu)CANN,結(jié)合全場(chǎng)景AI框架昇思以及全流程MLOps的機(jī)器學(xué)習(xí)平臺(tái)Modelarts所形成的全棧能力,在昇騰云上大模型的訓(xùn)練效率可以達(dá)到業(yè)界主流的1.1倍。 并且除了自研的AI框架昇思,華為云也可以支持Pytorch、TensorFlow等其他主流的AI框架。在蕪湖AI算力中心之外,華為云也在貴安和烏蘭察布兩個(gè)AI算力中心上線(xiàn)了昇騰AI云服務(wù)。算力可達(dá)到2000p FLOPS(200億億次浮點(diǎn)),千卡訓(xùn)練可連續(xù)維持超1個(gè)月。 華為是最早開(kāi)始大模型研究的國(guó)內(nèi)企業(yè)之一。2021年華為云拿出了5個(gè)基礎(chǔ)大模型,去年迭代到盤(pán)古2.0后,氣象、礦山等行業(yè)大模型順勢(shì)而出,此次盤(pán)古3.0公布的時(shí)候,國(guó)內(nèi)的大模型競(jìng)爭(zhēng)已經(jīng)白熱化。而在國(guó)內(nèi)公有云市場(chǎng)已經(jīng)升至第二的華為云,技術(shù)能力也開(kāi)始做厚。 不做詩(shī),堅(jiān)持“AI for Industries”,后發(fā)先至的盤(pán)古3.0并不著急。 它的戰(zhàn)場(chǎng)和優(yōu)勢(shì)不在于做一個(gè)“Chat”,而是別處。比如基于無(wú)線(xiàn)基站而圍攏起的礦山生態(tài),比如全球300多條城市軌道線(xiàn)路和總長(zhǎng)130000多公里的鐵路,比如一個(gè)制造企業(yè)的身份。 |
|