終于,華為的大模型動(dòng)向來(lái)了! 盤(pán)古大模型3.0,今天正式發(fā)布。 最底層的基礎(chǔ)大模型包括100億參數(shù)、380億參數(shù)、710億參數(shù)和1000億參數(shù)四個(gè)版本,預(yù)訓(xùn)練使用了超3萬(wàn)億tokens。 但和早先的傳言不同,盤(pán)古大模型3.0并非是盤(pán)古版ChatGPT,而是一個(gè)面向行業(yè)的大模型系列。 用華為自己的話來(lái)說(shuō)就是:
(而且現(xiàn)場(chǎng)全程沒(méi)有cue到“生成式”這個(gè)關(guān)鍵詞) 所以在慣例的現(xiàn)場(chǎng)演示環(huán)節(jié),華為也都是派行業(yè)大模型出戰(zhàn)。 比如讓政務(wù)大模型判斷照片中除了貨車(chē)外還有哪些車(chē)輛違規(guī),可以看到大模型標(biāo)出了三輛小轎車(chē),而且給出了原因。 與此同時(shí),可提供2000P Flops單集群的昇騰AI云服務(wù)在烏蘭察布和貴安同時(shí)上線。 “千億規(guī)模大模型具備涌現(xiàn)、思維鏈能力”不想作詩(shī)的盤(pán)古大模型3.0,想做的事是面向行業(yè)。 這從它的架構(gòu)上就可以感受到,盤(pán)古大模型3.0分為三層:
其中L0層的基礎(chǔ)大模型負(fù)責(zé)提供通用技能。 模型可分為自然語(yǔ)言大模型和多模態(tài)大模型兩類(lèi)。能力覆蓋了對(duì)話問(wèn)答、文案生成、圖像生成、圖像理解等。 預(yù)訓(xùn)練數(shù)據(jù)中包含了超過(guò)3萬(wàn)億tokens,使用了超過(guò)1000+TB數(shù)據(jù)訓(xùn)練,指令微調(diào)數(shù)據(jù)也在千萬(wàn)級(jí)。 并且盤(pán)古基礎(chǔ)大模型是一個(gè)可伸縮、高可擴(kuò)展的稀疏-稠密語(yǔ)言大模型。 千億級(jí)別稠密模型已經(jīng)具備涌現(xiàn)、思維鏈能力,構(gòu)成了底座;通過(guò)稀疏化使其成為不同“行業(yè)專(zhuān)家”,這樣可使得推理過(guò)程更加高效。 L1層由N個(gè)行業(yè)大模型構(gòu)成。 在這方面,華為使用行業(yè)公開(kāi)數(shù)據(jù)訓(xùn)練了多個(gè)行業(yè)通用大模型,如政務(wù)、金融、制造、礦山、氣象等。 比如氣象方面,盤(pán)古氣象大模型的最新成果剛剛登上Nature正刊,只需要1.4秒就能完成24小時(shí)全球氣象預(yù)報(bào)。 此外,行業(yè)可以換也能基于自有數(shù)據(jù)在L0、L1基礎(chǔ)上,訓(xùn)練自己的專(zhuān)用大模型。 L2層則提供更加細(xì)化場(chǎng)景的模型,主打“開(kāi)箱即用”。可專(zhuān)注于政務(wù)熱線、網(wǎng)點(diǎn)助手、先導(dǎo)藥物篩選、傳送帶異物檢測(cè)、臺(tái)風(fēng)路徑預(yù)測(cè)等具體行業(yè)應(yīng)用或特定業(yè)務(wù)場(chǎng)景。 據(jù)了解,為快速適配、快速滿(mǎn)足行業(yè)需求,盤(pán)古大模型采用完全的分層解耦設(shè)計(jì)。 在L0和L1大模型的基礎(chǔ)上,華為云還提供了大模型行業(yè)開(kāi)發(fā)套件,通過(guò)對(duì)自有數(shù)據(jù)二次訓(xùn)練,就可以擁有自己的專(zhuān)屬行業(yè)大模型。 同時(shí),根據(jù)客戶(hù)不同的數(shù)據(jù)安全與合規(guī)訴求,盤(pán)古大模型還提供了公用云、大模型云專(zhuān)區(qū)、混合云多樣化的部署形態(tài)。 華為在最底層構(gòu)建了以鯤鵬和昇騰為基礎(chǔ)的AI算力云平臺(tái),以及異構(gòu)計(jì)算架構(gòu)CANN、全場(chǎng)景AI框架昇思MindSpore,AI開(kāi)發(fā)生產(chǎn)線ModelArts等,能為大模型開(kāi)發(fā)和運(yùn)行提供分布式并行加速,算子和編譯優(yōu)化、集群級(jí)通信優(yōu)化等關(guān)鍵能力。 基于華為的AI根技術(shù),大模型訓(xùn)練效能可以調(diào)優(yōu)到業(yè)界主流GPU的1.1倍。 華為云2000P Flops單集群的昇騰AI云服務(wù)在烏蘭察布和貴安同時(shí)上線。 披露數(shù)據(jù)表明,昇騰云AI服務(wù)的千卡訓(xùn)練30天長(zhǎng)穩(wěn)率達(dá)到90%,斷點(diǎn)恢復(fù)時(shí)長(zhǎng)不超過(guò)10分鐘。 除了支持華為的AI框架Mindspore外,還支持Pytorch,Tensorflow等主流AI框架,框架中的90%算子,都可以通過(guò)華為的遷移工具從GPU平滑遷移到昇騰。 例如,美圖僅用30天就將70個(gè)模型遷移到了昇騰,同時(shí)華為云和美圖團(tuán)隊(duì)一起進(jìn)行了30多個(gè)算子的優(yōu)化以及流程的并行加速,AI性能較原有方案提升了30%。 氣象大模型登上Nature正刊在展示盤(pán)古大模型3.0的基礎(chǔ)能力后,華為也對(duì)盤(pán)古大模型的一系列行業(yè)應(yīng)用做了數(shù)據(jù)披露。 最近,盤(pán)古氣象大模型登上Nature的消息刷屏了。 據(jù)悉,盤(pán)古氣象大模型是首個(gè)精度超過(guò)傳統(tǒng)數(shù)值預(yù)報(bào)方法的AI預(yù)測(cè)模型,同時(shí)預(yù)測(cè)速度也有大幅提升。 原來(lái)預(yù)測(cè)一個(gè)臺(tái)風(fēng)未來(lái)10天的路徑,需要在3000臺(tái)服務(wù)器的高性能計(jì)算機(jī)集群上花費(fèi)5小時(shí)進(jìn)行仿真。現(xiàn)在基于預(yù)訓(xùn)練的盤(pán)古氣象大模型,通過(guò)AI推理的方式,研究者只需單臺(tái)服務(wù)器上單卡配置,10秒內(nèi)就可以獲得更精確的預(yù)測(cè)結(jié)果。 在藥物研發(fā)領(lǐng)域,原來(lái)一款新藥研發(fā)平均需要10年時(shí)間、花費(fèi)10億美金。盤(pán)古藥物分子大模型助力西安交通大學(xué)第一附屬醫(yī)院劉冰教授團(tuán)隊(duì)發(fā)現(xiàn)全球40年來(lái)首個(gè)新靶點(diǎn)、新類(lèi)別的抗生素,并將先導(dǎo)藥物研發(fā)周期縮短至1個(gè)月、研發(fā)成本降低70%。 在鐵路領(lǐng)域,盤(pán)古鐵路大模型能精準(zhǔn)識(shí)別現(xiàn)網(wǎng)運(yùn)行的67種貨車(chē)、430多種故障,無(wú)故障圖片篩除率高達(dá)95%,成為貨運(yùn)列檢員身邊有力的數(shù)字助手,將列檢員從每日數(shù)百萬(wàn)張的“圖?!睓z測(cè)中解放出來(lái)。 華為常務(wù)董事、華為云CEO張平安給最新動(dòng)向,做了最凝練的總結(jié):
— 完 — 量子位 QbitAI · 頭條號(hào)簽約 關(guān)注我們,第一時(shí)間獲知前沿科技動(dòng)態(tài) |
|