一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

領(lǐng)域/場(chǎng)景大模型也太難訓(xùn)了吧

 520jefferson 2023-09-12

包包算法筆記 2023-08-18 09:27

領(lǐng)域大模型訓(xùn)練Trick

一、領(lǐng)域技術(shù)標(biāo)準(zhǔn)文檔或領(lǐng)域相關(guān)數(shù)據(jù)是領(lǐng)域模型Continue PreTrain的關(guān)鍵。

現(xiàn)有大模型在預(yù)訓(xùn)練過程中都會(huì)加入書籍、論文等數(shù)據(jù),那么在領(lǐng)域預(yù)訓(xùn)練時(shí)這兩種數(shù)據(jù)其實(shí)也是必不可少的,主要是因?yàn)檫@些數(shù)據(jù)的數(shù)據(jù)質(zhì)量較高、領(lǐng)域強(qiáng)相關(guān)、知識(shí)覆蓋率(密度)大,可以讓模型更適應(yīng)考試。當(dāng)然不是說其他數(shù)據(jù)不是關(guān)鍵,比如領(lǐng)域相關(guān)網(wǎng)站內(nèi)容、新聞內(nèi)容都是重要數(shù)據(jù),只不過個(gè)人看來,在領(lǐng)域上的重要性或者知識(shí)密度不如書籍和技術(shù)標(biāo)準(zhǔn)。

二、領(lǐng)域數(shù)據(jù)訓(xùn)練后,往往通用能力會(huì)有所下降,需要混合通用數(shù)據(jù)以緩解模型遺忘通用能力。

如果僅用領(lǐng)域數(shù)據(jù)進(jìn)行模型訓(xùn)練,模型很容易出現(xiàn)災(zāi)難性遺忘現(xiàn)象,通常在領(lǐng)域訓(xùn)練過程中加入通用數(shù)據(jù)。那么這個(gè)比例多少比較合適呢?目前還沒有一個(gè)準(zhǔn)確的答案,BloombergGPT(從頭預(yù)訓(xùn)練)預(yù)訓(xùn)練金融和通用數(shù)據(jù)比例基本上為1:1,ChatHome(繼續(xù)預(yù)訓(xùn)練)發(fā)現(xiàn)領(lǐng)域:通用數(shù)據(jù)比例為1:5時(shí)最優(yōu)。個(gè)人感覺應(yīng)該跟領(lǐng)域數(shù)據(jù)量有關(guān),當(dāng)數(shù)據(jù)量沒有那多時(shí),一般數(shù)據(jù)比例在1:5到1:10之間是比較合適的。圖片

三、領(lǐng)域模型Continue PreTrain時(shí)可以同步加入SFT數(shù)據(jù),即MIP,Multi-Task Instruction PreTraining。

預(yù)訓(xùn)練過程中,可以加下游SFT的數(shù)據(jù),可以讓模型在預(yù)訓(xùn)練過程中就學(xué)習(xí)到更多的知識(shí)。例如:T5、ExT5、Glm-130b等多任務(wù)學(xué)習(xí)在預(yù)訓(xùn)練階段可能比微調(diào)更有幫助。并且ChatHome發(fā)現(xiàn)MIP效果在領(lǐng)域上評(píng)測(cè)集上絕群。圖片

四、 僅用SFT做領(lǐng)域模型時(shí),資源有限就用在Chat模型基礎(chǔ)上訓(xùn)練,資源充足就在Base模型上訓(xùn)練。(資源=數(shù)據(jù)+顯卡)

跟很多人討論過一個(gè)問題,就是我們?cè)赟FT的時(shí)候是在Base模型上訓(xùn)練還是在Chat模型上訓(xùn)練。

其實(shí)很簡(jiǎn)單,如果你只有5k數(shù)據(jù),建議你在Chat模型上進(jìn)行微調(diào);如果你有10w數(shù)據(jù),建議你在Base模型上進(jìn)行微調(diào)。因?yàn)槟悴恢狢hat模型在SFT時(shí)的數(shù)據(jù)質(zhì)量如何,當(dāng)自己有能力時(shí),靠人不如靠己。

五、在Chat模型上進(jìn)行SFT時(shí),請(qǐng)一定遵循Chat模型原有的系統(tǒng)指令&數(shù)據(jù)輸入格式。

如果你在Chat模型上進(jìn)行SFT的時(shí)候,請(qǐng)跟Chat模型的輸入格式一致,否則當(dāng)你數(shù)據(jù)量不足時(shí),可能會(huì)導(dǎo)致訓(xùn)練效果不明顯。并且建議不采用全量參數(shù)訓(xùn)練,否則模型原始能力會(huì)遺忘較多。

六、領(lǐng)域評(píng)測(cè)集時(shí)必要內(nèi)容,建議有兩份,一份選擇題形式自動(dòng)評(píng)測(cè)、一份開放形式人工評(píng)測(cè)。

一定要有自己的領(lǐng)域數(shù)據(jù)集來驗(yàn)證模型效果,來選擇最好的checkpoint。選擇題形式可以自動(dòng)評(píng)測(cè),方便模型進(jìn)行初篩;開放形式人工評(píng)測(cè)比較浪費(fèi)時(shí)間,可以用作精篩,并且任務(wù)形式更貼近真實(shí)場(chǎng)景。

七、領(lǐng)域模型詞表擴(kuò)增是不是有必要的。

個(gè)人感覺,領(lǐng)域詞表擴(kuò)增真實(shí)解決的問題是解碼效率的問題,給模型效果帶來的提升可能不會(huì)有很大。(這里領(lǐng)域詞表擴(kuò)充是指在同語言模型上擴(kuò)充詞表,而不是英文模型的中文漢化)

八、所謂的領(lǐng)域大模型會(huì)更新的越來越快,越來越多。

由于很多人&公司并沒有資源搞底座,因此需要在現(xiàn)有底座模型上進(jìn)行增量預(yù)訓(xùn)練、微調(diào)等。而以目前各廠(ChatGLM、BaiChuan、Qwen、Llama)搶占開源社區(qū)占比的架勢(shì),感覺會(huì)有很多7B、13B級(jí)別模型開源。

請(qǐng)等待一言、ChatGPT開源小模型的一天,說不定GPT5出來的時(shí)候,Openai會(huì)開源個(gè)GPT3.5的小版本模型。

領(lǐng)域大模型落地的想法

一、常說通用模型的領(lǐng)域化可能是偽命題,那么領(lǐng)域大模型的通用化是否也是偽命題。

自訓(xùn)練模型開始,就一直再跟Leader Battle這個(gè)問題,領(lǐng)域大模型需不需要有通用化能力。就好比華為盤古大模型“只做事不作詩”的slogan,是不是訓(xùn)練的領(lǐng)域大模型可以解決固定的幾個(gè)任務(wù)就可以了。

個(gè)人的一些拙見是,如果想快速的將領(lǐng)域大模型落地,最簡(jiǎn)單的是將系統(tǒng)中原有能力進(jìn)行升級(jí),即大模型在固定的某一個(gè)或某幾個(gè)任務(wù)上的效果超過原有模型。

以Text2SQL任務(wù)舉例,之前很多系統(tǒng)中的方法是通過抽取關(guān)鍵要素&拼接方式來解決,端到端解決的并不是很理想,那么現(xiàn)在完全可以用大模型SQL生成的能力來解決。在已有產(chǎn)品上做升級(jí),是代價(jià)最小的落地方式。就拿我司做的“云中問道”來說,在解決某領(lǐng)域某場(chǎng)景SQL任務(wù)上效果可以達(dá)到90%+,同比現(xiàn)有開源模型&開放API高了不少。

當(dāng)然還有很多其他任務(wù)可以升級(jí),例如:D2QA、D2SPO、Searh2Sum等等等。

二、領(lǐng)域大模型落地,任務(wù)場(chǎng)景要比模型能力更重要。

雖說在有產(chǎn)品上做升級(jí),是代價(jià)最小的落地方式,但GPT4、AutoGPT已經(jīng)把人們胃口調(diào)的很高,所有人都希望直接提出一個(gè)訴求,大模型直接解決。但這對(duì)現(xiàn)有領(lǐng)域模型是十分困難的,所以在哪些場(chǎng)景上來用大模型是很關(guān)鍵的,并且如何將模型進(jìn)行包裝,及時(shí)在模型能力不足的情況下,也可以讓用戶有一個(gè)很好的體驗(yàn)。

現(xiàn)在很多人的疑惑是,先不說有沒有大模型,就算有了大模型都不知道在哪里使用,在私有領(lǐng)域都找不到一個(gè)Special場(chǎng)景。

所以最終大模型的落地,拼的不是模型效果本身,而是一整套行業(yè)解決方案,“Know How”成為了關(guān)鍵要素。

三、大多數(shù)企業(yè)最終落地的模型規(guī)格限制在了13B。

由于國(guó)情,大多數(shù)企業(yè)最終落地的方案應(yīng)該是本地化部署,那么就會(huì)涉及硬件設(shè)備的問題。我并不絕的很有很多企業(yè)可以部署的起100B級(jí)別的模型,感覺真實(shí)部署限制在了10B級(jí)別。即使現(xiàn)在很多方法(例如:llama.cpp)可以對(duì)大模型進(jìn)行加速,但100B級(jí)別的模型就算加速了,也是龐大資源消耗。

我之前說過“沒有體驗(yàn)過33B模型的人,只會(huì)覺得13B就夠”,更大的模型一定要搞,但不影響最后落地的是10B級(jí)別。

做大模型的心路歷程

一開始ChatGPT剛剛爆火的時(shí)候,根本沒想過我們也配做大模型。但當(dāng)國(guó)內(nèi)涌現(xiàn)出了許多中文大模型,并Alpaca模型證明70億參數(shù)量的模型也有不錯(cuò)效果的時(shí)候,給了我很大的信心,當(dāng)然也給很多人和很多企業(yè)更多的信心。

在中小企業(yè)做大模型,經(jīng)常被質(zhì)問的是“沒有100張卡也可以做大模型”,我只想說需要看對(duì)“大”的定義,175B的模型確實(shí)沒有資格觸碰,但33B的模型還是可以玩耍的。真正追趕OpenAI是需要一批人,但模型落地還是需要另外一批人的。

趕上大模型是我們的幸運(yùn),可以在領(lǐng)域大模型上發(fā)聲是我幸運(yùn)。

總結(jié)

最后共勉:BERT時(shí)代況且還在用TextCNN,難道13B的模型就不叫大模型嗎?


    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    亚洲国产精品一区二区| 国产精品视频第一第二区| 国产一级二级三级观看| 国产成人精品午夜福利av免费| 日本高清不卡一二三区| 欧美日韩综合在线精品| 亚洲熟女乱色一区二区三区| 日本在线高清精品人妻| 午夜精品黄片在线播放| 一区二区三区人妻在线| 1024你懂的在线视频| 九九热视频网在线观看| 在线观看国产午夜福利| 国产又粗又爽又猛又黄的 | 久久国产精品熟女一区二区三区| 国产欧洲亚洲日产一区二区| 最近中文字幕高清中文字幕无| 色欧美一区二区三区在线| 91爽人人爽人人插人人爽| 精品一区二区三区乱码中文| 黄色av尤物白丝在线播放网址| 中文字幕亚洲精品乱码加勒比| 韩国激情野战视频在线播放| 国产在线一区二区免费| 五月综合婷婷在线伊人| 精品人妻一区二区三区在线看| 草草草草在线观看视频| 免费观看在线午夜视频| 久热香蕉精品视频在线播放| 国产精品一区二区日韩新区| 日本大学生精油按摩在线观看| 亚洲国产综合久久天堂| 国产大屁股喷水在线观看视频| 精品日韩中文字幕视频在线| 精品少妇人妻av免费看| 婷婷基地五月激情五月| 91欧美一区二区三区| av国产熟妇露脸在线观看| 2019年国产最新视频| 欧美国产在线观看精品| 亚洲一区二区三区av高清|