<del id="w0cy0"></del>

淺析 | 大語言模型細(xì)節(jié)、訓(xùn)練及微調(diào)

520jefferson 2023-09-06 發(fā)布于中國香港

展開全文

在之前推文中，筆者從初學(xué)者角度簡要闡述AI1.0和AI2.0，詳見文章淺析 | 從AI1.0到AI2.0 — 概念、原理及技術(shù)，并在文中推薦閱讀綜述《A Survey of Large Language Models》（2023年），現(xiàn)已上傳其對應(yīng)的中文版本，私信本號'PPT'獲取。最近，筆者關(guān)注的知乎博主"回旋托馬斯x"（文章鏈接詳見附錄）最近也發(fā)表了類似PPT綜述，介紹大模型結(jié)構(gòu)、訓(xùn)練目標(biāo)、位置編碼、tokenizer、層歸一化、激活函數(shù)及多頭注意力機(jī)制等重要細(xì)節(jié)；同時(shí)對大模型數(shù)據(jù)并行、張量并行、零冗余優(yōu)化器ZeRO、混合精度訓(xùn)練、Flash Attention、Paged Attention等主流常見的分布式訓(xùn)練技術(shù)進(jìn)行了分析匯總；最后對prompt tuning、prefix tuning、adapter、LLaMA-adapter、 LoRA大模型高效微調(diào)技術(shù)也進(jìn)行說明，雖然關(guān)于高效微調(diào)技術(shù)的內(nèi)容在筆者往期文章中大部分已提到，但為了保持原作文章完整性，這里做了保留。"回旋托馬斯x"的綜述很適合作為筆者之前文章的姊妹篇或進(jìn)階篇，該綜述針對大模型及其前沿技術(shù)做了更為具體全面的介紹，非常利于大家按圖索驥理解并掌握大模型最核心的學(xué)習(xí)脈絡(luò)，因此，在經(jīng)作者允許情況下，筆者將其梳理如下。

參考

https://zhuanlan.zhihu.com/p/647843722

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： 520jefferson > 《機(jī)器學(xué)習(xí)/深度學(xué)習(xí)/tensorflow》

舉報(bào)/認(rèn)領(lǐng)