金磊 明敏 發(fā)自 凹非寺 量子位 | 公眾號 QbitAI開源最徹底的大模型來了——130億參數,無需申請即可商用。 不僅如此,它還附帶著把全球最大之一的中文數據集也一并開源了出來:600G、1500億tokens! 這就是來自昆侖萬維的Skywork-13B系列,包含兩大版本: 在各大權威評測benchmark上,如C-Eval、MMLU、CMMLU、GSM8K,可以看到Skywork-13B在中文開源模型中處于前列,在同等參數規(guī)模下為最優(yōu)水平。 而Skywork-13B系列之所以能取得如此亮眼的成績,部分原因離不開剛才我們提到的數據集。 畢竟清洗好的中文數據對于大模型來說可謂是至關重要,幾乎從某種程度上決定了其性能。 但昆侖萬維能將如此“至寶”無償地給奉獻出來,不難看出它對于構建開源社區(qū)、服務開發(fā)者的慢慢誠意。 除此之外,昆侖萬維Skywork-13B此次還配套了“輕量版”大模型,是在消費級顯卡中就能部署和推理的那種! Skywork-13B下載地址(Model Scope): https:///organization/skywork Skywork-13B下載地址(Github): https://github.com/SkyworkAI/Skywork 接下來,我們進一步來看下Skywork-13B系列更多的能力。 無需申請即可商用Skywork-13B系列大模型擁有130億參數、3.2萬億高質量多語言訓練數據。 由此,模型在生成、創(chuàng)作、數學推理等任務上提升明顯。 首先在中文語言建模困惑度評測中,Skywork-13B系列大模型超越了目前所有中文開源模型。 在科技、金融、政務、企業(yè)服務、文創(chuàng)、游戲等領域均表現出色。 另外,Skywork-13B-Math專長數學任務,進行過數學能力強化訓練,在GSM8K等數據集中取得了同等規(guī)模模型最佳效果。 與此同時,昆侖萬維還開源了數據集Skypile/Chinese-Web-Text-150B。其數據是通過精心過濾的數據處理流程從中文網頁中篩選而來。 由此,開發(fā)者可以最大程度借鑒技術報告中大模型預訓練的過程和經驗,深度定制模型參數,進行針對性訓練與優(yōu)化 。 除此之外,Skywork-13B還公開了模型使用的評估方法、數據配比研究和訓練基礎設施調優(yōu)方案等。 而Skywork-13B的一系列開源,無需申請即可商用! 用戶在下載模型并同意遵守《Skywork模型社區(qū)許可協議》后,不用再次申請商業(yè)授權。 授權流程也取消了對行業(yè)、公司規(guī)模、用戶數量等方面限制。 昆侖萬維會如此徹底開源其實也并不意外。 昆侖萬維董事長兼CEO方漢是最早參與到開源生態(tài)建設的老兵了,也是中文Linux開源最早的推動者之一。 在今年ChatGPT趨勢剛剛興起時,他就多次公開發(fā)聲、強調開源的重要性: 代碼開源可助力中國版ChatGPT彎道超車。
所以也就不難理解Skywork-13B系列大模型的推出了。 所以,Skywork-13B系列開源工作,具體是如何實現的呢? 更“瘦”結構、更全數據Skywork-13B的技術細節(jié)可以從四方面看起: 首先在結構上,Skywork-13B相比Llama2-13B,更加“瘦長”,模型層數為52。 這樣做的好處是能在大Batch Size訓練下取得更好泛化效果。 同時將FFN Dim縮小到12288和4608,可以保證模型參數量和原始Llama2-13B模型相當。 具體Skywork-13B和Llama2-13B對比如下: 其次在數據方面,昆侖萬維也公開了英文、中文、代碼數據的比例。 可以看到中英文部分吸收了大量網頁數據和社交媒體數據,同時兼顧了相對專業(yè)的方面,比如學術論文、年報、文書等。 代碼方面則主要從GitHub上吸收數據。 在訓練方法方面,Skywork-13B也是完全開源。 訓練共有兩個階段: 第一階段使用通用語料進行通用能力學習,第二部分加入STEM(科學,技術,工程,數學)相關數據進一步增強模型的推理能力、數學能力、問題解決能力。 這樣做的好處是能更加精細化利用數據。 最后在模型評估方面,昆侖萬維給出了領域數據困惑度評估方法。 大語言模型訓練的本質是讓預測的下一個詞(個體)更加準確。 昆侖萬維認為評估基礎大模型的一個重要方式,就是評估在各個領域中,大語言模型生成文章(整體)的概率。 一般模型預測下一個詞的概率會使用Cross Entropy損失函數,整體的損失函數為每個位置預測真實詞損失的平均: n表示文檔長度(token數量),pi是位置i上真實詞的概率。 將文檔中每個位置上真實詞的概率連乘,則為生成文檔整體的概率。 這樣一來,就能將loss和生成文章的概率聯系在一起了。 而由于不同模型使用的分詞器不同,token數量不同,因此對損失函數乘以token數目n,這樣就能僅考慮生成文章的概率部分,不同模型也可以進行比較。 將標準化后loss取指數轉換成perplexity(困惑),可以使模型的差異更加可讀。 基于如上分析,昆侖萬維在多個領域篩選出了這個月發(fā)表的成百上千篇高質量文章(2023年10月),并進行人工核對。 選擇最新的數據,為的是保證測試數據不在所有評估大模型的訓練集范圍內。 如下是最后評估結果,可以看到Skywork-13B表現突出。 如何評價?對于昆侖萬維此次的開源發(fā)布,可以說它主打的就是個“敢”。 畢竟能將大模型背后的利器——高質量數據集,能夠如此毫不避諱地放出來共享,放眼全球范圍都是寥寥無幾的存在。 而若是將時間線拉開來看,我們就不難理解昆侖萬維是怎么這么“敢”的了。 早在今年年初、全球各大廠商大模型“爭奇斗艷”白熱化階段,昆侖萬維就以黑馬的姿態(tài)直接殺入百模大戰(zhàn)。 首發(fā)就敢以現場直播、實時演示的方式,讓天工參加自家程序員面試,并且很流暢地通過了第一關: 而且除了面試題之外,昆侖萬維還敢直面彈幕中網友們現場提出的各種刁鉆問題: 在接下來的時間里,昆侖萬維還保持著數月一迭代的優(yōu)化,讓語義理解、推理等任務變得更加絲滑。 并且在8月底,昆侖萬維率先在國內推出了第一款融入大模型能力的AI搜索。 是當時刨除插件形式之外,第一個敢將大模型能力投入應用的獨立AI搜索產品。 而在短短2個月后,昆侖萬維又將最新的大模型、最新的數據集,一并發(fā)布且開源,可以說它的一切動作不僅在于快,更是在于敢。 那么接下來的問題是——為什么要這么做? 其實,對于AIGC這一板塊,昆侖萬維早在2020年便已經開始涉足,早早的準備和技術積累就是它能夠在大熱潮來臨之際快速跟進的原因之一。 據了解,昆侖萬維目前已形成AI大模型、AI搜索、AI游戲、AI音樂、AI動漫、AI社交六大AI業(yè)務矩陣。 至于不遺余力的將開源這事做好做大,一方面是源于企業(yè)的基因。 昆侖萬維董事長兼CEO方漢是最早參與到開源生態(tài)建設的開源老兵,也是中文Linux開源最早的推動者之一,開源的精神和AIGC技術的發(fā)展早已在昆侖萬維戰(zhàn)略中完美融合。 正如方漢此前所言: 昆侖天工之所以選擇開源,因為我們堅信開源是推動AIGC生態(tài)發(fā)展的土壤和重要力量。昆侖萬維致力于在AIGC模型算法方面的技術創(chuàng)新和開拓,致力于推進開源AIGC算法和模型社區(qū)的發(fā)展壯大,致力于降低AIGC技術在各行各業(yè)的使用和學習門檻。
沒錯,降低門檻,便是其堅持開源的另一大原因。 從昆侖萬維入局百模大戰(zhàn)以來的種種動作中,也很容易看到它正在踐行著讓天工用起來更簡單、更絲滑。 總而言之,昆侖萬維目前已然是處于國產大模型的第一梯隊,甚至說是立于金字塔尖都不足為過。 那么在更大力度的開源加持之下,天工大模型還將有怎樣驚艷的表現,是值得期待一波了。
|