性能全面超越LLaMA2，0門檻商用，這個(gè)國產(chǎn)大模型要改變開源競爭格局了

天承辦公室 2023-11-03 發(fā)布于山西

展開全文

機(jī)器之心報(bào)道

機(jī)器之心編輯部

開源大模型領(lǐng)域的進(jìn)化節(jié)奏，越來越快。

今年 7 月，Meta 開源了 LLaMA2，以強(qiáng)大的性能和免費(fèi)商用的特質(zhì)，受到了開發(fā)者和眾多企業(yè)的擁護(hù)。基于 LLaMA2 各個(gè)版本微調(diào)的落地成果不斷涌現(xiàn)，大模型領(lǐng)域的競爭格局迅速發(fā)生變化。

業(yè)界普遍認(rèn)為，在開源大模型的攻勢(shì)下，一部分閉源大模型廠商的「護(hù)城河」將慢慢瓦解。難以負(fù)擔(dān)大模型 API 高昂調(diào)用成本的中小企業(yè)和開發(fā)者，有了另一條更具性價(jià)比的出路。

與此同時(shí)，國產(chǎn)大模型開源力量也在技術(shù)上不斷追趕加速。

近日，一項(xiàng)重磅開源吸引了領(lǐng)域內(nèi)的高度關(guān)注：昆侖萬維大語言模型「天工」Skywork-13B 系列正式宣布開源。

之所以說是「重磅」，是因?yàn)?Skywork-13B 不僅在 C-Eval，MMLU 等基準(zhǔn)測試上全面超越了 LLaMA2-13B，而且這次開源范圍包括了 Skywork-13B-Base 模型、Skywork-13B-Math 模型以及每個(gè)模型的量化版模型。此外，昆侖萬維還同時(shí)開源了 600GB、150B Tokens 的高質(zhì)量中文語料數(shù)據(jù)集「Skypile/Chinese-Web-Text-150B」。昆侖萬維還宣布，Skywork-13B 系列大模型將全面開放商用 —— 開發(fā)者無需申請(qǐng)，0 門檻商用。

Skywork-13B 下載地址（Model Scope）：https:///organization/skywork
Skywork-13B 下載地址（Github）：https://github.com/SkyworkAI/Skywork
技術(shù)報(bào)告地址：https:///pdf/2310.19341.pdf

昆侖萬維董事長兼 CEO 方漢在云棲大會(huì) AI 大模型新勢(shì)力分論壇現(xiàn)場分享 Skywork-13B 系列大模型開源與 AI 場景應(yīng)用落地

國產(chǎn)開源大模型全面趕超之路

這次 Skywork-13B 系列的發(fā)布，可以說是國產(chǎn)開源大模型的又一力作。

Skywork-13B-Base 模型基于高質(zhì)量清洗過濾的 3.2 萬億個(gè)多語言（主要是中文和英文）和代碼數(shù)據(jù)的訓(xùn)練，在多種評(píng)測和各種基準(zhǔn)測試上全面超越了 LLaMA2-13B 等開源大模型，在同等參數(shù)規(guī)模下為最優(yōu)水平。

評(píng)測 Benchmark 包括 C-Eval，MMLU，CMMLU，GSM8K。遵循之前的評(píng)估流程，C-Eval、MMLU、CMMLU 測試 5-shot 結(jié)果，GSM8K 測試 8-shot 結(jié)果?？梢钥吹剑琒kywork-13B-Base 模型在中文開源模型中處于前列，多項(xiàng)測評(píng)為同等參數(shù)規(guī)模下為最優(yōu)水平。截止至 10 月 25 日數(shù)據(jù)。

對(duì)于密切關(guān)注大模型領(lǐng)域進(jìn)展的人來說，上述與 Skywork-13B 進(jìn)行對(duì)比的開源大模型系列的名字并不陌生。

過去一段時(shí)間里，各個(gè)系列開源大模型版本迭代讓人應(yīng)接不暇。這是一場火熱的開源競逐，對(duì)于整個(gè)大模型領(lǐng)域有著絕對(duì)的積極意義。

任何一個(gè)技術(shù)領(lǐng)域的生態(tài)構(gòu)建，前沿技術(shù)的普及與真正落地，都離不了開源社區(qū)的力量。知識(shí)的共享、交流、碰撞，反過來也會(huì)加速技術(shù)的創(chuàng)新和商業(yè)化落地，讓人們享受到更多 AI 技術(shù)帶來的革新體驗(yàn)。

昆侖萬維向機(jī)器之心表示，Skywork-13B 系列大模型的開源，正是希望讓更多開發(fā)者們參與到 AIGC 的技術(shù)發(fā)展中，在共創(chuàng)和共享中推動(dòng)技術(shù)的提升。

事實(shí)上，自大模型概念誕生之初，「開源」和「閉源」兩條路線就同時(shí)存在，只不過二者所指向的資金、人才和商業(yè)模式的理念截然不同。

五年前，OpenAI 開始 GPT 系列研發(fā)的時(shí)候，也曾是開源路線的堅(jiān)定擁護(hù)者。不過這家公司逐漸走向了封閉，以至于今天我們都無從求證 ChatGPT 背后是多少參數(shù)量的模型。

緊跟其后的谷歌同樣只公布了一篇未透露任何關(guān)鍵信息的 PaLM-2 技術(shù)報(bào)告，被譽(yù)為「OpenAI 最強(qiáng)競對(duì)」的 Anthropic 更是直接選擇不發(fā)布 Claude 技術(shù)報(bào)告。

既然「OpenAI 們」不再「Open」，除了「重新造輪子」這個(gè)選項(xiàng)之外，人們的目光迅速轉(zhuǎn)向開源的力量。

大模型開源，仍存在「三大痛點(diǎn)」

選擇加入這場開源大模型的競爭，并不是昆侖萬維「臨時(shí)起意」。

昆侖萬維董事長兼 CEO 方漢是最早參與到開源生態(tài)建設(shè)的「開源老兵」，也是中文 Linux 開源最早的推動(dòng)者之一。

作為「開源老兵」，方漢判斷，當(dāng)前，大模型開源至少還有三大痛點(diǎn)：

1、中文數(shù)據(jù)極其稀缺與寶貴

2、模型訓(xùn)練細(xì)節(jié)不公開

3、模型開源面臨諸多商用限制

比如 LLaMA2 這樣的開源大模型，僅發(fā)布了原始模型權(quán)重與推理腳本，不支持訓(xùn)練 / 微調(diào)，也未提供數(shù)據(jù)集，且訓(xùn)練數(shù)據(jù)里中文語料僅占 0.13%，更不用說復(fù)雜的「可商用協(xié)議」了。

方漢曾向機(jī)器之心表示，LLaMA2 開源并沒有對(duì)外披露數(shù)據(jù)層的具體信息，因此復(fù)現(xiàn) LLaMA2 成為一件受限制的事情?！副热缫蛔鶚欠?，你只能在這個(gè)基礎(chǔ)之上去裝修卻做外設(shè)，但是你沒有辦法去改變它的鋼混結(jié)構(gòu)，你沒有訓(xùn)練它底座的權(quán)限和能力，所以它的性能很難突破，逼近 GPT-4 這個(gè)事情是不可能的?！?/span>

對(duì)開源大模型有需求、也真正接觸過此類開源大模型的人大概都能感受到，這樣做的結(jié)果就是：開源了，但沒完全開源。

國產(chǎn)開源大模型的趕超，完全可以從上述三個(gè)痛點(diǎn)入手。

首先，數(shù)據(jù)的質(zhì)量會(huì)對(duì)大模型的性能起到至關(guān)重要的作用，有了足夠多的可公開訪問的網(wǎng)絡(luò)數(shù)據(jù)，更容易訓(xùn)練出高質(zhì)量的大語言模型。正因此，很少有大模型廠商會(huì)將其共享出來，而清洗好的中文數(shù)據(jù)更是眼下的稀缺資源。

在構(gòu)建 Skywork-13B 的過程，昆侖萬維整理了一個(gè)超過 6 萬億個(gè) Token 的高質(zhì)量語料庫「SkyPile」。訓(xùn)練完成后，他們精選出一個(gè) 600GB、150B Tokens 的高質(zhì)量中文語料數(shù)據(jù)集 Skypile/Chinese-Web-Text-150B，包含大量根據(jù)精心過濾的數(shù)據(jù)處理流程從中文網(wǎng)頁中篩選出的高質(zhì)量數(shù)據(jù)，直接公開發(fā)布。

這也是目前最大的開源中文數(shù)據(jù)集之一。關(guān)于「Skypile/Chinese-Web-Text-150B」的數(shù)據(jù)收集方法和過程，昆侖萬維在技術(shù)報(bào)告中進(jìn)行了詳細(xì)介紹，供所有研究者和從業(yè)者參考。

其次，昆侖萬維還公開了訓(xùn)練 Skywork-13B 模型使用的評(píng)估方法、數(shù)據(jù)配比研究和訓(xùn)練基礎(chǔ)設(shè)施調(diào)優(yōu)方案等技術(shù)細(xì)節(jié)。

在訓(xùn)練方法上，為了更加精細(xì)化利用數(shù)據(jù)，Skywork-13B 開源系列模型采用了兩階段訓(xùn)練方法，第一階段使用通用語料進(jìn)行模型通用能力學(xué)習(xí)，第二部分加入 STEM（科學(xué)，技術(shù)，工程，數(shù)學(xué)）相關(guān)數(shù)據(jù)進(jìn)一步增強(qiáng)模型的推理能力、數(shù)學(xué)能力、問題解決能力。

在模型結(jié)構(gòu)上，Skywork-13B 模型采用相對(duì) LLaMA2-13B 更加瘦長的網(wǎng)絡(luò)結(jié)構(gòu)，層數(shù)為 52 層，同時(shí)將 FFN Dim 和 Hidden Dim 縮小到 12288 和 4608，從而保證模型參數(shù)量和原始 LLaMA-13B 模型相當(dāng)。根據(jù)前期實(shí)驗(yàn)，相對(duì)瘦長的網(wǎng)絡(luò)結(jié)構(gòu)在大 Batch Size 訓(xùn)練下可以取得更好的泛化效果。

Skywork-13B 和 LLaMA-2-13B 模型的對(duì)比。

如此一來，開發(fā)者可以最大程度地借鑒技術(shù)報(bào)告中大模型預(yù)訓(xùn)練的過程和經(jīng)驗(yàn)，深度定制模型參數(shù)，有針對(duì)性地進(jìn)行訓(xùn)練與優(yōu)化。

更關(guān)鍵的一點(diǎn)便是「可商用協(xié)議」，領(lǐng)域內(nèi)寄希望于開源大模型加速商業(yè)化落地，但現(xiàn)在開源社區(qū)用戶通常需要進(jìn)行復(fù)雜的商用授權(quán)申請(qǐng)流程，在某些情況下，甚至對(duì)公司規(guī)模、所在行業(yè)、用戶數(shù)等維度有明確規(guī)定不予授權(quán)。這似乎與開源的宗旨背道而馳了。

而 Skywork-13B 系列在商用層面制定的規(guī)則是「沒有限制」—— 全面開放，開發(fā)者無需額外申請(qǐng)，即可直接商用。

用戶在下載模型后同意并遵守《Skywork 模型社區(qū)許可協(xié)議》后，不必再次申請(qǐng)授權(quán)即可將大模型進(jìn)行商業(yè)用途。

這種徹底的開源行為在行業(yè)內(nèi)十分少見，將授權(quán)流程做到極簡，取消對(duì)行業(yè)、公司規(guī)模、用戶等方面的限制，足以看出昆侖萬維以 Skywork-13B 系列推動(dòng)開源社區(qū)發(fā)展的決心。

開源大模型跨過商用門檻，推動(dòng)生態(tài)繁榮

大模型時(shí)代的序幕已拉開，就像今天的水電煤一樣，大模型會(huì)成為未來社會(huì)的基礎(chǔ)設(shè)施。

模型開源能夠幫助用戶簡化模型訓(xùn)練和部署的過程，使其不必從零開始訓(xùn)練，只需下載預(yù)訓(xùn)練好的模型進(jìn)行微調(diào)，就可快速構(gòu)建高質(zhì)量的模型。

更進(jìn)一步說，開源大模型能夠降低企業(yè)和開發(fā)者的研發(fā)門檻和使用成本，最大化共享技術(shù)能力和經(jīng)驗(yàn)，讓更多人參與到 AI 引領(lǐng)的科技變革中去。

自從 LLaMA2 之后，開源大模型的實(shí)力跨越了商用門檻，已經(jīng)能夠與閉源大模型相抗衡。而 Skywork-13B 系列的面世，讓用戶有了一項(xiàng)更好的選擇。

在方漢看來，技術(shù)本身會(huì)快速迭代演進(jìn)，只有開源才能滿足各種長尾需求，真正做到百花齊放，而不會(huì)出現(xiàn)由大型互聯(lián)網(wǎng)公司獨(dú)霸 AI 基礎(chǔ)設(shè)施的局面。

當(dāng)然，想要做好開源不僅僅依靠決心，還需要深厚的實(shí)力做底牌。

昆侖萬維董事長兼 CEO 方漢在云棲大會(huì) AI 大模型新勢(shì)力分論壇現(xiàn)場分享 Skywork-13B 系列大模型開源與 AI 場景應(yīng)用落地

憑借對(duì)科技發(fā)展趨勢(shì)的超前預(yù)判，昆侖萬維早在 2020 年便已開始布局 AIGC 領(lǐng)域。至今，已積累近三年的相關(guān)工程研發(fā)經(jīng)驗(yàn)，并建立了行業(yè)領(lǐng)先的預(yù)訓(xùn)練數(shù)據(jù)深度處理能力，昆侖萬維也在人工智能領(lǐng)域取得了重大突破，目前已形成 AI 大模型、AI 搜索、AI 游戲、AI 音樂、AI 動(dòng)漫、AI 社交六大 AI 業(yè)務(wù)矩陣，是國內(nèi)模型技術(shù)與工程能力最強(qiáng)，布局最全面，同時(shí)全身心投入開源社區(qū)建設(shè)的企業(yè)之一。

在北京市經(jīng)濟(jì)和信息化局公布的《北京市通用人工智能產(chǎn)業(yè)創(chuàng)新伙伴計(jì)劃成員名單》中，昆侖萬維憑借在 AIGC 領(lǐng)域的前沿探索和投資布局，成為了第一批模型伙伴和投資伙伴。

回望過去一年，大模型的熱潮最初由 ChatGPT 開始，卻因 LLaMA2 等開源成果的出現(xiàn)走到了一個(gè)更加好用、易用的時(shí)代。開源與閉源大模型在互相競爭，實(shí)質(zhì)上也是在相互促進(jìn)，共同推進(jìn)了大模型生態(tài)的繁榮。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：天承辦公室 > 《022機(jī)器之心》

舉報(bào)/認(rèn)領(lǐng)