一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

性能全面超越LLaMA2,0門檻商用,這個(gè)國產(chǎn)大模型要改變開源競爭格局了

 天承辦公室 2023-11-03 發(fā)布于山西

機(jī)器之心報(bào)道

機(jī)器之心編輯部


開源大模型領(lǐng)域的進(jìn)化節(jié)奏,越來越快。

今年 7 月,Meta 開源了 LLaMA2,以強(qiáng)大的性能和免費(fèi)商用的特質(zhì),受到了開發(fā)者和眾多企業(yè)的擁護(hù)。基于 LLaMA2 各個(gè)版本微調(diào)的落地成果不斷涌現(xiàn),大模型領(lǐng)域的競爭格局迅速發(fā)生變化。

業(yè)界普遍認(rèn)為,在開源大模型的攻勢(shì)下,一部分閉源大模型廠商的「護(hù)城河」將慢慢瓦解。難以負(fù)擔(dān)大模型 API 高昂調(diào)用成本的中小企業(yè)和開發(fā)者,有了另一條更具性價(jià)比的出路。

與此同時(shí),國產(chǎn)大模型開源力量也在技術(shù)上不斷追趕加速。

近日,一項(xiàng)重磅開源吸引了領(lǐng)域內(nèi)的高度關(guān)注:昆侖萬維大語言模型「天工」Skywork-13B 系列正式宣布開源。

之所以說是「重磅」,是因?yàn)?Skywork-13B 不僅在 C-Eval,MMLU 等基準(zhǔn)測試上全面超越了 LLaMA2-13B,而且這次開源范圍包括了 Skywork-13B-Base 模型、Skywork-13B-Math 模型以及每個(gè)模型的量化版模型。此外,昆侖萬維還同時(shí)開源了 600GB、150B Tokens 的高質(zhì)量中文語料數(shù)據(jù)集「Skypile/Chinese-Web-Text-150B」。昆侖萬維還宣布,Skywork-13B 系列大模型將全面開放商用 —— 開發(fā)者無需申請(qǐng),0 門檻商用。

  • Skywork-13B 下載地址(Model Scope):https:///organization/skywork
  • Skywork-13B 下載地址(Github):https://github.com/SkyworkAI/Skywork
  • 技術(shù)報(bào)告地址:https:///pdf/2310.19341.pdf

Image

昆侖萬維董事長兼 CEO 方漢在云棲大會(huì) AI 大模型新勢(shì)力分論壇現(xiàn)場分享 Skywork-13B 系列大模型開源與 AI 場景應(yīng)用落地

國產(chǎn)開源大模型全面趕超之路

這次 Skywork-13B 系列的發(fā)布,可以說是國產(chǎn)開源大模型的又一力作。

Skywork-13B-Base 模型基于高質(zhì)量清洗過濾的 3.2 萬億個(gè)多語言(主要是中文和英文)和代碼數(shù)據(jù)的訓(xùn)練,在多種評(píng)測和各種基準(zhǔn)測試上全面超越了 LLaMA2-13B 等開源大模型,在同等參數(shù)規(guī)模下為最優(yōu)水平。

Image

評(píng)測 Benchmark 包括 C-Eval,MMLU,CMMLU,GSM8K。遵循之前的評(píng)估流程,C-Eval、MMLU、CMMLU 測試 5-shot 結(jié)果,GSM8K 測試 8-shot 結(jié)果??梢钥吹剑琒kywork-13B-Base 模型在中文開源模型中處于前列,多項(xiàng)測評(píng)為同等參數(shù)規(guī)模下為最優(yōu)水平。截止至 10 月 25 日數(shù)據(jù)。

對(duì)于密切關(guān)注大模型領(lǐng)域進(jìn)展的人來說,上述與 Skywork-13B 進(jìn)行對(duì)比的開源大模型系列的名字并不陌生。

過去一段時(shí)間里,各個(gè)系列開源大模型版本迭代讓人應(yīng)接不暇。這是一場火熱的開源競逐,對(duì)于整個(gè)大模型領(lǐng)域有著絕對(duì)的積極意義。

任何一個(gè)技術(shù)領(lǐng)域的生態(tài)構(gòu)建,前沿技術(shù)的普及與真正落地,都離不了開源社區(qū)的力量。知識(shí)的共享、交流、碰撞,反過來也會(huì)加速技術(shù)的創(chuàng)新和商業(yè)化落地,讓人們享受到更多 AI 技術(shù)帶來的革新體驗(yàn)。

昆侖萬維向機(jī)器之心表示,Skywork-13B 系列大模型的開源,正是希望讓更多開發(fā)者們參與到 AIGC 的技術(shù)發(fā)展中,在共創(chuàng)和共享中推動(dòng)技術(shù)的提升。

事實(shí)上,自大模型概念誕生之初,「開源」和「閉源」兩條路線就同時(shí)存在,只不過二者所指向的資金、人才和商業(yè)模式的理念截然不同。

五年前,OpenAI 開始 GPT 系列研發(fā)的時(shí)候,也曾是開源路線的堅(jiān)定擁護(hù)者。不過這家公司逐漸走向了封閉,以至于今天我們都無從求證 ChatGPT 背后是多少參數(shù)量的模型。

緊跟其后的谷歌同樣只公布了一篇未透露任何關(guān)鍵信息的 PaLM-2 技術(shù)報(bào)告,被譽(yù)為「OpenAI 最強(qiáng)競對(duì)」的 Anthropic 更是直接選擇不發(fā)布 Claude 技術(shù)報(bào)告。

既然「OpenAI 們」不再「Open」,除了「重新造輪子」這個(gè)選項(xiàng)之外,人們的目光迅速轉(zhuǎn)向開源的力量。

大模型開源,仍存在「三大痛點(diǎn)」

選擇加入這場開源大模型的競爭,并不是昆侖萬維「臨時(shí)起意」。
 
昆侖萬維董事長兼 CEO 方漢是最早參與到開源生態(tài)建設(shè)的「開源老兵」,也是中文 Linux 開源最早的推動(dòng)者之一。

作為「開源老兵」,方漢判斷,當(dāng)前,大模型開源至少還有三大痛點(diǎn):

1、中文數(shù)據(jù)極其稀缺與寶貴
2、模型訓(xùn)練細(xì)節(jié)不公開
3、模型開源面臨諸多商用限制

比如 LLaMA2 這樣的開源大模型,僅發(fā)布了原始模型權(quán)重與推理腳本,不支持訓(xùn)練 / 微調(diào),也未提供數(shù)據(jù)集,且訓(xùn)練數(shù)據(jù)里中文語料僅占 0.13%,更不用說復(fù)雜的「可商用協(xié)議」了。

方漢曾向機(jī)器之心表示,LLaMA2 開源并沒有對(duì)外披露數(shù)據(jù)層的具體信息,因此復(fù)現(xiàn) LLaMA2 成為一件受限制的事情?!副热缫蛔鶚欠?,你只能在這個(gè)基礎(chǔ)之上去裝修卻做外設(shè),但是你沒有辦法去改變它的鋼混結(jié)構(gòu),你沒有訓(xùn)練它底座的權(quán)限和能力,所以它的性能很難突破,逼近 GPT-4 這個(gè)事情是不可能的?!?/span>

對(duì)開源大模型有需求、也真正接觸過此類開源大模型的人大概都能感受到,這樣做的結(jié)果就是:開源了,但沒完全開源。

國產(chǎn)開源大模型的趕超,完全可以從上述三個(gè)痛點(diǎn)入手。

首先,數(shù)據(jù)的質(zhì)量會(huì)對(duì)大模型的性能起到至關(guān)重要的作用,有了足夠多的可公開訪問的網(wǎng)絡(luò)數(shù)據(jù),更容易訓(xùn)練出高質(zhì)量的大語言模型。正因此,很少有大模型廠商會(huì)將其共享出來,而清洗好的中文數(shù)據(jù)更是眼下的稀缺資源。

在構(gòu)建 Skywork-13B 的過程,昆侖萬維整理了一個(gè)超過 6 萬億個(gè) Token 的高質(zhì)量語料庫「SkyPile」。訓(xùn)練完成后,他們精選出一個(gè) 600GB、150B Tokens 的高質(zhì)量中文語料數(shù)據(jù)集 Skypile/Chinese-Web-Text-150B,包含大量根據(jù)精心過濾的數(shù)據(jù)處理流程從中文網(wǎng)頁中篩選出的高質(zhì)量數(shù)據(jù),直接公開發(fā)布。

這也是目前最大的開源中文數(shù)據(jù)集之一。關(guān)于「Skypile/Chinese-Web-Text-150B」的數(shù)據(jù)收集方法和過程,昆侖萬維在技術(shù)報(bào)告中進(jìn)行了詳細(xì)介紹,供所有研究者和從業(yè)者參考。

其次,昆侖萬維還公開了訓(xùn)練 Skywork-13B 模型使用的評(píng)估方法、數(shù)據(jù)配比研究和訓(xùn)練基礎(chǔ)設(shè)施調(diào)優(yōu)方案等技術(shù)細(xì)節(jié)。

在訓(xùn)練方法上,為了更加精細(xì)化利用數(shù)據(jù),Skywork-13B 開源系列模型采用了兩階段訓(xùn)練方法,第一階段使用通用語料進(jìn)行模型通用能力學(xué)習(xí),第二部分加入 STEM(科學(xué),技術(shù),工程,數(shù)學(xué))相關(guān)數(shù)據(jù)進(jìn)一步增強(qiáng)模型的推理能力、數(shù)學(xué)能力、問題解決能力。

在模型結(jié)構(gòu)上,Skywork-13B 模型采用相對(duì) LLaMA2-13B 更加瘦長的網(wǎng)絡(luò)結(jié)構(gòu),層數(shù)為 52 層,同時(shí)將 FFN Dim 和 Hidden Dim 縮小到 12288 和 4608,從而保證模型參數(shù)量和原始 LLaMA-13B 模型相當(dāng)。根據(jù)前期實(shí)驗(yàn),相對(duì)瘦長的網(wǎng)絡(luò)結(jié)構(gòu)在大 Batch Size 訓(xùn)練下可以取得更好的泛化效果。

Image
Skywork-13B 和 LLaMA-2-13B 模型的對(duì)比。

如此一來,開發(fā)者可以最大程度地借鑒技術(shù)報(bào)告中大模型預(yù)訓(xùn)練的過程和經(jīng)驗(yàn),深度定制模型參數(shù),有針對(duì)性地進(jìn)行訓(xùn)練與優(yōu)化。

更關(guān)鍵的一點(diǎn)便是「可商用協(xié)議」,領(lǐng)域內(nèi)寄希望于開源大模型加速商業(yè)化落地,但現(xiàn)在開源社區(qū)用戶通常需要進(jìn)行復(fù)雜的商用授權(quán)申請(qǐng)流程,在某些情況下,甚至對(duì)公司規(guī)模、所在行業(yè)、用戶數(shù)等維度有明確規(guī)定不予授權(quán)。這似乎與開源的宗旨背道而馳了。

而 Skywork-13B 系列在商用層面制定的規(guī)則是「沒有限制」—— 全面開放,開發(fā)者無需額外申請(qǐng),即可直接商用。

用戶在下載模型后同意并遵守《Skywork 模型社區(qū)許可協(xié)議》后,不必再次申請(qǐng)授權(quán)即可將大模型進(jìn)行商業(yè)用途。

這種徹底的開源行為在行業(yè)內(nèi)十分少見,將授權(quán)流程做到極簡,取消對(duì)行業(yè)、公司規(guī)模、用戶等方面的限制,足以看出昆侖萬維以 Skywork-13B 系列推動(dòng)開源社區(qū)發(fā)展的決心。

開源大模型跨過商用門檻,推動(dòng)生態(tài)繁榮

大模型時(shí)代的序幕已拉開,就像今天的水電煤一樣,大模型會(huì)成為未來社會(huì)的基礎(chǔ)設(shè)施。

模型開源能夠幫助用戶簡化模型訓(xùn)練和部署的過程,使其不必從零開始訓(xùn)練,只需下載預(yù)訓(xùn)練好的模型進(jìn)行微調(diào),就可快速構(gòu)建高質(zhì)量的模型。

更進(jìn)一步說,開源大模型能夠降低企業(yè)和開發(fā)者的研發(fā)門檻和使用成本,最大化共享技術(shù)能力和經(jīng)驗(yàn),讓更多人參與到 AI 引領(lǐng)的科技變革中去。

自從 LLaMA2 之后,開源大模型的實(shí)力跨越了商用門檻,已經(jīng)能夠與閉源大模型相抗衡。而 Skywork-13B 系列的面世,讓用戶有了一項(xiàng)更好的選擇。

在方漢看來,技術(shù)本身會(huì)快速迭代演進(jìn),只有開源才能滿足各種長尾需求,真正做到百花齊放,而不會(huì)出現(xiàn)由大型互聯(lián)網(wǎng)公司獨(dú)霸 AI 基礎(chǔ)設(shè)施的局面。

當(dāng)然,想要做好開源不僅僅依靠決心,還需要深厚的實(shí)力做底牌。

Image

昆侖萬維董事長兼 CEO 方漢在云棲大會(huì) AI 大模型新勢(shì)力分論壇現(xiàn)場分享 Skywork-13B 系列大模型開源與 AI 場景應(yīng)用落地

憑借對(duì)科技發(fā)展趨勢(shì)的超前預(yù)判,昆侖萬維早在 2020 年便已開始布局 AIGC 領(lǐng)域。至今,已積累近三年的相關(guān)工程研發(fā)經(jīng)驗(yàn),并建立了行業(yè)領(lǐng)先的預(yù)訓(xùn)練數(shù)據(jù)深度處理能力,昆侖萬維也在人工智能領(lǐng)域取得了重大突破,目前已形成 AI 大模型、AI 搜索、AI 游戲、AI 音樂、AI 動(dòng)漫、AI 社交六大 AI 業(yè)務(wù)矩陣,是國內(nèi)模型技術(shù)與工程能力最強(qiáng),布局最全面,同時(shí)全身心投入開源社區(qū)建設(shè)的企業(yè)之一。

在北京市經(jīng)濟(jì)和信息化局公布的《北京市通用人工智能產(chǎn)業(yè)創(chuàng)新伙伴計(jì)劃成員名單》中,昆侖萬維憑借在 AIGC 領(lǐng)域的前沿探索和投資布局,成為了第一批模型伙伴和投資伙伴。

回望過去一年,大模型的熱潮最初由 ChatGPT 開始,卻因 LLaMA2 等開源成果的出現(xiàn)走到了一個(gè)更加好用、易用的時(shí)代。開源與閉源大模型在互相競爭,實(shí)質(zhì)上也是在相互促進(jìn),共同推進(jìn)了大模型生態(tài)的繁榮。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    成人精品视频在线观看不卡| 丰满少妇高潮一区二区| 成年女人午夜在线视频| 日本精品啪啪一区二区三区| 高中女厕偷拍一区二区三区| 91精品国产综合久久精品| 亚洲日本久久国产精品久久| 国产精品久久精品毛片| 日本黄色录像韩国黄色录像| 五月情婷婷综合激情综合狠狠| 久久亚洲国产视频三级黄| 久久99爱爱视频视频| 欧美成人久久久免费播放| 国产乱淫av一区二区三区| 国产视频一区二区三区四区| 国产av精品一区二区| 亚洲国产日韩欧美三级| 日韩精品一区二区三区含羞含羞草| 午夜福利在线观看免费| 欧美日韩一区二区午夜| 亚洲熟女乱色一区二区三区 | 国产成人精品国产亚洲欧洲| 欧美一级内射一色桃子| 日韩国产传媒在线精品| 日本欧美视频在线观看免费| 日韩成人高清免费在线| 欧美成人国产精品高清| 丰满人妻熟妇乱又乱精品古代| 日韩特级黄片免费观看| 国产熟女一区二区三区四区| 久久中文字人妻熟女小妇| 午夜激情视频一区二区| 中文字幕在线五月婷婷| 中国日韩一级黄色大片| 91老熟妇嗷嗷叫太91| 护士又紧又深又湿又爽的视频| 草草夜色精品国产噜噜竹菊| 久久亚洲精品成人国产| 日韩性生活视频免费在线观看| 东京热一二三区在线免| 成人精品欧美一级乱黄|