【原】阿里官方的神器，功能太強(qiáng)悍了 !

程序IT圈 2024-10-25 發(fā)布于福建

展開(kāi)全文

自從 ChatGPT 火了以后，國(guó)內(nèi)的 AI 大模型也是越來(lái)越多，各家都有不同的側(cè)重點(diǎn)，其中，咱們國(guó)家隊(duì)的代表就是阿里的通義千問(wèn)了。就在最近，通義千問(wèn)推出了新一代開(kāi)源模型 Qwen2.5，下面跟大家重點(diǎn)介紹一下這個(gè)新模型到底有多牛逼？

Qwen2.5簡(jiǎn)介

9月19日云棲大會(huì)上，發(fā)布了通義千問(wèn)新一代開(kāi)源模型Qwen2.5，旗艦?zāi)Ｐ蚎wen2.5-72B性能超越Llama 405B，再登全球開(kāi)源大模型王座。

Qwen2.5支持高達(dá)128K的上下文長(zhǎng)度，可生成最多8K內(nèi)容。模型擁有強(qiáng)大的多語(yǔ)言能力，支持中文、英文、法文、西班牙文、俄文、日文、越南文、阿拉伯文等 29 種以上語(yǔ)言。模型能夠絲滑響應(yīng)多樣化的系統(tǒng)提示，實(shí)現(xiàn)角色扮演和聊天機(jī)器人等任務(wù)。在指令跟隨、理解結(jié)構(gòu)化數(shù)據(jù)（如表格）、生成結(jié)構(gòu)化輸出（尤其是JSON）等方面Qwen2.5都進(jìn)步明顯。

Qwen2.5系列模型在語(yǔ)言模型方面，Qwen2.5開(kāi)源了7個(gè)尺寸，0.5B、1.5B、3B、7B、14B、32B、72B，它們?cè)谕葏?shù)賽道都創(chuàng)造了業(yè)界最佳成績(jī)，型號(hào)設(shè)定充分考慮下游場(chǎng)景的不同需求，3B是適配手機(jī)等端側(cè)設(shè)備的黃金尺寸；32B是最受開(kāi)發(fā)者期待的“性?xún)r(jià)比之王”，可在性能和功耗之間獲得最佳平衡，Qwen2.5-32B的整體表現(xiàn)超越了Qwen2-72B。Qwen2.5-72B模型在MMLU-rudex基準(zhǔn)（考察通用知識(shí)）、MBPP 基準(zhǔn)（考察代碼能力）和MATH基準(zhǔn)（考察數(shù)學(xué)能力）的得分高達(dá)86.8、88.2、83.1。

Qwen2.5模型詳解

1、Qwen2.5性能如何？

相比6月推出的Qwen2，Qwen2.5實(shí)現(xiàn)了整體性能的代際飛躍。在權(quán)威模型測(cè)評(píng)榜單OpenCompass中，開(kāi)源的Qwen2.5-72B已領(lǐng)先于文心4.0等一眾中國(guó)閉源模型。剛剛開(kāi)源的Qwen2.5-72B，整體性能相比Qwen2 又取得了大幅提升！

圖說(shuō)：在MMLU-redux等十多個(gè)基準(zhǔn)測(cè)評(píng)中，Qwen2.5-72B表現(xiàn)超越Llama3.1-405B

9月29日，基準(zhǔn)測(cè)試平臺(tái)Chatbot Arena日前公布最新大模型盲測(cè)榜單，阿里通義千問(wèn)開(kāi)源模型Qwen2.5再次闖入全球十強(qiáng)，其大語(yǔ)言模型Qwen2.5-72B-Instruct排名LLM榜單第十，居于OpenAI的o1、GPT-4o等模型之后，是得分最高的中國(guó)大模型；同天開(kāi)源的視覺(jué)語(yǔ)言模型Qwen2-VL-72B-Instruct闖入Vision榜單第九，略遜于GPT-4o、Gemini-1.5-Pro等閉源模型，是成績(jī)最好的開(kāi)源模型。

2、如何體驗(yàn)Qwen2.5模型能力？

我們要怎么體驗(yàn)Qwen2.5新模型的能力呢？我們需要先登錄魔搭 CompassArena 大模型競(jìng)技場(chǎng)，登錄地址如下：

https:///studios/opencompass/CompassArena/summary

登錄后，我們選擇【雙模型對(duì)戰(zhàn)】看抽卡能不能抽到Qwen2.5，需要多測(cè)試幾輪，才會(huì)抽中。

如果一直抽不中，我們也可以直接選擇【雙模型對(duì)戰(zhàn)（自選）】模式，給Qwen2.5 Pick對(duì)手，這里有很多市面上的模型，我們直接啟動(dòng)對(duì)戰(zhàn)~

我們通常對(duì)比兩個(gè)模型的能力更強(qiáng)，主要對(duì)比他的邏輯推理能力，下面我問(wèn)一個(gè)問(wèn)題，讓Qwen2.5模型和其他模型做比較，看看哪個(gè)更聰明？

問(wèn)題：煮1個(gè)雞蛋需要5分鐘，煎一塊餅的一面需要3分鐘，餅需要翻面兩次才能熟。煮鍋和煎鍋可以同時(shí)開(kāi)火，煎鍋一次最多只能放兩塊餅，那么我想要煮3個(gè)雞蛋和2塊餅，一共需要幾分鐘？

通過(guò)上面對(duì)比，我們發(fā)現(xiàn)Qwen2.5這個(gè)模型回答是正確的，總共需要6分鐘，而且邏輯能力很強(qiáng)，條理也非常清楚。從這里可以看出來(lái)，雖然國(guó)內(nèi)有很多AI模型，但是我們必須要選擇一個(gè)更聰明、出錯(cuò)率低的模型非常重要，不然它在那里胡說(shuō)八道，你還聽(tīng)得很有道理，就非常尷尬了。

通義千問(wèn)官網(wǎng)地址：

https://tongyi.aliyun.com/qianwen/

覺(jué)得內(nèi)容還不錯(cuò)的話，給我點(diǎn)個(gè)“在看”唄