自從 ChatGPT 火了以后,國(guó)內(nèi)的 AI 大模型也是越來(lái)越多,各家都有不同的側(cè)重點(diǎn),其中,咱們國(guó)家隊(duì)的代表就是阿里的通義千問(wèn)了。就在最近,通義千問(wèn)推出了新一代開(kāi)源模型 Qwen2.5,下面跟大家重點(diǎn)介紹一下這個(gè)新模型到底有多牛逼?9月19日云棲大會(huì)上,發(fā)布了通義千問(wèn)新一代開(kāi)源模型Qwen2.5,旗艦?zāi)P蚎wen2.5-72B性能超越Llama 405B,再登全球開(kāi)源大模型王座。Qwen2.5支持高達(dá)128K的上下文長(zhǎng)度,可生成最多8K內(nèi)容。模型擁有強(qiáng)大的多語(yǔ)言能力,支持中文、英文、法文、西班牙文、俄文、日文、越南文、阿拉伯文等 29 種以上語(yǔ)言。模型能夠絲滑響應(yīng)多樣化的系統(tǒng)提示,實(shí)現(xiàn)角色扮演和聊天機(jī)器人等任務(wù)。在指令跟隨、理解結(jié)構(gòu)化數(shù)據(jù)(如表格)、生成結(jié)構(gòu)化輸出(尤其是JSON)等方面Qwen2.5都進(jìn)步明顯。Qwen2.5系列模型在語(yǔ)言模型方面,Qwen2.5開(kāi)源了7個(gè)尺寸,0.5B、1.5B、3B、7B、14B、32B、72B,它們?cè)谕葏?shù)賽道都創(chuàng)造了業(yè)界最佳成績(jī),型號(hào)設(shè)定充分考慮下游場(chǎng)景的不同需求,3B是適配手機(jī)等端側(cè)設(shè)備的黃金尺寸;32B是最受開(kāi)發(fā)者期待的“性?xún)r(jià)比之王”,可在性能和功耗之間獲得最佳平衡,Qwen2.5-32B的整體表現(xiàn)超越了Qwen2-72B。Qwen2.5-72B模型在MMLU-rudex基準(zhǔn)(考察通用知識(shí))、MBPP 基準(zhǔn)(考察代碼能力)和MATH基準(zhǔn)(考察數(shù)學(xué)能力)的得分高達(dá)86.8、88.2、83.1。相比6月推出的Qwen2,Qwen2.5實(shí)現(xiàn)了整體性能的代際飛躍。在權(quán)威模型測(cè)評(píng)榜單OpenCompass中,開(kāi)源的Qwen2.5-72B已領(lǐng)先于文心4.0等一眾中國(guó)閉源模型。剛剛開(kāi)源的Qwen2.5-72B,整體性能相比Qwen2 又取得了大幅提升!圖說(shuō):在MMLU-redux等十多個(gè)基準(zhǔn)測(cè)評(píng)中,Qwen2.5-72B表現(xiàn)超越Llama3.1-405B9月29日,基準(zhǔn)測(cè)試平臺(tái)Chatbot Arena日前公布最新大模型盲測(cè)榜單,阿里通義千問(wèn)開(kāi)源模型Qwen2.5再次闖入全球十強(qiáng),其大語(yǔ)言模型Qwen2.5-72B-Instruct排名LLM榜單第十,居于OpenAI的o1、GPT-4o等模型之后,是得分最高的中國(guó)大模型;同天開(kāi)源的視覺(jué)語(yǔ)言模型Qwen2-VL-72B-Instruct闖入Vision榜單第九,略遜于GPT-4o、Gemini-1.5-Pro等閉源模型,是成績(jī)最好的開(kāi)源模型。我們要怎么體驗(yàn)Qwen2.5新模型的能力呢?我們需要先登錄魔搭 CompassArena 大模型競(jìng)技場(chǎng),登錄地址如下:https:///studios/opencompass/CompassArena/summary 登錄后,我們選擇【雙模型對(duì)戰(zhàn)】看抽卡能不能抽到Qwen2.5,需要多測(cè)試幾輪,才會(huì)抽中。 如果一直抽不中,我們也可以直接選擇【雙模型對(duì)戰(zhàn)(自選)】模式,給Qwen2.5 Pick對(duì)手,這里有很多市面上的模型,我們直接啟動(dòng)對(duì)戰(zhàn)~ 我們通常對(duì)比兩個(gè)模型的能力更強(qiáng),主要對(duì)比他的邏輯推理能力,下面我問(wèn)一個(gè)問(wèn)題,讓Qwen2.5模型和其他模型做比較,看看哪個(gè)更聰明? 問(wèn)題:煮1個(gè)雞蛋需要5分鐘,煎一塊餅的一面需要3分鐘,餅需要翻面兩次才能熟。煮鍋和煎鍋可以同時(shí)開(kāi)火,煎鍋一次最多只能放兩塊餅,那么我想要煮3個(gè)雞蛋和2塊餅,一共需要幾分鐘? 通過(guò)上面對(duì)比,我們發(fā)現(xiàn)Qwen2.5這個(gè)模型回答是正確的,總共需要6分鐘,而且邏輯能力很強(qiáng),條理也非常清楚 。從這里可以看出來(lái),雖然國(guó)內(nèi)有很多AI模型,但是我們必須要選擇一個(gè)更聰明、出錯(cuò)率低的模型非常重要,不然它在那里胡說(shuō)八道,你還聽(tīng)得很有道理,就非常尷尬了。 通義千問(wèn)官網(wǎng)地址: https://tongyi.aliyun.com/qianwen/ 覺(jué)得內(nèi)容還不錯(cuò)的話,給我點(diǎn)個(gè)“在看”唄
|