一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

谷歌 Gemini 與 GPT-4 哪家強?

 mrjiangkai 2023-12-08 發(fā)布于安徽

圖片

來源:數(shù)據(jù)觀綜合(轉(zhuǎn)載請注明來源)
編輯:蒲蒲
美國時間12月6日,谷歌正式發(fā)布了 Gemini 大模型。按照谷歌的說法, Gemini 可以像人類一樣理解世界,處理代碼、文字、音頻、圖像和視頻通通不在話下。

Google DeepMind團隊稱,Gemini在32項基準性能測試中的30項上超過了GPT-4。

“我們離新一代人工智能模型的愿景越來越近了?!边M行完一系列視頻演示后,Google DeepMind產(chǎn)品副總裁Eli Collins(伊萊·柯林斯)對包括第一財經(jīng)在內(nèi)的媒體說,這是Google迄今為止功能最強大、最通用的大模型。

谷歌CEO Sundar Pichai(桑達爾·皮查伊) 評價,Gemini 這一新時代的模型代表了 Google 作為一家公司在科學和工程方面所做的最大努力之一。他同時提到,這也是 Google 今年早些時候成立 Google DeepMind 時的愿景首次實現(xiàn)。

Gemini的各種能力


谷歌稱,Gemini 是一種“原生多模態(tài)”AI模型。這意味著它從一開始就經(jīng)過預(yù)先訓練,可以處理用戶基于文本和圖像的提示詞任務(wù),支持文本和圖像的服務(wù)。

據(jù)悉,Gemini 包含三個不同尺寸,分別是Gemini Ultra、Gemini Pro、Gemini Nano。其中,Gemini Nano主要應(yīng)用于設(shè)備端,Pixel 8 Pro將是第一款搭載 Gemini Nano 的智能手機;Gemini Pro 則適用于在各種任務(wù)中擴展,谷歌便計劃用 Gemini Pro 來升級旗下的聊天機器人 Bard,以及包括搜索、廣告、Chrome等在內(nèi)的更多谷歌產(chǎn)品中。

對于功能最強悍的 Gemini Ultra,谷歌稱目前正在進行信任和安全檢查,以及通過微調(diào)和基于人類反饋的強化學習(RLHF)進一步完善模型,預(yù)計明年初向開發(fā)人員和企業(yè)客戶推出。

圖片

理解文本、圖片、音頻
Gemini模型經(jīng)過海量數(shù)據(jù)訓練,可以很好識別和理解文本、圖像、音頻等內(nèi)容,并可以回答復(fù)雜主題相關(guān)的問題。所以,非常擅長解釋數(shù)學和物理等復(fù)雜學科的推理任務(wù)。

生成代碼
Gemini可以生成和理解Python、Java、C++和Go等主流代碼。Gemini Ultra在多個編碼基準測試中表現(xiàn)出色,包括HumanEval,這是評估編碼任務(wù)性能的重要行業(yè)標準。

谷歌還基于Gemini模型開發(fā)了專業(yè)的代碼模型AlphaCode 2。與前一代相比,AlphaCode 2的性能提升了至少50%以上。

復(fù)雜推理
Gemini的多模態(tài)功能,使其能在視覺理解、文本生成等方面有非常強的功能。例如,從數(shù)十萬字的小說中整理出重要觀點;

從200頁的金融報告中找出最有價值的內(nèi)容。這對于金融、科技、醫(yī)療的科研和業(yè)務(wù)人員來說幫助巨大。

支持Bard
目前,谷歌的Bard已經(jīng)集成了 Gemini Pro 模型,「AIGC開放社區(qū)」體驗了一下,其圖片理解和文本生成能力比之前強很多,尤其是代碼生成和審查能力很出色。

圖片

谷歌方面表示,Gemini 將通過谷歌產(chǎn)品推向數(shù)十億用戶。目前,谷歌計劃通過谷歌云將 Gemini 授權(quán)給客戶,供他們在自己的應(yīng)用程序中使用。12月13日開始,開發(fā)者和企業(yè)客戶可以通過谷歌AI Studio或谷歌 Cloud Vertex AI 中的 Gemini API(應(yīng)用程序編程接口)訪問 Gemini Pro,安卓開發(fā)人員可以使用 Gemini Nano 完成構(gòu)建。
能打敗GPT4嗎?


過去八年,谷歌一直把 AI-first 作為公司戰(zhàn)略,2016年打敗人類圍棋冠軍的 AlphaGo 便是出自谷歌之手。毫不夸張地說,是谷歌掀起的一股AI浪潮,但現(xiàn)在,它亟需在大模型領(lǐng)域證明自己。

今年4月,Google 將曾經(jīng)誕生了Tensorflow 與Transformer 的 Google Brain 團隊,和憑借AlphaGo掀起上一輪AI熱潮、創(chuàng)造了AlphaFold 預(yù)測蛋白質(zhì)折疊的DeepMind 團隊合并,成立 Google DeepMind,這一團隊也被外界調(diào)侃是“AI復(fù)仇者聯(lián)盟”。

Gemini 被視作是 Google 在AI大模型領(lǐng)域放出的“大招”。Gemini 發(fā)布后,外界最關(guān)心的是其對 OpenAI GPT4 的挑戰(zhàn)。

谷歌在MMLU、DROP 、HellaSwag、GSM8K等主流評測中,將 Gemini 與 OpenAI 的 GPT-4 和 GPT-4 V 進行深度評測。

DeepMind的CEO Demis Hassabis稱,谷歌運行了32種完善的基準指標相關(guān)測試,對比Gemini和GPT-4這兩個模型,既有諸如多任務(wù)語言理解這類廣泛的整體測試,到生成Python代碼這種單一能力的測試。32種基準指標中,Gemini有30項都“遙遙領(lǐng)先”。

圖片

在性能測試上,Gemini Ultra在32個大語言模型基準測試中的30個中超過了當前最優(yōu)成績,另外在MMLU(大規(guī)模多任務(wù)語言理解)中,Gemini Ultra的得分為90%,成為首個超越人類專家的大模型。

據(jù)悉,MMLU通過結(jié)合數(shù)學、物理、歷史、法律、醫(yī)學和倫理學等57個科目,來測試大模型對世界知識和解決問題的能力。此前,GPT-4在該測試中的成績?yōu)?6.4%,而人類專家的成績?yōu)?9.8%。

而在MMMU基準測試中,Gemini Ultra取得了59.4%的最高得分,GPT-4V的成績?yōu)?6.8%,該項測試由跨越不同領(lǐng)域的多模態(tài)任務(wù)組成。

黛米斯·哈薩比斯稱,在測試圖像基準過程中,Gemini Ultra 在沒有來自圖像字符識別(OCR)系統(tǒng)的幫助下,就超越了此前最先進的模型。這些基準測試凸顯了Gemini的多模態(tài)能力,也展現(xiàn)出其具有更復(fù)雜推理能力的早期跡象。

“我們將Gemini設(shè)計為原生多模態(tài),它從一開始就針對不同模態(tài)進行了預(yù)訓練,然后我們使用額外的多模態(tài)數(shù)據(jù)對其進行微調(diào),以進一步提高其效果?!摈烀姿埂す_比斯介紹道,“這幫助Gemini從頭開始就能無縫理解和推理各種輸入,遠遠優(yōu)于現(xiàn)有的多模態(tài)模型,而且其能力在幾乎所有領(lǐng)域都達到了最先進的水平。”

此外,Gemini 具有到目前為止所有谷歌AI模型中最全面的安全評估,包括對偏見和有害信息的評估。同時,為了識別內(nèi)部評估方法中的盲點,谷歌還在與各種外部專家和團隊合作,對Gemini 模型在各種問題上進行壓力測試。

另外值得關(guān)注的是,Gemini的訓練是基于谷歌自己的張量處理單元(TPUs)——v4 和 v5e。在這些TPUs上,Gemini比谷歌之前的模型運行速度更快、成本更低。所以除了新模型外,谷歌還宣布將推出新的TPU系統(tǒng)——Cloud TPU v5p,這是專為訓練尖端AI模型而設(shè)計的,也將用于Gemini的開發(fā)。

圣達菲研究所的AI研究員Melanie Mitchell對媒體表示,Gemini基準測試的表現(xiàn)令人印象深刻,這的確說明Gemini是一個非常復(fù)雜的人工智能系統(tǒng),但她指出,自己并沒有明顯感受到Gemini和GPT-4在實際能力上的差距。

Mitchell還指出,Gemini在語言和代碼基準測試上的表現(xiàn)要比在圖像和視頻上表現(xiàn)更好:“多模態(tài)基礎(chǔ)模型仍然有很長的路要走,才能在許多任務(wù)里大范圍、可靠地應(yīng)用?!?/span>

斯坦福大學基礎(chǔ)模型研究中心主任Percy Liang也對媒體表示,雖然Gemini具有良好的基準分數(shù),但由于訓練數(shù)據(jù)中的內(nèi)容保密,很難知道如何解釋這些數(shù)字。

多位科技分析人士認為,雖然 Gemini 的性能的確優(yōu)于現(xiàn)有的多模態(tài)模型,但它和GPT-4的差距并沒有那么夸張。從谷歌放出的演示視頻來看,很少有什么我們在過去一年的AI炒作狂潮里沒見過的東西。

更大的問題在于,如果以谷歌的算力資源、研發(fā)能力和豐富的數(shù)據(jù)都僅能做到勉強擊敗GPT4,Gemini或許就是以人類目前的技術(shù),能夠打造的大模型的上限了。
未來智能實驗室的主要工作包括:建立AI智能系統(tǒng)智商評測體系,開展世界人工智能智商評測;開展互聯(lián)網(wǎng)(城市)大腦研究計劃,構(gòu)建互聯(lián)網(wǎng)(城市)大腦技術(shù)和企業(yè)圖譜,為提升企業(yè),行業(yè)與城市的智能水平服務(wù)。每日推薦范圍未來科技發(fā)展趨勢的學習型文章。目前線上平臺已收藏上千篇精華前沿科技文章和報告。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    日韩精品一区二区三区含羞含羞草 | 九九九热视频最新在线| 久久老熟女一区二区三区福利 | 国产欧美日产中文一区| 精品久久av一二三区| 亚洲一区二区三区精选| 国产又大又黄又粗又免费| 精品一区二区三区免费看| 殴美女美女大码性淫生活在线播放 | 久久综合日韩精品免费观看| 久久99亚洲小姐精品综合| 免费黄色一区二区三区| 国产亚洲中文日韩欧美综合网| 精品推荐久久久国产av| 成在线人免费视频一区二区| 亚洲天堂一区在线播放| 国产精品午夜福利免费在线| 亚洲精品中文字幕熟女| 国产精品夜色一区二区三区不卡| 日韩少妇人妻中文字幕| 欧美自拍系列精品在线| 91人妻人澡人人爽人人精品| 日韩特级黄片免费观看| 欧美精品专区一区二区| 丰满少妇高潮一区二区| 日韩在线视频精品视频| 国产成人亚洲精品青草天美| 欧美精品一区二区水蜜桃| 91后入中出内射在线| 色狠狠一区二区三区香蕉蜜桃| 欧美日韩久久精品一区二区| 在线懂色一区二区三区精品| 国内精品美女福利av在线| 国产精品伦一区二区三区四季| 欧美一级特黄特色大色大片| 国产av一二三区在线观看| 欧美午夜视频免费观看| 尹人大香蕉中文在线播放| 麻豆欧美精品国产综合久久| 免费在线观看激情小视频| 韩日黄片在线免费观看|