這邊OpenAI持續(xù)12天的直播連續(xù)劇還沒完結(jié),那邊谷歌已經(jīng)坐不住了開始放大招,火藥味溢出屏幕。就在剛剛,谷歌正式發(fā)布Gemini 2.0,標(biāo)志著其向能夠獨(dú)立完成復(fù)雜任務(wù)的AI系統(tǒng)邁出了雄心勃勃的一步。并且谷歌基于這次版本更新,一次性發(fā)布多個(gè)AI Agent(智能體)成果,包括:用多模態(tài)理解現(xiàn)實(shí)世界的智能體「Project Astra」這次升級(jí)了技能;發(fā)布Project Mariner,一個(gè)建立在 Gemini 2.0之上的新智能體,可以幫忙瀏覽網(wǎng)頁,并處理復(fù)雜任務(wù);發(fā)布Jules,一個(gè)由 Gemini 2.0驅(qū)動(dòng)的新型編碼智能體,主要面向開發(fā)者;以及發(fā)布一些用于游戲、機(jī)器人、深度研究場(chǎng)景的智能體,用實(shí)力詮釋什么叫做“要啥有啥”。除了智能體系列霸屏之外,谷歌此次還官宣了第六代TPU——Trillium正式面向客戶開放。Google 和 Alphabet 首席執(zhí)行官 Sundar Pichai(桑達(dá)爾·皮查伊)在寄語里直言:“Gemini 2.0是谷歌迄今為止最強(qiáng)大的模型,它能夠構(gòu)建新的AI智能體,從而讓我們離構(gòu)建通用助手的愿景更進(jìn)一步?!?/strong>桑達(dá)爾·皮查伊第一時(shí)間發(fā)了推文,向開發(fā)者安利這款模型。Google 和 Alphabet 首席執(zhí)行官 Sundar Pichai(桑達(dá)爾·皮查伊)的社交平臺(tái)截圖不難看出,這次谷歌的強(qiáng)勢(shì)出手,都是圍繞一個(gè)主軸——AI智能體(Agent)。其實(shí)不止谷歌,很多AI巨頭,尤其是以 OpenAI、Anthropic 和谷歌為首,一直是AI智能體的布道者。桑達(dá)爾·皮查伊在這次發(fā)布的致辭中,將AI智能體描述為“能夠更多地了解你周圍的世界、提前思考多個(gè)步驟、并在你的監(jiān)督下代表你采取行動(dòng)的模型”。在這次發(fā)布前夕的媒體溝通會(huì)上,Google DeepMind Gemini產(chǎn)品管理總監(jiān)Tulsee Doshi指出:“Google DeepMind研究AI智能體能力已經(jīng)有很長(zhǎng)一段時(shí)間了,我認(rèn)為這個(gè)特定詞在過去幾個(gè)月已經(jīng)有了新的含義?!币訮roject Astra為例,它的核心原則是擁有眼睛、耳朵和聲音的智能體,可以識(shí)別并理解物理世界,并與人交互,幫人做事。談及背后邏輯,Google DeepMind Project Astra項(xiàng)目產(chǎn)品經(jīng)理徐Bibo Xu在采訪中指出,在技術(shù)發(fā)展方向上,谷歌正在平衡兩個(gè)關(guān)鍵領(lǐng)域:一方面繼續(xù)擴(kuò)大模型規(guī)模,提升基礎(chǔ)性能;另一方面,加強(qiáng)后期訓(xùn)練優(yōu)化和推理技術(shù)的改進(jìn),尤其關(guān)注多模態(tài)能力的提升,希望讓AI能更好地理解和處理各類信息。Google DeepMind團(tuán)隊(duì)透露,明年初將推出Gemini 2.0系列模型的更多版本,大家很快就能見識(shí)到Gemini更強(qiáng)大的表現(xiàn)。去年年底,Gemini 1.0問世。Gemini 1.0和1.5是谷歌第一個(gè)基于多模態(tài)的模型,它支持多模態(tài)和長(zhǎng)上下文,可以理解文本、視頻、圖像、音頻和代碼中的信息,并處理更多信息。一年后的今天,谷歌發(fā)布 Gemini 2.0 系列模型中的第一個(gè)版本:Gemini 2.0 Flash 體驗(yàn)版。在MMLU-Pro基準(zhǔn)測(cè)試中,2.0 Flash的速度是1.5 Pro的兩倍。在功能方面,2.0 Flash 除了能夠支持圖片、視頻和音頻等多模態(tài)輸入,它還可以支持多模態(tài)輸出,例如可以直接生成圖像與文本混合的內(nèi)容,以及原生生成可控的多語言文本轉(zhuǎn)語音(TTS)音頻。而且,它還可以原生調(diào)用 Google Search、代碼執(zhí)行以及第三方用戶定義的函數(shù)等工具。谷歌特別強(qiáng)調(diào)了對(duì)開發(fā)者的賦能。官網(wǎng)資料里提到,Gemini 2.0 Flash 現(xiàn)在可以通過谷歌的兩款生成式AI產(chǎn)品—— Google AI Studio 和 Vertex AI 中的 Gemini API 獲取,所有開發(fā)者均可使用「多模態(tài)輸入」和「文本輸出」,可使用原生文本轉(zhuǎn)語音和圖像的生成功能。該產(chǎn)品將于2025年1月份上市,到時(shí)候Gemini 2.0將迎來更多版本型號(hào)。為了幫助開發(fā)者構(gòu)建動(dòng)態(tài)和交互式應(yīng)用程序,谷歌還發(fā)布了最新 Multimodal Live API,它具有實(shí)時(shí)音頻、視頻流輸入、以及使用多個(gè)組合工具的能力。谷歌強(qiáng)調(diào),在接下來的幾個(gè)月里,將把Gemini 2.0 引入Android Studio、Chrome DevTools、Firebase等平臺(tái)。開發(fā)人員可以在Gemini Code Assist中注冊(cè)使用Gemini 2.0 Flash,以便在流行的ide(如Visual Studio Code、IntelliJ、PyCharm等)中增強(qiáng)編碼輔助功能。而對(duì)于更廣泛的個(gè)人用戶,全球的 Gemini 用戶可以通過在電腦端和移動(dòng)端網(wǎng)頁的模型下拉菜單中進(jìn)行選擇,來體驗(yàn)2.0 Flash 體驗(yàn)版,并且該版本將很快在 Gemini 移動(dòng)應(yīng)用中推出。2025年初,谷歌還會(huì)將 Gemini 2.0 擴(kuò)展到更多產(chǎn)品中。比如,Gemini 2.0 的高級(jí)推理能力將融入谷歌搜索中的AI概覽(AI Overviews),以攻克更復(fù)雜的主題和多步驟問題,包括高等數(shù)學(xué)方程、多模態(tài)查詢和編碼。該功能本周已經(jīng)進(jìn)行了小范圍測(cè)試,明年初將在更大范圍推出。這次發(fā)布或許最重要的是,谷歌推出了一批基于 Gemini 2.0 架構(gòu)的原型 AI智能體,展示了在該領(lǐng)域的野心。其中包括:1、Project Astra大幅升級(jí),用于探索未來通用AI助手能力的研究原型。Project Astra的首次亮相是在今年5月份的Google I/O 大會(huì)上,當(dāng)時(shí)科技行者在現(xiàn)場(chǎng)目睹了那次發(fā)布,在演示視頻中,Project Astra通過手機(jī)攝像頭能看見、能識(shí)別、能理解物理世界的周圍環(huán)境,還能解答用戶提問并提供即時(shí)反饋。當(dāng)時(shí)在現(xiàn)場(chǎng)收獲了一陣掌聲。而現(xiàn)在,基于 Gemini 2.0 版本的Project Astra,進(jìn)行了一系列升級(jí),谷歌對(duì)此又發(fā)了一支演示視頻。看起來,進(jìn)化后的Project Astra與人交互更自然了,這次的更新具體而言覆蓋了方方面面:首先,它實(shí)現(xiàn)了更流暢的對(duì)話。演示視頻中可見,Project Astra可以在多種語言之間進(jìn)行自然對(duì)話,比如法語和泰米爾語,能理解不同口音和生僻單詞。其次,它能調(diào)用新工具。看起來是通過文本、語音、圖像和視頻回答問題并執(zhí)行任務(wù),并在需要時(shí)調(diào)用現(xiàn)有的谷歌應(yīng)用,如搜索、地圖和攝像頭。“它融合了我們這個(gè)時(shí)代一些最強(qiáng)大的信息檢索系統(tǒng)?!?/strong>Bibo Xu在這次媒體溝通會(huì)上說道。第三,它有了更強(qiáng)的記憶力。演示視頻中,Project Astra 能夠記住門禁密碼,并且過了一段時(shí)間被問到時(shí),還是能準(zhǔn)確回憶起門禁密碼。在整個(gè)測(cè)試過程中,即使經(jīng)過多個(gè)不同場(chǎng)景的對(duì)話,Project Astra仍能準(zhǔn)確調(diào)取之前存儲(chǔ)的信息。關(guān)于Project Astra的記憶能力,Bibo Xu在媒體溝通會(huì)上介紹,Project Astra 擁有兩種記憶能力,一個(gè)是「圖形記憶能力」,最多可以記住10分鐘內(nèi)看到的每一個(gè)畫面像素;另一個(gè)是「對(duì)話記憶能力」,最多可以存儲(chǔ)60段歷史對(duì)話,并在需要時(shí)調(diào)用這些內(nèi)容。據(jù)悉,谷歌正在將Project Astra的功能植入自家產(chǎn)品中,比如Gemini app、智能眼鏡等。而且即將開放給一批“受信任的測(cè)試人員”,測(cè)試 Project Astra 在原型智能眼鏡上的表現(xiàn)。2、除了Project Astra的升級(jí)之外,谷歌此次還發(fā)布一個(gè)新的智能體Project Mariner。Project Mariner能夠理解和推理瀏覽器頁面中的信息(包括像素、文本、代碼、圖像和表單等),然后通過Chrome 擴(kuò)展程序使用這些信息,為用戶完成復(fù)雜任務(wù)。谷歌指出,在 WebVoyager 基準(zhǔn)測(cè)試(該測(cè)試針對(duì)智能體在端到端的真實(shí)世界網(wǎng)頁任務(wù)的性能)中,Project Mariner 作為單個(gè)智能體設(shè)置實(shí)現(xiàn)了 83.5% 的工作效率,達(dá)到了最先進(jìn)的水平。從安全性的角度考慮,谷歌在博客中強(qiáng)調(diào):“正在積極研究新型風(fēng)險(xiǎn)和應(yīng)對(duì)措施,始終保持有人類的參與和監(jiān)督。例如,Project Mariner 只能在瀏覽器上的活動(dòng)標(biāo)簽頁中鍵入、滾動(dòng)或單擊,而它在采取某些敏感操作(如購買某物)之前,會(huì)要求用戶進(jìn)行最終確認(rèn)。”谷歌這次發(fā)布的另一個(gè)新智能體,是專門面向開發(fā)者的編碼智能體Jules,它可以直接集成到 GitHub 工作流程中來協(xié)助開發(fā)者工作。對(duì)于開發(fā)者來說,比寫代碼更頭疼的可能是找bug,而現(xiàn)在,可以將Python和Javascript編碼任務(wù)交給Jules,Jules可以處理bug修復(fù)和其他耗時(shí)的任務(wù),它可以有效修改多個(gè)文件,甚至拉取請(qǐng)求來直接將修復(fù)返回到GitHub,那么開發(fā)者就可以專注于其他任務(wù)。4、更多“智能體們”,用于游戲、機(jī)器人、研究等更多領(lǐng)域。除了上述“叫得上名字的”智能體之外,谷歌這次還演示了一些內(nèi)置在Gemini 2.0的“智能體們”,用于游戲、機(jī)器人、研究等更多領(lǐng)域。“Google DeepMind 一直以來都在利用游戲幫助AI模型更好地遵守規(guī)則、進(jìn)行規(guī)劃、并運(yùn)用邏輯思維?!惫雀柙诠倬W(wǎng)資料里指出。比如在上周,谷歌推出了Genie 2,一個(gè)可以從單個(gè)圖像創(chuàng)建無限多種可玩 3D 世界的 AI 模型。而這次,谷歌基于Gemini 2.0 構(gòu)建了一些智能體,專門用于游戲場(chǎng)景。演示視頻中可見,該智能體可以根據(jù)屏幕上的實(shí)時(shí)畫面,分析游戲情況,并提供下一步操作建議;此外,當(dāng)被用戶問到游戲知識(shí)時(shí),它還能調(diào)用搜索,檢索到相關(guān)知識(shí)并給出建議。為了進(jìn)一步探索智能體在游戲領(lǐng)域的應(yīng)用,谷歌正在與Supercell等游戲開發(fā)團(tuán)隊(duì)合作,通過測(cè)試它們?cè)凇恫柯錄_突》、《海島奇兵》等各種游戲中的表現(xiàn),來評(píng)估智能體們理解游戲規(guī)則、應(yīng)對(duì)挑戰(zhàn)的能力。除了探索虛擬世界的智能體能力外,谷歌還將 Gemini 2.0 的空間推理能力應(yīng)用于機(jī)器人領(lǐng)域,嘗試讓智能體在現(xiàn)實(shí)世界中提供幫助。不過谷歌方面指出,這項(xiàng)研究仍處于初期階段。此外,谷歌在 Gemini Advanced 中還引入了一項(xiàng)名為“深度研究(Deep Research)”的新代理功能,這是一個(gè)研究助手,可以深入研究復(fù)雜主題并為創(chuàng)建包含相關(guān)來源鏈接的報(bào)告。該功能自今日起對(duì) Gemini Advanced 用戶開放。“思維鏈?zhǔn)俏覀兯伎既绾螛?gòu)建模型的重要組成部分。”Tulsee Doshi在媒體采訪中指出,比如AlphaCode和AlphaProof,這些都是能夠展示深度思維和推理時(shí)間的真正強(qiáng)大模型,它們能夠在代碼和數(shù)學(xué)方面提升性能。值得一提的是,谷歌這次依然特別強(qiáng)調(diào)了安全與責(zé)任的重要性,為此制定了“負(fù)責(zé)任的AI”原則,在數(shù)據(jù)處理、模型訓(xùn)練等各個(gè)環(huán)節(jié)都實(shí)施了嚴(yán)格的安全把關(guān)。 谷歌在對(duì)外發(fā)布資料里強(qiáng)調(diào)了秉持“負(fù)責(zé)任的AI”原則 Gemini 2.0背后的功臣:第六代Trillium 如此密集的AI智能體們,以及承載這些智能體的AI大模型們,給硬件基礎(chǔ)設(shè)施帶來了特殊挑戰(zhàn)。因?yàn)檫@些模型需要巨大的計(jì)算能力和專門的硬件來有效地處理訓(xùn)練、微調(diào)和推理。 十多年前,谷歌開始開發(fā)定制的人工智能加速器——張量處理單元(TPU),它集成了軟硬件、機(jī)器學(xué)習(xí)框架、以及大模型,以滿足人工智能工作負(fù)載不斷增長(zhǎng)的需求,為多模態(tài)人工智能鋪平道路。 桑達(dá)爾·皮查伊在寄語里把Gemini 2.0的進(jìn)展一部分歸功于TPU。他寫道:“Gemini 2.0 的進(jìn)展得益于我們所特有的長(zhǎng)達(dá) 10 年全棧式 AI 創(chuàng)新研究的投入,它基于我們定制的硬件第六代 TPU Trillium 構(gòu)建而成。TPU 為 Gemini 2.0 的訓(xùn)練和推理提供 100% 算力支持?!?/span>谷歌第六代TPU Trillium發(fā)布于今年5月份的Google I/O大會(huì)上。 而現(xiàn)在,谷歌宣布第六代 TPU Trillium正式面向客戶開放。 相比于上一代,第六代Trillium訓(xùn)練成績(jī)提高4倍以上,推理吞吐量提高3倍,能源效率提高67%,每個(gè)芯片的峰值計(jì)算性能提高了4.7倍,HBM (High Bandwidth Memory)容量翻倍,ICI (Interchip Interconnect)帶寬增加一倍。 谷歌Cloud計(jì)算與人工智能基礎(chǔ)設(shè)施副總裁Mark Lohmeyer在官方資料里指出,這些增強(qiáng)功能使Trillium能夠在廣泛的人工智能工作負(fù)載中脫穎而出,包括:擴(kuò)展AI訓(xùn)練工作量、培訓(xùn)法學(xué)碩士包括密集和混合專家(MoE)模型、推理性能和集合調(diào)度、Embedding-intensive模型、提供培訓(xùn)和推理性價(jià)比等。 谷歌第六代 TPU Trillium結(jié)合這次整場(chǎng)發(fā)布可以看出,谷歌正在努力平衡AI的加度和深度思考能力,希望找到一個(gè)既能快速響應(yīng)、又能進(jìn)行深度推理的平衡點(diǎn),目標(biāo)是將這些先進(jìn)技術(shù)以最實(shí)用的方式帶給用戶和產(chǎn)業(yè)。這個(gè)過程雖然充滿挑戰(zhàn),但也充滿希望。就像桑達(dá)爾·皮查伊在寄語里寫道:“信息是人類進(jìn)步的基石。26 年來,我們始終專注于我們的使命——整合全球信息,供大眾使用,讓人人受益。這也是我們持續(xù)拓展人工智能前沿領(lǐng)域的原因。我們整合來自世界各地的信息,并通過多樣化的輸出方式,讓這些信息觸手可及,真正為你所用。”專訪谷歌量子AI團(tuán)隊(duì):為什么說Willow是里程碑式的突破?
|