谷歌深夜狙擊OpenAI：新Agent功能可以自己打開瀏覽器查資料了

zhenyou589 2024-12-12

展開全文

作者 | Li Yuan

2024 年走到年底，似乎 AI 大廠們集體又決定搞點(diǎn)事情了。

在 OpenAI 宣布連發(fā) 12 天更新后，Google 選擇 12 月 11 日深夜（在 OpenAI 發(fā)布更新之前），發(fā)布新模型 Gemini 2.0。

在多次發(fā)布被 OpenAI 精準(zhǔn)狙擊后，Google 今夜扳回一局，發(fā)布了 Gemini 2.0，直指 Agent 使用，一個(gè) OpenAI 至今沒有明確公開布局的領(lǐng)域——之前有消息稱，OpenAI 將在明年推出使用電腦的 Agent。

Agent 功能，也稱為智能體功能，通常指的是 AI 能夠感知環(huán)境、執(zhí)行任務(wù)并在一定程度上獨(dú)立做出決策的能力，也就是能更自動(dòng)化完成任務(wù)的功能。

此次 Google 似乎賭對(duì)了。OpenAI 凌晨?jī)牲c(diǎn)的發(fā)布，主要宣布了和 Apple Intelligence 的合作，一個(gè)普遍被期待能與 Agent 能力強(qiáng)相關(guān)的合作。不過(guò)今夜最終的發(fā)布，主要仍然集中于文字生成和視覺智能方面，并沒有 Agent 相關(guān)的內(nèi)容。

而 Google，則一次性發(fā)布了四個(gè) Agent 相關(guān)的功能：

Project Astra，能夠在 Gemini 應(yīng)用中直接調(diào)用 Google Lens 和地圖功能幫用戶解決問題；

Project Mariner（海員項(xiàng)目），Chrome 瀏覽器的實(shí)驗(yàn)性功能，可以通過(guò) 提示詞直接幫用戶瀏覽網(wǎng)頁(yè)做任務(wù)；

Jules，可以嵌入 GitHub 的編程 Agent，使用自然語(yǔ)言描述問題，就能直接生成可以合并到 GitHub 項(xiàng)目中的代碼；

游戲 Agent，能夠?qū)崟r(shí)解讀屏幕畫面，直接在你打游戲的時(shí)候通過(guò)和你語(yǔ)音交流，給你 AI 打法提示。

雖然此次 Google 發(fā)布的功能仍然屬于期貨范疇，但是仍然十分令人興奮。我們似乎已經(jīng)可以洞見 Agent 真正到來(lái)的時(shí)代，人類生活的一角了。

炸裂新 Agent 功能：自己查資料、寫代碼，教你玩游戲

Google 的新功能建立在新模型 Gemini 2.0 能力之上。

和大部分大模型選擇的路線不一樣，Google 最早就選擇了使用原生多模態(tài)的的方式訓(xùn)練模型——OpenAI 到了 GPT-4o 模型才變成原生多模態(tài)的模型。

原生多模態(tài)模型，是在訓(xùn)練階段，就將圖像、文字、語(yǔ)音甚至視頻等多種編碼，統(tǒng)一輸入給一個(gè)模型進(jìn)行學(xué)習(xí)。

這樣，模型可以在理解了一個(gè)「事物」后，更加靈活地利用進(jìn)行不同模態(tài)的生成。

此次 Gemini 2.0，進(jìn)一步升級(jí)了原生多模態(tài)能力。模型目前直接擁有了原生的圖像生成能力、音頻輸出能力和原生的工具應(yīng)用能力。

原生的工具應(yīng)用能力就和 Agent 的能力高度相關(guān)。Google 介紹，除此之外，新體驗(yàn)還來(lái)自于多模態(tài)推理、長(zhǎng)上下文理解、復(fù)雜指令遵循和規(guī)劃、組合函數(shù)調(diào)用、本地工具使用和降低延遲等方向的改進(jìn)。

看一下 Google 提出的新功能演示：

正文內(nèi)視頻:Google 深夜狙擊 OpenAI：新 Agent 功能可以自己打開瀏覽器查資料了

00:00

02:15

打開鳳凰新聞客戶端提升3倍流暢度

Project Mariner 是這個(gè)系列中，筆者看起來(lái)最驚喜的演示。

主要原因可能是因?yàn)橄鄬?duì)于其他功能，Google 的 Chrome 瀏覽器是筆者每天都要使用的工具，也是對(duì)工作效率影響最高的工具。而 Google 的這項(xiàng)試驗(yàn)性功能，看起來(lái)也不需要對(duì)瀏覽器進(jìn)行過(guò)多的額外配置——只需要用到擴(kuò)展程序。

Google 很懂地選了一個(gè)生產(chǎn)力場(chǎng)景，讓 Chrome 打開一個(gè)表格（演示里里用的是 Google Docs，不知道這與最終的成功識(shí)別是不是有相關(guān)性）。

表格里有幾個(gè)公司的名字。演示者打開 Chrome 的這項(xiàng)試驗(yàn)功能，讓 Chrome 自己記住這幾個(gè)公司名字，去網(wǎng)上查找這些公司的郵箱。（同樣的，查找使用的是 Google 搜索，不知道是不是與最后的演示成功相關(guān)。）

瀏覽器自己打開了網(wǎng)頁(yè)，自己點(diǎn)開每個(gè)公司的官網(wǎng)，在找到郵箱地址后，自動(dòng)記住郵箱地址，關(guān)掉網(wǎng)頁(yè)開始查找下一個(gè)公司的郵箱地址。

全程，用戶可以在右邊欄輸入提示詞的位置，看到模型目前在如何思考，隨時(shí)停止自動(dòng)操作。同時(shí)模型只會(huì)在前臺(tái)運(yùn)行，不會(huì)在用戶看不到的標(biāo)簽頁(yè)中運(yùn)行。

雖然前臺(tái)運(yùn)行似乎對(duì)用戶的時(shí)間是一種消耗，但同時(shí)也保證了安全性。在這個(gè)案例中，也確實(shí)提升了生產(chǎn)效率——挨個(gè)查找郵箱確實(shí)是一件非常沒有創(chuàng)造力的工作。

正文內(nèi)視頻:Google 深夜狙擊 OpenAI：新 Agent 功能可以自己打開瀏覽器查資料了

00:00

00:40

打開鳳凰新聞客戶端提升3倍流暢度

Jules，則讓自然語(yǔ)言寫代碼似乎更近了一步。

在演示中，用戶輸入了一段非常詳細(xì)的編程問題的提示詞，包括在哪個(gè)文件中遇到什么問題，希望做怎樣的修改。（Google 提到 Jules 可以直接嵌入 GitHub 中。）

Jules 對(duì)問題進(jìn)行分析，給出了一個(gè)三步的編程解決方案，當(dāng)用戶點(diǎn)擊同意后，模型開始自動(dòng)編程，生成代碼文件，這些代碼可以一鍵被合并至用戶原有的代碼中。

正文內(nèi)視頻:Google 深夜狙擊 OpenAI：新 Agent 功能可以自己打開瀏覽器查資料了

00:00

02:26

打開鳳凰新聞客戶端提升3倍流暢度

游戲 Agent，則是看起來(lái)最有趣的一個(gè)演示。

Google 特意提到，Gemini 2.0 可以理解 Android 手機(jī)的屏幕分享和用戶的語(yǔ)音，直接做到演示中的內(nèi)容，不需要額外的后訓(xùn)練。

演示中，用戶分享正在玩的手機(jī)屏，并用語(yǔ)音和 Agent 溝通，游戲 Agent 直接給出了接下來(lái)的最佳策略。

Google 表示目前正在和《部落沖突》、《海島奇兵》等游戲做合作，幫助 Agent 理解游戲規(guī)則。同時(shí) Agent 也會(huì)自己實(shí)時(shí)上網(wǎng)查找，來(lái)理解游戲規(guī)則給出最好的策略。

這個(gè)功能也可以說(shuō)很炸裂了。對(duì)于純策略型游戲，這個(gè)外掛可有點(diǎn)太厲害了——隨著 AI 的進(jìn)展，人腦對(duì)策略的理解恐怕沒有辦法和 AI 抗衡?；蛘哒f(shuō)，或許只有最頂尖的大腦可以和 AI 相抗衡。

Gemini2.0 目前并沒有對(duì)全部用戶開放，Google 表示目前正在將 2.0 開放給開發(fā)者以及受信任的測(cè)試人員。這意味著以上的 Agent 功能，到用戶真正能夠使用，仍然有一段時(shí)間。不過(guò)此次演示仍然令人興奮。

未來(lái) Gemini 2.0 上線，Google 大概率也不會(huì)首發(fā)上述的 Agent 功能，而是將先將其融入 Gemini 和搜索功能。

Google 之前已經(jīng)在探索將 AI 引入其搜索功能中。10 月，Google 曾經(jīng)宣布，其搜索中的 AI 概述功能每月獲得了 10 億用戶的使用。未來(lái) Google 計(jì)劃把 Gemini 2.0 的高級(jí)推理能力引入 AI 概述，以應(yīng)對(duì)更復(fù)雜的話題和多步驟問題，包括高級(jí)數(shù)學(xué)方程式、多模態(tài)查詢和編碼。

此外，除了探索虛擬世界的智能體能力外，Google 還打算將 Gemini 2.0 的空間推理能力應(yīng)用于機(jī)器人領(lǐng)域，嘗試讓 Agent 在現(xiàn)實(shí)世界中提供幫助。

Gemini Flash 常規(guī)更新

那么用戶實(shí)際上能夠馬上使用的模型是什么？

答案是 Gemini 2.0 Flash。

作為 Google 大號(hào)模型蒸餾而來(lái)的小號(hào)模型，Gemini 2.0 Flash（對(duì)話優(yōu)化版本）將成為 Google Gemini 中的默認(rèn)使用模型。

Google 還推出了一項(xiàng)名為「深度研究」的新功能，該功能利用高級(jí)推理和長(zhǎng)上下文能力作為研究助手，可以探索復(fù)雜主題并編制報(bào)告，今天在 Gemini 高級(jí)版中可用。

Gemini 2.0 Flash 的能力較上一代有明顯提升，相當(dāng)于上一代模型的 Pro 版本的能力。

同時(shí)作為 2.0 模型家族的一員，Gemini 2.0 Flash 也支持支持圖片、視頻和音頻等多模態(tài)輸入，2.0 Flash 現(xiàn)在還可以支持多模態(tài)輸出，例如可以直接生成圖像與文本混合的內(nèi)容，以及原生生成可控的多語(yǔ)言文本轉(zhuǎn)語(yǔ)音 (TTS) 音頻。它還可以原生調(diào)用 Google Search、代碼執(zhí)行以及第三方用戶定義的函數(shù)等工具。

Project Astra：為 Google Glasses 準(zhǔn)備的模型，擁有無(wú)限記憶？

Google 此次還重點(diǎn)介紹了 Project Astra，為其推出了以下改進(jìn)：

·更流暢的對(duì)話：Project Astra 現(xiàn)在可以在多種語(yǔ)言和混合語(yǔ)言之間進(jìn)行對(duì)話，并且能夠更好地理解不同口音和生僻單詞。

·新工具的使用：借助 Gemini 2.0，Project Astra 可以使用 Google Search、Google Lens 和 Google Maps，從而在日常生活中更好地發(fā)揮助手作用。

·更強(qiáng)的記憶力：我們?cè)鰪?qiáng)了 Project Astra 的記憶能力，同時(shí)確保你可以掌控對(duì)話?，F(xiàn)在，它最多可以記住長(zhǎng)達(dá) 10 分鐘的會(huì)話內(nèi)容，并且可以回憶起過(guò)去與它進(jìn)行的更多對(duì)話，以便為您提供更好的個(gè)性化服務(wù)。

·更低的延遲：借助新的流式處理技術(shù)和原生音頻理解能力，該智能體能夠以近于人類對(duì)話的延遲來(lái)理解語(yǔ)言。

Google Astra 是 Google 為了眼鏡項(xiàng)目所做的前瞻項(xiàng)目。

從 Meta 和 Ray-ban 的合作眼鏡開始，國(guó)內(nèi)外的不少公司，已經(jīng)又在重新探索眼鏡作為新一代智能硬件的潛力。

此次 Google 重大更新之一，是記憶能力。在外網(wǎng)采訪中，DeepMind 的 CEO Demis Hassabis 表示，在 Gemini 1.5 時(shí)代，內(nèi)部測(cè)試中，已經(jīng)將其上下文窗口擴(kuò)展到了 1000 萬(wàn)個(gè) token 以上。目前已經(jīng)模型幾乎可以做到無(wú)限記憶。

但是代價(jià)就是速度。記憶越長(zhǎng)，搜索相關(guān)記憶的成本越高，速度越低。不過(guò) Demis Hassabis 認(rèn)為，接下來(lái)相當(dāng)短的時(shí)間內(nèi)，我們將真正擁有無(wú)限長(zhǎng)的上下文。

而這對(duì)于 Google 真正想做的助手而言是極其重要的。Demis Hassabis 形容未來(lái)世界：「你在電腦上使用這一助手，然后你走出家門，戴上眼鏡，或者使用手機(jī)，它一直都在。它能夠記住會(huì)話以及你想要做什么，真正個(gè)性化。我們?nèi)祟悷o(wú)法記住所有事情，而AIvu u會(huì)記住所有事情，來(lái)給你以靈感和新的規(guī)劃?！?/p>

Agent 時(shí)代已來(lái)？

從去年開始，就陸續(xù)有人指出 Agent 是 AI 發(fā)展的未來(lái)。

不過(guò)，在過(guò)去一年中，Agent 這個(gè)詞的使用相對(duì)比較沉寂，甚至有時(shí)候被偷換概念當(dāng)成 AI 應(yīng)用來(lái)使用。

但是在今年年末，我們終于開始看到了相對(duì)可喜的進(jìn)展。

首先是 Anthropic，推出電腦使用的 Agent 模式。

國(guó)內(nèi)的智譜 AI，也推出了一個(gè)手機(jī) Agent 替用戶操作微信等 App 的的演示視頻。

明年的 OpenAI 與蘋果合作的 Apple Intelligence，目前仍然不確定全貌。很多人期待它將讓許多用戶第一次在手機(jī)上體會(huì)到簡(jiǎn)單的 Agent 功能到底能如何幫助我們提升生產(chǎn)力。

而現(xiàn)在我們又看到 Google 推出的瀏覽器 Agent 和安卓手機(jī)上的 Agent 使用演示。

Agent 技術(shù)依然面臨諸多挑戰(zhàn)。人們會(huì)擔(dān)憂誤操作可能帶來(lái)的安全隱患，會(huì)擔(dān)心隱私，會(huì)擔(dān)心一系列風(fēng)險(xiǎn)。

但同時(shí)，對(duì)于普通用戶而言，Agent 才是最具「AI 感」的技術(shù)。全自動(dòng)的任務(wù)完成，像魔法一般，不需要任何技術(shù)背景，直接就能提升工作效率和使用體驗(yàn)。

Agent 能力的提升，也為一個(gè)新的智能硬件真正進(jìn)入人們生活打下了基礎(chǔ)——只有發(fā)出語(yǔ)音指令，眼鏡能直接自動(dòng)完成部分任務(wù)的時(shí)候，許多任務(wù)才會(huì)逐漸從手機(jī)轉(zhuǎn)移至新的智能硬件終端。

或許真的如 Google AI Studio 的產(chǎn)品負(fù)責(zé)人 Logan Kilpatrick 今天早些時(shí)候所言：未來(lái)，是 Agent 的時(shí)代。

*頭圖來(lái)源：Google

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自： zhenyou589 > 《谷歌》

舉報(bào)/認(rèn)領(lǐng)