谷歌開了兩個(gè)小時(shí)的發(fā)布會(huì)，比不上OpenAI半小時(shí)

烏鴉智能說 2024-05-15 發(fā)布于北京

展開全文

在OpenAI 春季發(fā)布會(huì)的第二天，2024年谷歌 I/O大會(huì)正式召開。

或許出于反擊OpenAI的需要，谷歌為這個(gè)大會(huì)準(zhǔn)備了很多東西：從基座模型 Gemini 升級(jí)到新的AI語音助手 Astra、新的文生視頻模型Veo，以及更強(qiáng)大的文生圖模型Imagen3。

這個(gè)大會(huì)開了整整兩個(gè)小時(shí)，時(shí)長(zhǎng)是OpenAI發(fā)布會(huì)的四倍。但從結(jié)果來說，似乎沒有任何令人驚艷的地方。就連最可能成為爆款的AI語音助手Astra，也在GPT-4o襯托下顯得“平平無奇”。

發(fā)布會(huì)效果比不過就算了，關(guān)注度也比不過。甚至在谷歌發(fā)布會(huì)召開的今天，OpenAI還主動(dòng)釋放出首席科學(xué)家Ilya Sutskever離職的消息。

這兩場(chǎng)緊緊挨著的發(fā)布會(huì)，也很好詮釋了兩者當(dāng)下的處境：在OpenAI不斷阻擊下，谷歌始終是那個(gè)活在OpenAI陰影下的人。

/ 01 / AI產(chǎn)品全面升級(jí)

在發(fā)布會(huì)上，最重要的自然是基座模型Gemini的升級(jí)，此次升級(jí)大致可以歸結(jié)為：更長(zhǎng)上下文、輕量版本、個(gè)性化機(jī)器人。

升級(jí)后的Gemini 可以分析比以前更長(zhǎng)的文檔、代碼庫、視頻和音頻記錄。據(jù)透露，它最多可以容納 200 萬 token。這是之前的兩倍，新版 Gemini 1.5 Pro支持所有商用型號(hào)中最大的輸入。

為了滿足不同場(chǎng)景的需求，谷歌還發(fā)布了新的輕量級(jí)模型：Gemini 1.5 Flash。據(jù)介紹，Gemini 1.5 Flash是 Gemini 1.5 Pro 的“精煉”版本，同樣擁有多達(dá) 200 萬個(gè) token 上下文窗口，且和Gemini 1.5 Pro一樣，擁有多模態(tài)功能，適合處理摘要、聊天、圖片分析和視頻字幕、以及從長(zhǎng)文本和表格中提取數(shù)據(jù)等。

在定價(jià)上，Gemini 1.5 Flash 的價(jià)格定為每 100 萬 tokens 35 美分，這比 GPT-4o 的每 100 萬 tokens 5 美元的價(jià)格要便宜得多。

對(duì)于 Gemini 的訂閱用戶，可以使用谷歌新推出的「Gems」功能，類似于 OpenAI 的 GPT 商店。用戶可以自行創(chuàng)建Gems，與其進(jìn)行交流互動(dòng)。

除了Gemini外，谷歌還對(duì)文生圖模型Imagen2進(jìn)行了升級(jí)。DeepMind 負(fù)責(zé)人 Demis 聲稱，與 Imagen 2 相比，Imagen 3 能夠更準(zhǔn)確理解圖像的文本提示詞，并且生成的圖片更具創(chuàng)造性和細(xì)節(jié)。為了減輕人們對(duì)深度偽造的可能性的擔(dān)憂，Imagen3將使用SynthID，可將不可見的加密水印應(yīng)用于媒體。

在升級(jí)模型的同時(shí)，谷歌還發(fā)布了多款新品，包括新的AI語音助手Astra以及文生視頻模型 Veo。

Astra 能夠通過設(shè)備的攝像頭識(shí)別物體和場(chǎng)景，并用自然語言進(jìn)行交互。官方介紹，Astra 使用了 Gemini Ultra 的高級(jí)版本。在演示視頻中，谷歌的 AI 助手能夠通過攝像頭視頻，識(shí)別 " 什么東西能發(fā)出聲音 "、" 現(xiàn)在身處何地 " 等指令。

DeepMind CEO Demis Hassabi表示，這樣的 AI 助手需要像人類一樣理解這個(gè)動(dòng)態(tài)且復(fù)雜的世界。需要記得住它看到的東西，這樣才能理解對(duì)話并付諸于行動(dòng)。同時(shí)它也得能積極主動(dòng)接受教導(dǎo)，以及自然、無延遲地進(jìn)行交流。

而視頻生成模型Veo直接對(duì)標(biāo)OpenAI 的 Sora，可以根據(jù)文本提示創(chuàng)建大約一分鐘長(zhǎng)的 1080p 視頻剪輯。Veo 可以捕捉不同的視覺和電影風(fēng)格，包括風(fēng)景和延時(shí)鏡頭，并對(duì)已生成的鏡頭進(jìn)行編輯和調(diào)整。

與Sora類似，Veo展現(xiàn)了對(duì)物理規(guī)律的一定理解，比如流體動(dòng)力學(xué)和重力等。這與其訓(xùn)練數(shù)據(jù)有關(guān)，官方人員承認(rèn)有些數(shù)據(jù)來自 YouTube。

/ 02 / 更強(qiáng)的AI搜索來了

AI搜索的升級(jí)，也是本次發(fā)布會(huì)的一大亮點(diǎn)。

在此次發(fā)布會(huì)上，谷歌推出了AI Overviews(AI 概覽），該功能將AI結(jié)果加入到搜索內(nèi)容呈現(xiàn)，即當(dāng)用戶進(jìn)行提問時(shí)，頁面頂部將提供 AI 生成的答案。

官方人員表示，AI 概覽不會(huì)出現(xiàn)在每個(gè)搜索結(jié)果中，目前主要針對(duì)于更復(fù)雜的問題。每次用戶進(jìn)行搜索時(shí)，谷歌會(huì)在后臺(tái)進(jìn)行算法價(jià)值判斷，以決定是否提供由 AI 生成的答案還是直接提供傳統(tǒng)的網(wǎng)頁鏈接。

去年以來，谷歌一直在通過其搜索生成體驗(yàn)（SGE）測(cè)試 AI 驅(qū)動(dòng)的可能性。谷歌搜索主管 Liz Reid 表示，在其 AI 概述功能的測(cè)試期間，谷歌觀察到人們點(diǎn)擊了更加多樣化的網(wǎng)站。據(jù)介紹，該功能面向全平臺(tái)推出，從 Web 網(wǎng)頁、App 到 Android 設(shè)備，預(yù)計(jì)將在本周內(nèi)全面開放，在年底推廣到更多國家。

除了提供答案外，搜索還新增了行程規(guī)劃功能，幫用戶制定更為詳細(xì)的規(guī)劃。比如，用戶可以輸入諸如“為四口之家計(jì)劃三天的膳食”之類的查詢，并獲取這三天的鏈接和食譜。

與此同時(shí)，谷歌也強(qiáng)化了多模態(tài)方面的搜索表現(xiàn)。比如，谷歌推出了AI 驅(qū)動(dòng)的“圈搜索”功能，允許 Android 用戶使用轉(zhuǎn)圈等手勢(shì)立即獲得答案。這一設(shè)計(jì)的初衷是，讓用戶在手機(jī)上的任何地方都可以更自然地通過一些操作（例如圈選、突出顯示、涂鴉或點(diǎn)擊）來使用 Google 搜索。

此外，用戶還能通過結(jié)合視頻進(jìn)行搜索。比如，用戶在舊貨店買了一臺(tái)唱片機(jī)，但打開時(shí)無法工作，帶有針頭的金屬部件在意外漂移。用視頻搜索能夠，更清晰、準(zhǔn)確地反饋這個(gè)問題。

此次谷歌推出AI搜索，是對(duì)Perplexity等AI搜索玩家崛起的直接回應(yīng)。自生成式AI崛起開始，搜索被認(rèn)為是AI應(yīng)用最成熟的場(chǎng)景。無論是流量數(shù)據(jù)還是估值，Perplexity都有著不錯(cuò)的表現(xiàn)。

根據(jù)Similarweb數(shù)據(jù)，Perplexity今年前三月的流量分別為4560萬、4954萬和6149萬，不斷增長(zhǎng)。在估值方面，根據(jù) TechCrunch 最新報(bào)道，Perplexity 正在籌集至少 2.5 億美元資金融資，最新估值在 25～30 億美元之間。

盡管用戶體量依然差谷歌幾個(gè)量級(jí)，但Perplexity仍然在一個(gè)Google長(zhǎng)期霸占的市場(chǎng)利用AI獲得了階段性顛覆成果。

從此次發(fā)布會(huì)看，與其他AI搜索相比，谷歌AI搜索的差異性有限，更多體現(xiàn)在多模態(tài)。換句話說，僅從功能上看，谷歌的AI搜索并未與Perplexity們拉開質(zhì)的差距。

/ 03 / 被“壓制”的谷歌

谷歌的I/O大會(huì)僅比OpenAI的春季功能更新會(huì)晚一天，兩者很容易被人拿來進(jìn)行對(duì)比。

要說重視程度，谷歌肯定完爆OpenAI。OpenAI的發(fā)布會(huì)開了僅僅半個(gè)小時(shí)，主要介紹了新模型GPT-4o和ChatGPT在語音和視覺功能上的升級(jí)。而谷歌則開了整整兩個(gè)小時(shí)，一口氣拿出來十來款新品及升級(jí)，所有武器庫傾巢而出，全面對(duì)標(biāo)OpenAI。

但努力并不意味著最后的結(jié)果。盡管谷歌發(fā)布產(chǎn)品很多，但沒有任何一款給人帶來GPT-4o那樣的驚艷感，顯得多少有些“雞肋”。

發(fā)布會(huì)效果比不過就算了，流量也比不過。就在谷歌發(fā)布會(huì)的同一時(shí)間，OpenAI首席科學(xué)家Ilya Sutskever在X發(fā)布了自己離開OpenAI消息，再次搶走了谷歌發(fā)布會(huì)的關(guān)注度。

一個(gè)無比殘酷的事實(shí)是，自2022年12月ChatGPT發(fā)布以來，曾經(jīng)AI領(lǐng)域的扛把子谷歌就一直被OpenAI壓制得死死的，毫無還手之力。

去年2月，OpenAI的ChatGPT風(fēng)靡全球，谷歌草草推出了聊天機(jī)器人Bard，產(chǎn)品卻不如預(yù)期。先是演示中出現(xiàn)事實(shí)錯(cuò)誤，讓谷歌母公司一夜之間市值蒸發(fā)千億美元；而后也沒能以性能表現(xiàn)吸引足量用戶，據(jù)Similarweb的數(shù)據(jù)，Bard全球月訪問量只有2.2億次，僅為ChatGPT的1/8。

2月16日大年初七，谷歌放出其大模型核彈——Gemini 1.5，并將上下文窗口長(zhǎng)度擴(kuò)展到100萬個(gè)tokens。Gemini 1.5 Pro可一次處理1小時(shí)的視頻、11小時(shí)的音頻、超過3萬行代碼或超過70萬字的代碼庫，向還沒發(fā)布的GPT-5發(fā)起挑戰(zhàn)。沒過幾天，OpenAI發(fā)布了文生視頻大模型Sora，后來的結(jié)果大家都知道了。

如今，這樣的故事還在延續(xù)。至少到目前為止，OpenAI的策略很成功，通過錨定谷歌的產(chǎn)品發(fā)布節(jié)奏，死死壓制住了谷歌。這也谷歌AI始終擺脫不了一個(gè)外界印象：

谷歌AI很強(qiáng)，但與OpenAI相比，還不夠。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：烏鴉智能說 > 《待分類》

舉報(bào)/認(rèn)領(lǐng)