前兩天,谷歌發(fā)布了 Gemini 2.0,打響了反“OpenAI 夸大營銷”的第一槍。 如果你已經(jīng)體驗(yàn)過了 Gemini 2.0 的多模態(tài)功能,你應(yīng)該會跟我發(fā)出一樣的吶喊:臥 x,這是真的牛 x。 超快視覺理解速度、超像人的語音語調(diào)、響應(yīng) 0 延遲無卡頓,而且還是個(gè)免費(fèi)勞動(dòng)力。 這幾天,Gemini 2.0 在外網(wǎng)已經(jīng)徹底瘋狂了。一打開 Twitter,10 條熱門里面有一半以上都是網(wǎng)友用 Gemini 2.0 跑出的哇塞玩法。 相比之下,OpenAI 這幾天在外網(wǎng)幾乎沒啥熱度。這個(gè)反差,太讓人唏噓了。 廢話不多說,下面筆者就來帶你見識一下網(wǎng)友玩出的 Gemini 2.0 令人哇塞的用法! 最佳 AI 游戲外掛(以下視頻中字幕與翻譯均由機(jī)器自動(dòng)生成,不保證翻譯質(zhì)量) 如果你喜歡打游戲,那你一定知道,打游戲的最高配置是:外掛 朋友。 而這里,Gemini 雖然沒有直接破解游戲,但它能在你打游戲的時(shí)候,做你的語音搭子,直接指導(dǎo)你怎么破局。 這簡直就是一個(gè)活脫脫的通用 AI 外掛呀。 無論你是想讓 AI 幫你分析游戲局勢,還是單純的閑聊,只要你想聊天,Gemini 都能隨時(shí)回答你。 或者你突然有一個(gè)解密過不去了,卡關(guān)了,Gemini 還能根據(jù)自己理解游戲規(guī)則的能力,給你建言獻(xiàn)策。 說到策略游戲,之前我在網(wǎng)上,看到過一個(gè)很搞笑的話題: 用 AI 下象棋,克制大爺。 我現(xiàn)在在想,讓 Gemini 看著棋盤教我下棋,能不能指導(dǎo)我戰(zhàn)勝大爺。 有興趣的小伙伴可以身先士卒,找個(gè)下象棋的大爺試一試。(小心不要被大爺發(fā)現(xiàn)了暴打一頓) AI 陪讀論文搭子如果今天你還在用 GPT、Kimi 等對話助手“總結(jié)論文”-“多輪對話”,那真的已經(jīng)不能把你叫做 AI 發(fā)燒友了。 因?yàn)椋嬲?AI 發(fā)燒友已經(jīng)在用 Gemini 2.0 陪讀 AI 論文了。 不需要再像 ChatBot 產(chǎn)品那樣苦哈哈的瘋狂打字、對話調(diào)教,絞盡腦汁告訴它你現(xiàn)在在讀哪里。你現(xiàn)在直接就能把你的論文跟 Gemini 遠(yuǎn)程共享桌面,然后哪里不懂了直接用嘴問。 這體驗(yàn),已經(jīng) 100% 碾壓了上一代對話產(chǎn)品了。 AI 閱讀賽道,變天了。 AI 編程搭子(真 · Peer Coding)程序員有兩件事兒最爽—— 一件事兒是深夜自己一個(gè)人敲代碼。 另一件事兒是白天拉個(gè)大神跟你一塊敲代碼。 但不是每個(gè)人都能找到一個(gè)大神做自己的編程搭子的,一不小心找來的可能是個(gè)給自己寫 bug 的豬隊(duì)友。 現(xiàn)在不一樣了—— Gemini 2.0 當(dāng)編程搭子簡直不要太爽! 無論你現(xiàn)在是處在命令行、IDE 還是其他什么開發(fā)環(huán)境里,都能直接跟編程搭子實(shí)時(shí) peer coding 了。 當(dāng)然,有一點(diǎn)不太好,就是它沒法像 cursor、windsurf 等 AI 編程應(yīng)用一樣直接替代改代碼,用嘴講怎么改,有時(shí)會讓人捉急。 如果將來再給 Gemini 開放遠(yuǎn)程控制、鍵盤輸入的權(quán)限,AI 編程領(lǐng)域可能要大變天了。 AI 星級廚師午飯吃什么,晚飯吃什么,夜宵吃什么? 每日的靈魂三問,現(xiàn)在可以讓 Gemini 2.0 來幫忙做決定了。 它能根據(jù)你廚房里現(xiàn)有的食材,給你提供一個(gè)選擇—— 跟上一個(gè)編程的例子不同的是,編程用的共享屏幕功能,這個(gè)是用的攝像頭。 對,就只需要對著你的冰箱拍就行。把攝像頭對準(zhǔn)冰箱里的食材,Gemini 就能迅速分辨出冰箱里各種食材,給你搭配出來一頓飯。 如果你拿國產(chǎn)的 AI 視頻測一測,就能感受到 Gemini 2.0 這個(gè)做的多牛了。 but...Gemini 給推薦的是西餐,國產(chǎn) AI 模型廠商們能不能給搞個(gè)中餐版本出來?? 此處 @ 智譜 @ 階躍 @ 豆包 @Kimi @ 文心 @ 通義 @ 海螺 ...(排名無先后) AI 調(diào)酒師除了提供食譜,Gemini 還能教你調(diào)酒。 直接攝像頭對準(zhǔn)架子上的基酒,Gemini 可以直接識別出架子上有什么酒,還能立刻回復(fù)調(diào)酒配方。這個(gè)視覺理解速度和響應(yīng)速度,真的不是蓋的。 這名網(wǎng)友的手特別抖……我看視頻的時(shí)候,都沒有看清架子上到底有什么酒,只能一遍一遍暫??础?/p> 如果是這個(gè)網(wǎng)友跟我打視頻電話,問我怎么調(diào)酒,我可能會把他扁一頓,讓他拿穩(wěn)手機(jī)再說話…… 失敗案例:虛擬實(shí)時(shí)鋼琴教師在教學(xué)方面,還有一個(gè)網(wǎng)友讓 Gemini 教自己彈鋼琴。 這里 Gemini 的確回應(yīng)了網(wǎng)友的需求,但是——它教的是錯(cuò)的。 視頻里網(wǎng)友希望 Gemini 找出 G 鍵的位置,結(jié)果它誤導(dǎo)網(wǎng)友找的是 C 鍵的位置。而且,這名網(wǎng)友真的是新手。如果不是評論區(qū)的好心人指正,可能他以后都會認(rèn)為 C 鍵是 G 鍵了。 對于不懂行的人來說,幻覺問題導(dǎo)致的認(rèn)知錯(cuò)誤是非常致命的。 這種重復(fù)的黑白按鍵畫面,對 AI 來說,處理起來還是捉襟見肘了。 不過這個(gè)例子確實(shí)有點(diǎn)刁難,姑且原諒 Gemini 這一次。 這個(gè)例子暴露出 Gemini 的另一個(gè)弊端是:它沒法理解曲目。 現(xiàn)在 Gemini 還只能分辨人聲,它“聽不進(jìn)去”音樂。 軟件教學(xué)搭子大伙剛上手一個(gè)新軟件時(shí),是不是也會被軟件琳瑯滿目的按鈕震懾到? 反正我剛開始使用 PS 軟件的時(shí)候,我確實(shí)是被嚇到了。數(shù)不清的按鈕,看不懂的描述。 視頻里的小哥就是在用 Gemini 解決這個(gè)問題。 只要給它描述出你想要做的事情,你想要實(shí)現(xiàn)的效果,Gemini 就會幫你找出點(diǎn)哪個(gè)按鈕可以實(shí)現(xiàn)。 這個(gè)功能還是很不錯(cuò)的。以后上手一個(gè)新程序的時(shí)候,就沒什么學(xué)習(xí)難度了。 我愿稱這個(gè)例子為最直觀的體現(xiàn) Gemini 用處的一個(gè)。 調(diào)教說話語氣這個(gè)示例中,網(wǎng)友在 system prompt 中對語調(diào)進(jìn)行了約束,來讓 Gemini 說話風(fēng)格更符合需求。 我本來很想試一下,Gemini 能不能說中文方言。但比較可惜的是,Gemini 不會說中文,更不用說讓它學(xué)中文方言口音了。 ChatGPT 的語音模式倒是能說中文,但是你們?nèi)ンw驗(yàn)一下就知道了,一股子大佐味…… 果然中文對話這一塊,還是得看我們的國產(chǎn)模型。 讀書搭子最后這個(gè)例子跟開頭的 AI 陪讀論文比較類似,這名網(wǎng)友把自己正在讀的書共享給 Gemini,讓它回答一些書中的問題,而 Gemini 都回答上來了。 而且這個(gè)網(wǎng)友的需求還挺特殊,他是這么說的:他就是需要一個(gè)這樣的天才 AI,陪自己讀書。問問題它會回答,有自己的理解,而且可以隨時(shí)隨地陪伴著自己。 好家伙,就是主打一個(gè)陪伴。 但不得不說,這種需求還是真實(shí)存在的。 上一個(gè)陪伴自己的是小說、游戲、短視頻。下一個(gè)陪伴自己的,就是 AI。 他體驗(yàn)完 Gemini 2.0 后,跟我的想法一樣: Gemini 2.0 是一個(gè)真正的 AI 助手。 最后,我突然想 cue 一下 OpenAI。 要問為什么,因?yàn)槲颐刻彀疽棺?OpenAI 的發(fā)布會直播,結(jié)果 OpenAI 更新內(nèi)容的含金量一天不如一天…… 今天 OpenAI 發(fā)布會講了個(gè)啥? 今天,OpenAI 學(xué) Anthropic 的 Claude project(文件夾功能),往 ChatGPT 里面也加了一個(gè)“project”功能: 如果把每次對話比作一個(gè)文件,那 project 功能就是一個(gè)文件夾。 用 project 可以組織對話,相當(dāng)于把一堆文件整理到一個(gè)文件夾里面; ChatGPT 還可以根據(jù)文件夾中的對話內(nèi)容,語氣,來調(diào)整 ChatGPT 的風(fēng)格和功能。支持上傳文件、設(shè)置自定義指令,還集成了 Search 和 Canvas 等功能。 有一種沒活硬整的感覺……還是看看遠(yuǎn)處的視覺功能吧,家人們。 極端點(diǎn)說,除了第一天的 o1 滿血版,我感覺 OpenAI 后面這幾天的直播更新內(nèi)容加起來,還沒有谷歌一個(gè) Gemini 2.0 勁爆。 雖然在 Gemini 2.0 發(fā)布的第二天,OpenAI 也官宣了高級語音模式的視覺功能—— 但是,這還是個(gè)期貨,要后續(xù)才能體驗(yàn)到,真的讓人挺無語的。 我猜,OpenAI 原定的是,下周官宣視覺功能。 而谷歌這一手王炸,把 OpenAI 整急了,不得已把視覺功能的直播排期提前,進(jìn)行魔法對波。但視覺功能還在調(diào)試中,只能下周拿出來。 這么一想,感覺還挺合理的? 等 OpenAI 的視覺功能正式上線了,我還會做一手實(shí)測,看看它是不是真的值得我們等這么久。 如果小伙伴們有什么靈光一現(xiàn)的想測試的場景 case,歡迎在評論區(qū)分享出來~ |
|