加強(qiáng)版的 ChatGPT,更聰明也更安全了。
該來的終于到來了。 美國(guó)當(dāng)?shù)貢r(shí)間 3 月 14 日,大熱的 OpenAI 正式推出其最新作品 GPT-4。通過 ChatGPT 再次點(diǎn)燃整個(gè)科技圈的想象力之后,GPT-4 毫無疑問成為整個(gè)行業(yè)關(guān)注的焦點(diǎn)。 在 OpenAI 官方網(wǎng)站中,這一代的大模型 GPT-4 相較于前一代產(chǎn)品,最大的進(jìn)化在于「多模態(tài)」和長(zhǎng)內(nèi)容生成。 此前的 ChatGPT,用戶只能輸入文字,而 GPT-4 現(xiàn)在已經(jīng)可以識(shí)別圖片內(nèi)容,并給出答案,甚至能識(shí)別一些網(wǎng)絡(luò)上常見「梗圖」,并告訴用戶「笑點(diǎn)」到底是什么。在輸出方面,GPT-4 最多可以輸出 25000 個(gè)單詞,相比 ChatGPT 有大幅提升。 同時(shí),相比上一代產(chǎn)品,GPT-4 給出答案的錯(cuò)誤更少,涉及到倫理和敏感問題時(shí),回答也更「安全」。 GPT-4 能像「哥哥」ChatGPT 一樣再次席卷科技圈嗎?它對(duì)接下來 AI 行業(yè)的走向,又會(huì)產(chǎn)生怎樣的影響? 01 多了一雙「眼」,更智能 根據(jù) OpenAI 介紹,相較于 ChatGPT,GPT-4 有三個(gè)方面的主要提升。 1 讀圖能力 對(duì)話時(shí)可以直接用圖片提問,它能夠在讀懂圖片內(nèi)容的基礎(chǔ)上,給出有邏輯的回答。比如,你可以給它一張牛奶、雞蛋、面粉的圖片,問他「這些材可以用來做什么?」它會(huì)給出一系列選項(xiàng): 煎餅或華夫餅 法式薄餅、法式吐司 煎蛋或煎蛋餅 乳蛋餅 蛋奶或布丁 蛋糕或紙杯蛋糕 松餅或面包 餅干或餅干 圖片來源|OpenAI 當(dāng)種讀圖能力和寫代碼能力相結(jié)合,就像有了魔法,在發(fā)布會(huì)上,Open AI 展示了如何讓 GPT-4 幫你制作網(wǎng)頁: 只要輸入在筆記本上畫出草圖,拍照,對(duì)他說:用簡(jiǎn)短的 HTML/JS 將這個(gè)草圖變成彩色的網(wǎng)站,能夠幾秒鐘之內(nèi),一個(gè)完整的網(wǎng)頁就可以出現(xiàn)。 圖片來源|OpenAI 目前 Open AI 還沒有將 GPT-4 中的圖像識(shí)別能力開放,為了更好地優(yōu)化圖像輸入功能,OpenAI 正在與 BeMyEyes 密切合作。這是一家在丹麥的公司它們?cè)谧龅氖虑槭怯密浖屢曊先巳号c志愿者遠(yuǎn)程互動(dòng),后者做前者的眼睛,幫助他們完成生活任務(wù)。 接入了最新的圖像識(shí)別能力之后,視障人群就像有了一個(gè)「更聰明的攝像頭」,也被稱為「虛擬志愿者」,之前的算法不能基于視覺信息做邏輯推理——這也是 GPT-4 與之前的視覺算法最大的區(qū)別。公司的 CTO Jesper Hvirring Henriksen 解釋,新的功能「不僅在于交談的能力,還在于該技術(shù)提供的分析能力」,基本的圖像識(shí)別應(yīng)用程序只能告訴人們眼前發(fā)生了什么,現(xiàn)在算法能夠判斷地面上出現(xiàn)的事物「是否不僅僅是一個(gè)球,而是一個(gè)絆倒的危險(xiǎn),然后進(jìn)行交流?!?/span> 2 答案更可靠 在更涉及到邏輯的更復(fù)雜任務(wù)上,能夠給出更可靠、也更有創(chuàng)造性的答案。 Open AI 讓 GPT-4 參加了一系列考試,GPT-4 的表現(xiàn)均有所提升,有的甚至直接從 GPT-3.5 的差生變成了優(yōu)等生。例如,在模擬律師資格考試上,它成績(jī)?cè)谇?10% 左右;而 GPT-3.5 的成績(jī)?cè)诤?10% 左右。滿分為 800 分的 SAT Math,它從 590 分提升到了 700 分。 「在隨意的交談中,GPT-3.5 和 GPT-4 之間的區(qū)別可能是微妙的。當(dāng)任務(wù)的復(fù)雜性達(dá)到足夠的閾值時(shí),差異就會(huì)出現(xiàn)——GPT-4 比 GPT-3.5 更可靠、更有創(chuàng)意,并且能夠處理更細(xì)微的指令?!筄pen AI 表示。 3 內(nèi)容更長(zhǎng)更豐富 此外,在單次問答的信息處理量上也有了提升。在對(duì)GPT-4提問的時(shí)候,一次性能夠輸入長(zhǎng)達(dá) 25000 單詞。之前,有編劇跟極客公園交流,試用 ChatGPT 的時(shí)候跟,只能把劇本拆開一段段給模型看,現(xiàn)在,這樣的煩惱應(yīng)該會(huì)大大減輕。 也就是可以讓他直接幫你讀文章。你還可以扔給他一個(gè)鏈接,讓他直接做閱讀理解。 比如,給它美國(guó)歌星雷哈娜的維基百科鏈接,問她,「描述一下她在超級(jí)碗上的表現(xiàn),以及為什么這么特別」 給出的回答是這樣: 蕾哈娜在第七屆超級(jí)碗中場(chǎng)秀上的表演很特別,原因有很多。首先,這是她五年多來的第一次現(xiàn)場(chǎng)表演,也是她第一次在超級(jí)碗中場(chǎng)秀上亮相。此外,她還創(chuàng)造了歷史,成為第一個(gè)在懷孕期間在超級(jí)碗表演的人。這場(chǎng)演出本身就廣受好評(píng),許多人稱贊她充滿活力的表演和令人印象深刻的歌聲。它也獲得了大量的觀眾,成為歷史上收視率第二高的中場(chǎng)秀。 圖片來源|OpenAI 4. 關(guān)于「胡編亂造」和「有害答案」 當(dāng)然,目前大模型在「胡編亂造」上的問題,GPT-4 仍然有。不過 Open AI 表示,在對(duì)于「捏造事實(shí)」的內(nèi)部測(cè)試上,GPT-4 的表現(xiàn)比 GPT-3.5 要高出 40%。GPT-4 的知識(shí)范疇也存在時(shí)間限制,截止于 2021 年 9 月。 在生成有害的想法上,Open AI 也強(qiáng)調(diào)了風(fēng)險(xiǎn)?!窯PT-4 及其后續(xù)模式有可能以有益和有害的方式對(duì)社會(huì)產(chǎn)生重大影響。我們正在與外部研究人員合作,改進(jìn)我們理解和評(píng)估潛在影響的方式,并對(duì)未來系統(tǒng)中可能出現(xiàn)的危險(xiǎn)能力進(jìn)行評(píng)估?!?/span> 由于在基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)環(huán)節(jié)中,增加了一個(gè)額外的安全獎(jiǎng)勵(lì)信,這使得 GPT-4 目前的表現(xiàn)更加優(yōu)秀一些。此外,OpenAI 也聘請(qǐng)了 50 多名來自人工智能對(duì)齊風(fēng)險(xiǎn)(AI alignment risks)、網(wǎng)絡(luò)安全、生物風(fēng)險(xiǎn)、信任與安全以及國(guó)際安全等領(lǐng)域的專家,對(duì)模型進(jìn)行對(duì)抗性測(cè)試。研究結(jié)果中給出了兩個(gè)例子。 02 GPT-4 落地更快 對(duì)于 GPT-4 的表現(xiàn),OpenAI 總結(jié)道:我們花了 6 個(gè)月的時(shí)間迭代調(diào)整 GPT-4,使用了來自 ChatGPT 的經(jīng)驗(yàn)教訓(xùn)和我們的對(duì)抗性測(cè)試程序,在真實(shí)性、可控性(steerability)和拒絕超出護(hù)欄(refusing to go outside of guardrails)方面得到了我們有史以來最好的結(jié)果。 顯然,OpenAI 的 GPT 大模型迭代速度變快了。GPT-4 距離上次 ChatGPT 的發(fā)布,不到 4 個(gè)月。這與其開放 ChatGPT 給個(gè)人用戶和企業(yè)客戶的舉措有關(guān),使機(jī)器基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)更快,形成了數(shù)據(jù)飛輪的優(yōu)勢(shì)。 比 GPT-4 迭代更快的,是其落地應(yīng)用的速度。 盡管 GPT-4 還沒有全面開放API接口,但其實(shí),OpenAI 大股東微軟的 New Bing 已經(jīng)用上 GPT-4 超過一個(gè)月。在 OpenAI 官宣 GPT-4 之后,微軟在官方博客馬上公布了這一消息,甚至在 5 天前,微軟德國(guó) CTO Andress Braun 就作為全網(wǎng)獨(dú)家信源替 OpenAI 放出了風(fēng)聲。 人們此前沒有明顯感覺到 New Bing 中搭載了 GPT-4 的原因可能在于 GPT-4 的進(jìn)步是微妙的。OpenAI 闡述道,「在隨意的談話中,GPT-3.5 和 GPT-4 之間的區(qū)別可能很微妙,當(dāng)任務(wù)的復(fù)雜性達(dá)到足夠的閾值時(shí),差異就會(huì)出現(xiàn)——GPT-4 比 GPT-3.5 更可靠、更有創(chuàng)意,并且能夠處理更細(xì)微的指令?!?/span> 微軟的 Bing 搜索已經(jīng)用上 GPT-4|微軟 微軟加持 OpenAI 大模型的迭代還體現(xiàn)在底層基礎(chǔ)設(shè)施上。OpenAI 透露,在過去的兩年里,與 Azure 一起為工作負(fù)載從頭開始共同設(shè)計(jì)了一臺(tái)超級(jí)計(jì)算機(jī),重建了整個(gè)深度學(xué)習(xí)堆棧。 不僅如此,更多的應(yīng)用也加入了 GPT-4 的早期使用陣營(yíng):
毫無疑問,OpenAI 的速度會(huì)越來越快。除了開放給客戶使用獲得數(shù)據(jù)飛輪,本次隨著 GPT-4 的發(fā)布,OpenAI 還開源了 OpenAI Evals,這是其用于自動(dòng)評(píng)估 AI 模型性能的框架,允許任何人報(bào)告其大模型中的缺點(diǎn),以幫助指導(dǎo)進(jìn)一步改進(jìn)。 對(duì)此,出門問問創(chuàng)始人李志飛將其評(píng)價(jià)為眾包評(píng)測(cè),將幫系統(tǒng)找茬的任務(wù),眾包給各位開發(fā)者和愛好者了,既讓大家有參與感,又能讓大家免費(fèi)幫忙評(píng)估提高系統(tǒng),一石二鳥。 03 加速的 AGI 2022 年 11 月 30 日,當(dāng) OpenAI 推出 ChatGPT 測(cè)試版的時(shí)候,也許不會(huì)料到,這款大語言模型加持下的對(duì)話機(jī)器人,會(huì)成為科技史上第一個(gè)最短時(shí)間用戶破億的產(chǎn)品,同時(shí)讓全球科技從業(yè)者,再次因?yàn)?AI 的進(jìn)展而興奮起來。 而僅僅在 3 個(gè)月之后,OpenAI 就推出了下一代產(chǎn)品 GPT-4,其迭代非常具有「硅谷速度」了,從更新頻率上也能看出,團(tuán)隊(duì)對(duì)于拿下大語言模型賽道的必勝之心。 雖然相對(duì)于上一代產(chǎn)品,GPT-4 的進(jìn)化不算「革命性」的,但是各項(xiàng)指標(biāo)上百分之幾十的提升,依然會(huì)為已經(jīng)很熱的 AI 賽道,再添一把火。 同時(shí),一邊聯(lián)手微軟,讓 ChatGPT 在全球最大商業(yè)軟件 Office、以及基建 Azure 云上落地;一邊通過開放 API 接口,接入更多商業(yè)合作伙伴,OpenAI 也成功將自己轉(zhuǎn)型為類似云一樣的平臺(tái)型企業(yè),生生闖出一條大模型的商業(yè)化之路,開了研究成果轉(zhuǎn)商業(yè)的先河。 GPT 到底是不是通向人工智能的圣杯——通用人工智能的正確道路,現(xiàn)在還不好說。但可以肯定的是,GPT 的成功,已經(jīng)讓人們像當(dāng)年互聯(lián)網(wǎng)革命一樣,想利用 AI「重新改造一切」。 GPT-4 的及時(shí)推出,給渴望改造和變革的人們,又打了一針強(qiáng)心劑。 以下為出門問問創(chuàng)始人李志飛對(duì)于此次 GPT-4 的評(píng)價(jià): 1. 能力驚人:如果說 GPT3 系列模型給大家證明了 AI 能夠在一個(gè)模型里做多個(gè)任務(wù)(也就是所謂通用),GPT-4 在很多任務(wù)上已經(jīng)是人類水平(human-level),在很多專業(yè)和學(xué)術(shù)考試上超越 90% 的人類。各類中小學(xué)、大學(xué)和專業(yè)教育該如何應(yīng)對(duì)? 2. 高效的煉丹:GPT-4 模型太大每次訓(xùn)練成本很高,但同時(shí)訓(xùn)練模型時(shí)很像煉丹需要做很多實(shí)驗(yàn),如果這些實(shí)驗(yàn)都要在真實(shí)環(huán)境下跑一遍的話誰也承受不了。為此,OpenAI 搞了所謂的 predictable scaling,就是可以用萬分之一的成本來預(yù)測(cè)各個(gè)實(shí)驗(yàn)的結(jié)果(loss 和 human eval)。這把大模型訓(xùn)練從碰運(yùn)氣的煉丹升級(jí)成了「半科學(xué)」的煉丹。 3. 眾包評(píng)測(cè):這次提供了一個(gè) open source 的 OpenAI evals,就是把系統(tǒng)性的幫系統(tǒng)找茬的任務(wù)眾包給各位開發(fā)者和愛好者了,既讓大家有參與感,又能讓大家免費(fèi)幫忙評(píng)估提高系統(tǒng),一石二鳥。 4. 工程補(bǔ)漏:這次還發(fā)布了一個(gè) system card,大概意思是為了減輕一本正經(jīng)的胡說八道問題,系統(tǒng)打了各種各樣的補(bǔ)丁做預(yù)處理和后處理,后面還會(huì)開放代碼把打補(bǔ)丁能力眾包給大家。這標(biāo)志著 LLM 終于從一個(gè)優(yōu)雅簡(jiǎn)單的 next token prediction 任務(wù)進(jìn)入了各種 messy 的工程 hack 了。 5. 多模態(tài):萬眾矚目的多模態(tài)其實(shí)跟市場(chǎng)上很多論文描述的多模態(tài)能力沒有太多差別,主要區(qū)別是把文本模型的 few-shot 和邏輯鏈(COT)結(jié)合進(jìn)來了,這也是在一個(gè)基礎(chǔ)能力很好的文本 LLM 加多模態(tài)的好處(其它多模態(tài)模型感覺 LLM 都太弱)。 6. 有計(jì)劃的出王炸:GPT4 模型去年 8 月就煉出來了,但今天才發(fā)布,解釋是花時(shí)間做了大量測(cè)試和各種查漏補(bǔ)缺。谷歌工程師傅估計(jì)又得熬夜跟了? 7. 不再 Open:論文里完全不講模型參數(shù)和數(shù)據(jù)規(guī)模、也不講任何技術(shù)原理,解釋說是為了大家好,怕大家學(xué)會(huì)了怎么做 GPT4 用來作惡,個(gè)人完全不認(rèn)同這種此地?zé)o銀的做法。 8. 眾志成城:論文里花了三頁把系統(tǒng)的各個(gè)部分的貢獻(xiàn)人員都列出來了,估計(jì)有一百多人,再次體現(xiàn) OpenAI 里團(tuán)隊(duì)成員眾志成城、高度協(xié)作的狀態(tài)。 *頭圖來源:OpenAI |
|