GPT-4 震撼發(fā)布，能讀圖，考高分，訓(xùn)練更高效

阿明哥哥資料區(qū) 2023-03-15 發(fā)布于上海

展開全文

加強(qiáng)版的 ChatGPT，更聰明也更安全了。

作者 | 凌梓郡、宛辰
編輯 | 靖宇

該來的終于到來了。

美國(guó)當(dāng)?shù)貢r(shí)間 3 月 14 日，大熱的 OpenAI 正式推出其最新作品 GPT-4。通過 ChatGPT 再次點(diǎn)燃整個(gè)科技圈的想象力之后，GPT-4 毫無疑問成為整個(gè)行業(yè)關(guān)注的焦點(diǎn)。

在 OpenAI 官方網(wǎng)站中，這一代的大模型 GPT-4 相較于前一代產(chǎn)品，最大的進(jìn)化在于「多模態(tài)」和長(zhǎng)內(nèi)容生成。

此前的 ChatGPT，用戶只能輸入文字，而 GPT-4 現(xiàn)在已經(jīng)可以識(shí)別圖片內(nèi)容，并給出答案，甚至能識(shí)別一些網(wǎng)絡(luò)上常見「梗圖」，并告訴用戶「笑點(diǎn)」到底是什么。在輸出方面，GPT-4 最多可以輸出 25000 個(gè)單詞，相比 ChatGPT 有大幅提升。

同時(shí)，相比上一代產(chǎn)品，GPT-4 給出答案的錯(cuò)誤更少，涉及到倫理和敏感問題時(shí)，回答也更「安全」。

GPT-4 能像「哥哥」ChatGPT 一樣再次席卷科技圈嗎？它對(duì)接下來 AI 行業(yè)的走向，又會(huì)產(chǎn)生怎樣的影響？

多了一雙「眼」，更智能

根據(jù) OpenAI 介紹，相較于 ChatGPT，GPT-4 有三個(gè)方面的主要提升。

1 讀圖能力

對(duì)話時(shí)可以直接用圖片提問，它能夠在讀懂圖片內(nèi)容的基礎(chǔ)上，給出有邏輯的回答。比如，你可以給它一張牛奶、雞蛋、面粉的圖片，問他「這些材可以用來做什么？」它會(huì)給出一系列選項(xiàng)：

煎餅或華夫餅

法式薄餅、法式吐司

煎蛋或煎蛋餅

乳蛋餅

蛋奶或布丁

蛋糕或紙杯蛋糕

松餅或面包

餅干或餅干

圖片來源｜OpenAI

當(dāng)種讀圖能力和寫代碼能力相結(jié)合，就像有了魔法，在發(fā)布會(huì)上，Open AI 展示了如何讓 GPT-4 幫你制作網(wǎng)頁：

只要輸入在筆記本上畫出草圖，拍照，對(duì)他說：用簡(jiǎn)短的 HTML/JS 將這個(gè)草圖變成彩色的網(wǎng)站，能夠幾秒鐘之內(nèi)，一個(gè)完整的網(wǎng)頁就可以出現(xiàn)。

圖片來源｜OpenAI

目前 Open AI 還沒有將 GPT-4 中的圖像識(shí)別能力開放，為了更好地優(yōu)化圖像輸入功能，OpenAI 正在與 BeMyEyes 密切合作。這是一家在丹麥的公司它們?cè)谧龅氖虑槭怯密浖屢曊先巳号c志愿者遠(yuǎn)程互動(dòng)，后者做前者的眼睛，幫助他們完成生活任務(wù)。

接入了最新的圖像識(shí)別能力之后，視障人群就像有了一個(gè)「更聰明的攝像頭」，也被稱為「虛擬志愿者」，之前的算法不能基于視覺信息做邏輯推理——這也是 GPT-4 與之前的視覺算法最大的區(qū)別。公司的 CTO Jesper Hvirring Henriksen 解釋，新的功能「不僅在于交談的能力，還在于該技術(shù)提供的分析能力」，基本的圖像識(shí)別應(yīng)用程序只能告訴人們眼前發(fā)生了什么，現(xiàn)在算法能夠判斷地面上出現(xiàn)的事物「是否不僅僅是一個(gè)球，而是一個(gè)絆倒的危險(xiǎn)，然后進(jìn)行交流?！?/span>

2 答案更可靠

在更涉及到邏輯的更復(fù)雜任務(wù)上，能夠給出更可靠、也更有創(chuàng)造性的答案。

Open AI 讓 GPT-4 參加了一系列考試，GPT-4 的表現(xiàn)均有所提升，有的甚至直接從 GPT-3.5 的差生變成了優(yōu)等生。例如，在模擬律師資格考試上，它成績(jī)?cè)谇?10% 左右；而 GPT-3.5 的成績(jī)?cè)诤?10% 左右。滿分為 800 分的 SAT Math，它從 590 分提升到了 700 分。

「在隨意的交談中，GPT-3.5 和 GPT-4 之間的區(qū)別可能是微妙的。當(dāng)任務(wù)的復(fù)雜性達(dá)到足夠的閾值時(shí)，差異就會(huì)出現(xiàn)——GPT-4 比 GPT-3.5 更可靠、更有創(chuàng)意，并且能夠處理更細(xì)微的指令?！筄pen AI 表示。

3 內(nèi)容更長(zhǎng)更豐富

此外，在單次問答的信息處理量上也有了提升。在對(duì)GPT-4提問的時(shí)候，一次性能夠輸入長(zhǎng)達(dá) 25000 單詞。之前，有編劇跟極客公園交流，試用 ChatGPT 的時(shí)候跟，只能把劇本拆開一段段給模型看，現(xiàn)在，這樣的煩惱應(yīng)該會(huì)大大減輕。

也就是可以讓他直接幫你讀文章。你還可以扔給他一個(gè)鏈接，讓他直接做閱讀理解。

比如，給它美國(guó)歌星雷哈娜的維基百科鏈接，問她，「描述一下她在超級(jí)碗上的表現(xiàn)，以及為什么這么特別」

給出的回答是這樣：

蕾哈娜在第七屆超級(jí)碗中場(chǎng)秀上的表演很特別，原因有很多。首先，這是她五年多來的第一次現(xiàn)場(chǎng)表演，也是她第一次在超級(jí)碗中場(chǎng)秀上亮相。此外，她還創(chuàng)造了歷史，成為第一個(gè)在懷孕期間在超級(jí)碗表演的人。這場(chǎng)演出本身就廣受好評(píng)，許多人稱贊她充滿活力的表演和令人印象深刻的歌聲。它也獲得了大量的觀眾，成為歷史上收視率第二高的中場(chǎng)秀。

圖片來源｜OpenAI

4. 關(guān)于「胡編亂造」和「有害答案」

當(dāng)然，目前大模型在「胡編亂造」上的問題，GPT-4 仍然有。不過 Open AI 表示，在對(duì)于「捏造事實(shí)」的內(nèi)部測(cè)試上，GPT-4 的表現(xiàn)比 GPT-3.5 要高出 40%。GPT-4 的知識(shí)范疇也存在時(shí)間限制，截止于 2021 年 9 月。

在生成有害的想法上，Open AI 也強(qiáng)調(diào)了風(fēng)險(xiǎn)?！窯PT-4 及其后續(xù)模式有可能以有益和有害的方式對(duì)社會(huì)產(chǎn)生重大影響。我們正在與外部研究人員合作，改進(jìn)我們理解和評(píng)估潛在影響的方式，并對(duì)未來系統(tǒng)中可能出現(xiàn)的危險(xiǎn)能力進(jìn)行評(píng)估?！?/span>

由于在基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）環(huán)節(jié)中，增加了一個(gè)額外的安全獎(jiǎng)勵(lì)信，這使得 GPT-4 目前的表現(xiàn)更加優(yōu)秀一些。此外，OpenAI 也聘請(qǐng)了 50 多名來自人工智能對(duì)齊風(fēng)險(xiǎn)（AI alignment risks）、網(wǎng)絡(luò)安全、生物風(fēng)險(xiǎn)、信任與安全以及國(guó)際安全等領(lǐng)域的專家，對(duì)模型進(jìn)行對(duì)抗性測(cè)試。研究結(jié)果中給出了兩個(gè)例子。

GPT-4 落地更快

對(duì)于 GPT-4 的表現(xiàn)，OpenAI 總結(jié)道：我們花了 6 個(gè)月的時(shí)間迭代調(diào)整 GPT-4，使用了來自 ChatGPT 的經(jīng)驗(yàn)教訓(xùn)和我們的對(duì)抗性測(cè)試程序，在真實(shí)性、可控性（steerability）和拒絕超出護(hù)欄（refusing to go outside of guardrails）方面得到了我們有史以來最好的結(jié)果。

顯然，OpenAI 的 GPT 大模型迭代速度變快了。GPT-4 距離上次 ChatGPT 的發(fā)布，不到 4 個(gè)月。這與其開放 ChatGPT 給個(gè)人用戶和企業(yè)客戶的舉措有關(guān)，使機(jī)器基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）更快，形成了數(shù)據(jù)飛輪的優(yōu)勢(shì)。

比 GPT-4 迭代更快的，是其落地應(yīng)用的速度。

盡管 GPT-4 還沒有全面開放API接口，但其實(shí)，OpenAI 大股東微軟的 New Bing 已經(jīng)用上 GPT-4 超過一個(gè)月。在 OpenAI 官宣 GPT-4 之后，微軟在官方博客馬上公布了這一消息，甚至在 5 天前，微軟德國(guó) CTO Andress Braun 就作為全網(wǎng)獨(dú)家信源替 OpenAI 放出了風(fēng)聲。

人們此前沒有明顯感覺到 New Bing 中搭載了 GPT-4 的原因可能在于 GPT-4 的進(jìn)步是微妙的。OpenAI 闡述道，「在隨意的談話中，GPT-3.5 和 GPT-4 之間的區(qū)別可能很微妙，當(dāng)任務(wù)的復(fù)雜性達(dá)到足夠的閾值時(shí)，差異就會(huì)出現(xiàn)——GPT-4 比 GPT-3.5 更可靠、更有創(chuàng)意，并且能夠處理更細(xì)微的指令?！?/span>

微軟的 Bing 搜索已經(jīng)用上 GPT-4｜微軟

微軟加持 OpenAI 大模型的迭代還體現(xiàn)在底層基礎(chǔ)設(shè)施上。OpenAI 透露，在過去的兩年里，與 Azure 一起為工作負(fù)載從頭開始共同設(shè)計(jì)了一臺(tái)超級(jí)計(jì)算機(jī)，重建了整個(gè)深度學(xué)習(xí)堆棧。

不僅如此，更多的應(yīng)用也加入了 GPT-4 的早期使用陣營(yíng)：

Stripe 宣布使用 GPT-4 掃描商業(yè)網(wǎng)站并向客戶支持人員提供摘要；
語言學(xué)習(xí)工具軟件 Duolingo 將 GPT-4 構(gòu)建到新的語言學(xué)習(xí)訂閱中；
摩根士丹利正在創(chuàng)建一個(gè)由 GPT-4 驅(qū)動(dòng)的系統(tǒng)，該系統(tǒng)將從公司文件中檢索信息并將其提供給金融分析師；
可汗學(xué)院正在利用 GPT-4 構(gòu)建某種自動(dòng)化導(dǎo)師。

毫無疑問，OpenAI 的速度會(huì)越來越快。除了開放給客戶使用獲得數(shù)據(jù)飛輪，本次隨著 GPT-4 的發(fā)布，OpenAI 還開源了 OpenAI Evals，這是其用于自動(dòng)評(píng)估 AI 模型性能的框架，允許任何人報(bào)告其大模型中的缺點(diǎn)，以幫助指導(dǎo)進(jìn)一步改進(jìn)。

對(duì)此，出門問問創(chuàng)始人李志飛將其評(píng)價(jià)為眾包評(píng)測(cè)，將幫系統(tǒng)找茬的任務(wù)，眾包給各位開發(fā)者和愛好者了，既讓大家有參與感，又能讓大家免費(fèi)幫忙評(píng)估提高系統(tǒng)，一石二鳥。

加速的 AGI

2022 年 11 月 30 日，當(dāng) OpenAI 推出 ChatGPT 測(cè)試版的時(shí)候，也許不會(huì)料到，這款大語言模型加持下的對(duì)話機(jī)器人，會(huì)成為科技史上第一個(gè)最短時(shí)間用戶破億的產(chǎn)品，同時(shí)讓全球科技從業(yè)者，再次因?yàn)?AI 的進(jìn)展而興奮起來。

而僅僅在 3 個(gè)月之后，OpenAI 就推出了下一代產(chǎn)品 GPT-4，其迭代非常具有「硅谷速度」了，從更新頻率上也能看出，團(tuán)隊(duì)對(duì)于拿下大語言模型賽道的必勝之心。

雖然相對(duì)于上一代產(chǎn)品，GPT-4 的進(jìn)化不算「革命性」的，但是各項(xiàng)指標(biāo)上百分之幾十的提升，依然會(huì)為已經(jīng)很熱的 AI 賽道，再添一把火。

同時(shí)，一邊聯(lián)手微軟，讓 ChatGPT 在全球最大商業(yè)軟件 Office、以及基建 Azure 云上落地；一邊通過開放 API 接口，接入更多商業(yè)合作伙伴，OpenAI 也成功將自己轉(zhuǎn)型為類似云一樣的平臺(tái)型企業(yè)，生生闖出一條大模型的商業(yè)化之路，開了研究成果轉(zhuǎn)商業(yè)的先河。

GPT 到底是不是通向人工智能的圣杯——通用人工智能的正確道路，現(xiàn)在還不好說。但可以肯定的是，GPT 的成功，已經(jīng)讓人們像當(dāng)年互聯(lián)網(wǎng)革命一樣，想利用 AI「重新改造一切」。

GPT-4 的及時(shí)推出，給渴望改造和變革的人們，又打了一針強(qiáng)心劑。

以下為出門問問創(chuàng)始人李志飛對(duì)于此次 GPT-4 的評(píng)價(jià)：

1. 能力驚人：如果說 GPT3 系列模型給大家證明了 AI 能夠在一個(gè)模型里做多個(gè)任務(wù)（也就是所謂通用），GPT-4 在很多任務(wù)上已經(jīng)是人類水平（human-level），在很多專業(yè)和學(xué)術(shù)考試上超越 90% 的人類。各類中小學(xué)、大學(xué)和專業(yè)教育該如何應(yīng)對(duì)？

2. 高效的煉丹：GPT-4 模型太大每次訓(xùn)練成本很高，但同時(shí)訓(xùn)練模型時(shí)很像煉丹需要做很多實(shí)驗(yàn)，如果這些實(shí)驗(yàn)都要在真實(shí)環(huán)境下跑一遍的話誰也承受不了。為此，OpenAI 搞了所謂的 predictable scaling，就是可以用萬分之一的成本來預(yù)測(cè)各個(gè)實(shí)驗(yàn)的結(jié)果（loss 和 human eval)。這把大模型訓(xùn)練從碰運(yùn)氣的煉丹升級(jí)成了「半科學(xué)」的煉丹。

3. 眾包評(píng)測(cè)：這次提供了一個(gè) open source 的 OpenAI evals，就是把系統(tǒng)性的幫系統(tǒng)找茬的任務(wù)眾包給各位開發(fā)者和愛好者了，既讓大家有參與感，又能讓大家免費(fèi)幫忙評(píng)估提高系統(tǒng)，一石二鳥。

4. 工程補(bǔ)漏：這次還發(fā)布了一個(gè) system card，大概意思是為了減輕一本正經(jīng)的胡說八道問題，系統(tǒng)打了各種各樣的補(bǔ)丁做預(yù)處理和后處理，后面還會(huì)開放代碼把打補(bǔ)丁能力眾包給大家。這標(biāo)志著 LLM 終于從一個(gè)優(yōu)雅簡(jiǎn)單的 next token prediction 任務(wù)進(jìn)入了各種 messy 的工程 hack 了。

5. 多模態(tài)：萬眾矚目的多模態(tài)其實(shí)跟市場(chǎng)上很多論文描述的多模態(tài)能力沒有太多差別，主要區(qū)別是把文本模型的 few-shot 和邏輯鏈（COT）結(jié)合進(jìn)來了，這也是在一個(gè)基礎(chǔ)能力很好的文本 LLM 加多模態(tài)的好處（其它多模態(tài)模型感覺 LLM 都太弱）。

6. 有計(jì)劃的出王炸：GPT4 模型去年 8 月就煉出來了，但今天才發(fā)布，解釋是花時(shí)間做了大量測(cè)試和各種查漏補(bǔ)缺。谷歌工程師傅估計(jì)又得熬夜跟了？

7. 不再 Open：論文里完全不講模型參數(shù)和數(shù)據(jù)規(guī)模、也不講任何技術(shù)原理，解釋說是為了大家好，怕大家學(xué)會(huì)了怎么做 GPT4 用來作惡，個(gè)人完全不認(rèn)同這種此地?zé)o銀的做法。

8. 眾志成城：論文里花了三頁把系統(tǒng)的各個(gè)部分的貢獻(xiàn)人員都列出來了，估計(jì)有一百多人，再次體現(xiàn) OpenAI 里團(tuán)隊(duì)成員眾志成城、高度協(xié)作的狀態(tài)。

*頭圖來源：OpenAI

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：阿明哥哥資料區(qū) > 《88.ChatGPT.計(jì)算機(jī)軟件.控制工程》

舉報(bào)/認(rèn)領(lǐng)