新晉頂流ChatGPT，是如何實(shí)現(xiàn)對答如流的？

大白傳媒 2023-10-16 發(fā)布于廣東

展開全文

最近看到 AI EDU 上體驗(yàn)的用戶越來越多，我們也在加速開發(fā)新功能了??

當(dāng)然，埋頭搞開發(fā)之余我們也關(guān)注到大家使用過程中產(chǎn)生的疑問

舉些例子吧，比如說??

回答不切合實(shí)際，它真的是人工智能嗎？
我讓他寫一篇3000字的論文，怎么500字就把我打發(fā)了？

大家急切想要把 ChatGPT 用起來的心情我特別理解，但是在使用之前需要補(bǔ)充一些知識盲區(qū)。

Chat GPT 是回應(yīng)性的，并不會進(jìn)行計(jì)劃或者推理（They are “reactive” and don't plan nor reason）；所以它們其實(shí)會去編造一些東西。

我們不能貿(mào)然把 ChatGPT 當(dāng)作有智慧的機(jī)器人，它的本質(zhì)其實(shí)是語言模型，而不是邏輯或者計(jì)算模型。

它的最強(qiáng)項(xiàng)還是語言的理解、組織和輸出，可以理解成是翻譯官（它是個(gè)“文科生or文字工作者”）。

當(dāng)然，語言也包括編程語言，這時(shí)候，它還是個(gè) 杰出的工程師??

為什么呢？這與它的功能定位有著很深的聯(lián)系。

Chat GPT (Chat Generative Pre-trained Transformer) 翻譯成中文是【會聊天的生成式預(yù)訓(xùn)練轉(zhuǎn)化器】

它所依賴的，是一種基于互聯(lián)網(wǎng)可用數(shù)據(jù)訓(xùn)練的文本生成深度學(xué)習(xí)模型，在技術(shù)上，很多人將這種 AI 訓(xùn)練的底層邏輯比喻為“大力出奇跡”。

而從數(shù)據(jù)量來看更是驚人，2019年，OpenAI 推出參數(shù)為 15億的 GPT-2，2020年推出 GPT-3，將參數(shù)提升到了 1750億，成為當(dāng)時(shí)全球最大的預(yù)訓(xùn)練模型，引發(fā)業(yè)內(nèi)轟動(dòng)。

在2021年，GPT-3 做了兩個(gè)關(guān)鍵變型，分為了 WebGPT 和 InstructGPT

WebGPT

用于搭建基于文字的頁面瀏覽環(huán)境，教 GPT-3 上網(wǎng)查詢，在生成結(jié)果的同時(shí)生成引用來源，相對 GPT-3 大幅提升生成內(nèi)容信息量和事實(shí)性。

InstructGPT

基于用戶反饋的強(qiáng)化學(xué)習(xí) RLHF，將語言模型的輸出與用戶的意圖非常好地 align（對齊/相關(guān)）起來，擁有了“智能”的表象。

大家都知道，ChatGPT 沒有釋出任何論文，只有官方文檔放出了一張【訓(xùn)練步驟】的圖片。

ChatGPT 訓(xùn)練步驟

圖片來源: OpenAI blog

但是我們可以看到，InstructGPT 的訓(xùn)練流程圖與 ChatGPT 幾乎一模一樣

InstructGPT 訓(xùn)練步驟

圖片來源: OpenAI blog

唯一不同之處在于，ChatGPT 是基于 GPT3.5 的模型訓(xùn)練的。

而 InstructGPT 還是有很多論文可以查閱的，由此我們可以搞清楚它的訓(xùn)練過程。

臺大電機(jī)工程學(xué)系李宏毅副教授分享 4 個(gè) ChatGPT 可能的訓(xùn)練階段。

文字接龍

在最初的訓(xùn)練過程中，它會像嬰兒一樣，通過捕捉人類的語言來學(xué)習(xí)說話。

你給它一個(gè)不完整的句子，比如“你好”。GPT 會想辦法猜出，接下來應(yīng)該接哪一個(gè)字才是正確的。

例如，應(yīng)該接“美”，組成“你好美”；還是接“啊”，組成“你好啊”……

當(dāng)它學(xué)習(xí)時(shí)，會在網(wǎng)絡(luò)上收集大量的文字，它將隨便讀到的某一段文字拿下來，都足夠讓它學(xué)習(xí)說話。

但語言是復(fù)雜而多樣的，不完整的句子、詞匯后可以接的內(nèi)容有很多種可能性，那么它是如何抽取詞匯來給你答案的呢？

實(shí)際上在對話時(shí)，它真正輸出的是一個(gè)幾率分布。

即，它在網(wǎng)絡(luò)上獲取到的頻率比較高的詞匯更有可能被抽取出來。

就這樣，GTP 擁有了跟人類對話的能力。

提供范例

它像新生的孩子剛剛學(xué)會說話，能夠自由地表達(dá)，沒有拘束。

也就是說，ChatGPT 給出的答案都是從網(wǎng)上讀到的，那么只要跟問題相關(guān)的句子，它都會作為答案給出來。

例如你問他“疫情是否會反復(fù)？”，他可能會說“誰來告訴我呀？”

顯然這并不是一個(gè)答案，而是在問題的基礎(chǔ)上衍生出的新問句。

這時(shí)，它就需要人類來提供標(biāo)準(zhǔn)的“答案”，作為范例給他學(xué)習(xí)正確的回答方式。

但其實(shí) ChatGPT 根本不需要使用到大量人工標(biāo)注的問題跟答案，目前用到的也只有幾萬則而已。

因?yàn)檫@些答案其實(shí)是 GPT 本來就有能力產(chǎn)生的，他只是無法辨別哪些答案是人類希望它產(chǎn)生的。

今天人類要做的事情，只是教會他，人類希望他給出什么答案。

人類把關(guān)

目前 Open AI 在開放 API 給大眾使用，這會讓非常多的人去問問題。

對于一個(gè)問題，GPT 會隨機(jī)生成好幾個(gè)答案，最終由人類來標(biāo)注哪些是好的答案，哪些是差的答案。

老師模型

有了這些數(shù)據(jù)，就能訓(xùn)練出一個(gè)“老師模型”來模仿人類的評分標(biāo)準(zhǔn)來給 GPT 提供的答案打分 (reward)。

最后，就可以通過增強(qiáng)式學(xué)習(xí) (reinforcement learning) 來調(diào)整 GPT 的參數(shù)，最終目標(biāo)是在老師模型這邊得到最高的 reward 。

相較于其他 AI 產(chǎn)品，OpenAI 花了很大力氣去人為調(diào)整它。

如調(diào)整其回答的“溫度”，不讓答案看起來過于像一個(gè)機(jī)器人，也不過分怪誕和天馬行空，使得ChatGPT回答問題的效果比之前市面上見到的聊天機(jī)器人都要好。

通過這種比較先進(jìn)的算法架構(gòu)，會整合盡可能多的的數(shù)據(jù)，匯集大量算力，使用集約化的訓(xùn)練模式，從而供大量用戶使用。

如果今天我們要高程度地使用AI，就無需再做模型了，而是用已有的大模型，以一種服務(wù)方式提供給用戶。

這很可能會改變信息產(chǎn)業(yè)的格局，把AI應(yīng)用帶入基于互聯(lián)網(wǎng)、云計(jì)算的大規(guī)模智能云階段。

ChatGPT 讓普通人第一次可以使用自然語言，通過這種跨越所有交互與數(shù)據(jù)操作之上的通用界面，對信息世界進(jìn)行“編程”，并且獲得自己所需要的能力。

或許你認(rèn)為它不過是使用了大規(guī)模語言模型，是“彎道超車”或者“也不過如此”，但是它仍舊非常難以超越。

簡單來說，即使其他團(tuán)隊(duì)的算法、數(shù)據(jù)、算力都準(zhǔn)備的與 OpenAI 相差無幾，但就是沒想到以一種精巧的方式把這些元素組裝起來。

沒有 OpenAI，全行業(yè)不知道還需要去趟多少坑。

而至于“大規(guī)模語言模型是AGI的必經(jīng)之路嗎？” 我覺得即使是以此為目標(biāo)的 OpenAI 也不敢打包票。

只能說，我們通過生成式 AI 認(rèn)識到了一些新的東西，提高了對“智能”的理解。

今天我們站在了人工智能的入口，如霍金所說的，這是美麗新世界的入口。

人工智能的大門，已經(jīng)打開。大門里面，是無數(shù)的機(jī)會。

你打算如何行動(dòng)？繼續(xù)觀望還是參與其中？

希望每一個(gè)人都可以，擁抱變化，成為這場變化中，那個(gè)掌握命運(yùn)的人。

哦對啦，想要跟我深入學(xué)習(xí)了解人工智能 AI 的，可以加小南??

并且，她還準(zhǔn)備了 200個(gè)獨(dú)立賬號作為福利，送給想要學(xué)習(xí)的朋友，手慢無

本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：大白傳媒 > 《ChatGPT》

舉報(bào)/認(rèn)領(lǐng)