最近看到 AI EDU 上體驗(yàn)的用戶越來越多,我們也在加速開發(fā)新功能了?? 當(dāng)然,埋頭搞開發(fā)之余我們也關(guān)注到大家使用過程中產(chǎn)生的疑問 舉些例子吧,比如說??
大家急切想要把 ChatGPT 用起來的心情我特別理解,但是在使用之前需要補(bǔ)充一些知識盲區(qū)。 Chat GPT 是回應(yīng)性的,并不會進(jìn)行計(jì)劃或者推理(They are “reactive” and don't plan nor reason);所以它們其實(shí)會去編造一些東西。 我們不能貿(mào)然把 ChatGPT 當(dāng)作有智慧的機(jī)器人,它的本質(zhì)其實(shí)是語言模型,而不是邏輯或者計(jì)算模型。 它的最強(qiáng)項(xiàng)還是語言的理解、組織和輸出,可以理解成是翻譯官(它是個(gè)“文科生or文字工作者”)。 當(dāng)然,語言也包括 編程語言,這時(shí)候,它還是個(gè) 杰出 的工程師?? 為什么呢?這與它的功能定位有著很深的聯(lián)系。 Chat GPT (Chat Generative Pre-trained Transformer) 翻譯成中文是 【會聊天的生成式預(yù)訓(xùn)練轉(zhuǎn)化器】 它所依賴的,是一種基于互聯(lián)網(wǎng)可用數(shù)據(jù)訓(xùn)練的文本生成深度學(xué)習(xí)模型,在技術(shù)上,很多人將這種 AI 訓(xùn)練的底層邏輯比喻為“大力出奇跡”。 而從數(shù)據(jù)量來看更是驚人,2019年,OpenAI 推出參數(shù)為 15億 的 GPT-2,2020年推出 GPT-3,將參數(shù)提升到了 1750億,成為當(dāng)時(shí)全球最大的預(yù)訓(xùn)練模型,引發(fā)業(yè)內(nèi)轟動(dòng)。 在2021年,GPT-3 做了兩個(gè)關(guān)鍵變型,分為了 WebGPT 和 InstructGPT WebGPT 用于搭建基于文字的頁面瀏覽環(huán)境,教 GPT-3 上網(wǎng)查詢,在生成結(jié)果的同時(shí)生成引用來源,相對 GPT-3 大幅提升生成內(nèi)容信息量和事實(shí)性。 InstructGPT 基于用戶反饋的強(qiáng)化學(xué)習(xí) RLHF,將語言模型的輸出與用戶的意圖非常好地 align(對齊/相關(guān))起來,擁有了“智能”的表象。 大家都知道,ChatGPT 沒有釋出任何論文,只有官方文檔放出了一張【訓(xùn)練步驟】的圖片。 ChatGPT 訓(xùn)練步驟 圖片來源: OpenAI blog 但是我們可以看到,InstructGPT 的訓(xùn)練流程圖 與 ChatGPT 幾乎一模一樣 InstructGPT 訓(xùn)練步驟 圖片來源: OpenAI blog 唯一不同之處在于,ChatGPT 是基于 GPT3.5 的模型訓(xùn)練的。 而 InstructGPT 還是有很多論文可以查閱的,由此我們可以搞清楚它的訓(xùn)練過程。 臺大電機(jī)工程學(xué)系李宏毅副教授分享 4 個(gè) ChatGPT 可能的訓(xùn)練階段。 01 文字接龍 在最初的訓(xùn)練過程中,它會像嬰兒一樣,通過捕捉人類的語言來學(xué)習(xí)說話。 你給它一個(gè)不完整的句子,比如“你好”。GPT 會想辦法猜出,接下來應(yīng)該接哪一個(gè)字才是正確的。 例如,應(yīng)該接“美”,組成“你好美”;還是接“啊”,組成“你好啊”…… 當(dāng)它學(xué)習(xí)時(shí),會在網(wǎng)絡(luò)上收集大量的文字,它將隨便讀到的某一段文字拿下來,都足夠讓它學(xué)習(xí)說話。 但語言是復(fù)雜而多樣的,不完整的句子、詞匯后可以接的內(nèi)容有很多種可能性,那么它是如何抽取詞匯來給你答案的呢? 實(shí)際上在對話時(shí),它真正輸出的是一個(gè)幾率分布。 即,它在網(wǎng)絡(luò)上獲取到的頻率比較高的詞匯更有可能被抽取出來。 就這樣,GTP 擁有了跟人類對話的能力。 02 提供范例 它像新生的孩子剛剛學(xué)會說話,能夠自由地表達(dá),沒有拘束。 也就是說,ChatGPT 給出的答案都是從網(wǎng)上讀到的,那么只要跟問題相關(guān)的句子,它都會作為答案給出來。 例如你問他“疫情是否會反復(fù)?”,他可能會說“誰來告訴我呀?” 顯然這并不是一個(gè)答案,而是在問題的基礎(chǔ)上衍生出的新問句。 這時(shí),它就需要人類來提供標(biāo)準(zhǔn)的“答案”,作為范例給他學(xué)習(xí)正確的回答方式。 但其實(shí) ChatGPT 根本不需要使用到大量人工標(biāo)注的問題跟答案,目前用到的也只有幾萬則而已。 因?yàn)檫@些答案其實(shí)是 GPT 本來就有能力產(chǎn)生的,他只是無法辨別哪些答案是人類希望它產(chǎn)生的。 今天人類要做的事情,只是教會他,人類希望他給出什么答案。 03 人類把關(guān) 目前 Open AI 在開放 API 給大眾使用,這會讓非常多的人去問問題。 對于一個(gè)問題,GPT 會隨機(jī)生成好幾個(gè)答案,最終由人類來標(biāo)注哪些是好的答案,哪些是差的答案。 04 老師模型 有了這些數(shù)據(jù),就能訓(xùn)練出一個(gè)“老師模型”來模仿人類的評分標(biāo)準(zhǔn)來給 GPT 提供的答案打分 (reward)。 最后,就可以通過增強(qiáng)式學(xué)習(xí) (reinforcement learning) 來調(diào)整 GPT 的參數(shù),最終目標(biāo)是在老師模型這邊得到最高的 reward 。 相較于其他 AI 產(chǎn)品,OpenAI 花了很大力氣去人為調(diào)整它。 如調(diào)整其回答的“溫度”,不讓答案看起來過于像一個(gè)機(jī)器人,也不過分怪誕和天馬行空,使得ChatGPT回答問題的效果比之前市面上見到的聊天機(jī)器人都要好。 通過這種比較先進(jìn)的算法架構(gòu),會整合盡可能多的的數(shù)據(jù),匯集大量算力,使用集約化的訓(xùn)練模式,從而供大量用戶使用。 如果今天我們要高程度地使用AI,就無需再做模型了,而是用已有的大模型,以一種服務(wù)方式提供給用戶。 這很可能會改變信息產(chǎn)業(yè)的格局,把AI應(yīng)用帶入基于互聯(lián)網(wǎng)、云計(jì)算的大規(guī)模智能云階段。 ChatGPT 讓普通人第一次可以使用自然語言,通過這種跨越所有交互與數(shù)據(jù)操作之上的通用界面,對信息世界進(jìn)行“編程”,并且獲得自己所需要的能力。 或許你認(rèn)為它不過是使用了大規(guī)模語言模型,是“彎道超車”或者“也不過如此”,但是它仍舊非常難以超越。 簡單來說,即使其他團(tuán)隊(duì)的算法、數(shù)據(jù)、算力都準(zhǔn)備的與 OpenAI 相差無幾,但就是沒想到以一種精巧的方式把這些元素組裝起來。 沒有 OpenAI,全行業(yè)不知道還需要去趟多少坑。 而至于“大規(guī)模語言模型是AGI的必經(jīng)之路嗎?” 我覺得即使是以此為目標(biāo)的 OpenAI 也不敢打包票。 只能說,我們通過生成式 AI 認(rèn)識到了一些新的東西,提高了對“智能”的理解。 今天我們站在了人工智能的入口,如霍金所說的,這是美麗新世界的入口。 人工智能的大門,已經(jīng)打開。大門里面,是無數(shù)的機(jī)會。 你打算如何行動(dòng)?繼續(xù)觀望 還是 參與其中? 希望每一個(gè)人都可以,擁抱變化,成為這場變化中,那個(gè)掌握命運(yùn)的人。 哦對啦,想要跟我深入學(xué)習(xí)了解人工智能 AI 的,可以加小南?? 并且,她還準(zhǔn)備了 200個(gè)獨(dú)立賬號作為福利,送給想要學(xué)習(xí)的朋友,手慢無 |
|