原文作者:Chris Stokel-Walker & Richard Van Noorden 去年12月,計(jì)算生物學(xué)家Casey Greene和Milton Pividori做了一個特別的實(shí)驗(yàn):他們請一名非科學(xué)家助理幫三篇論文潤色。這位勤奮的助理不到幾秒就給出了修改建議;每篇文章只用了5分鐘就審?fù)炅恕?/strong>這位助理甚至還在一篇生物學(xué)論文中,發(fā)現(xiàn)一個公式的參考文獻(xiàn)有錯誤。雖然實(shí)驗(yàn)的過程有時(shí)候不太順利,但最后的手稿可讀性更強(qiáng)了,至于費(fèi)用也很低,一篇論文只要0.50美元不到。 Greene和Pividori在1月23日發(fā)布的預(yù)印本論文中描述了這個助理,它不是一個人,而是一個AI算法,名叫GPT-3,2020年首次問世。這是一個當(dāng)下很火的生成式AI對話工具,能生成通順流暢的文本,無論是編散文、寫詩歌、敲代碼,還是科研人員需要的論文編輯都不在話下(見文末“如何讓AI對話機(jī)器人改論文”)。 插圖:Pawe? Jońca 這類工具也被稱為大型語言模型(LLM),其中名聲最響的當(dāng)屬GPT-3的一個版本——ChatGPT。由于ChatGPT完全免費(fèi)而且使用方便,去年11月推出后便引發(fā)熱潮。其他類型的生成式AI還能產(chǎn)生圖片或聲音。 “我真的印象深刻,”就職于美國賓夕法尼亞大學(xué)的Pividori說,“它讓我們這些研究人員效率更高了。”很多科研人員說他們現(xiàn)在經(jīng)常用LLM,不僅用它來改論文,還能用來編程,檢查代碼,頭腦風(fēng)暴等。冰島大學(xué)的計(jì)算機(jī)科學(xué)家Hafsteinn Einarsson說:“我現(xiàn)在每天都用LLM。”他最早用的是GPT-3,后來開始用ChatGPT幫他寫演講稿,出考試題和學(xué)生作業(yè),還能把學(xué)生作文變成學(xué)術(shù)論文。他說:“很多人都把ChatGPT作為數(shù)字秘書或數(shù)字助理。” LLM既能充當(dāng)搜索引擎,也能作為編程助理,甚至可以和其他公司的對話機(jī)器人就某件產(chǎn)品殺價(jià)。開發(fā)ChatGPT的公司OpenAI位于加州舊金山,已宣布將推出每個月20美元的訂閱服務(wù),承諾反應(yīng)速度會更快,而且能優(yōu)先使用新功能(ChatGPT的試用版將依然免費(fèi))。科技巨頭微軟(Microsoft)已經(jīng)投資了OpenAI,1月又宣布了約100億美元的新一輪投資。LLM今后肯定會整合到文字和數(shù)據(jù)處理軟件中。生成式AI在未來的普及似乎已成定局,當(dāng)前的工具還只是這項(xiàng)技術(shù)的初始階段。 但是,LLM也引發(fā)了大量擔(dān)憂,比如它們很容易“胡說八道”,而且人們會說AI生成的內(nèi)容是他們自己創(chuàng)作的。《自然》采訪了研究人員如何看待ChatGPT等對話機(jī)器人的潛在用途,尤其是科研用途,他們在激動之余也表示了憂慮。科羅拉多大學(xué)醫(yī)學(xué)院的Greene說:“如果你相信這項(xiàng)技術(shù)有潛力帶來變革,那么我認(rèn)為你最好緊張一點(diǎn)?!笨蒲腥藛T認(rèn)為,很多方面都將取決于未來的監(jiān)管指南對AI對話機(jī)器人的使用限制。 流暢度高、事實(shí)性差 一些研究人員認(rèn)為,LLM很適合用來提高寫論文或?qū)懟鸬男?,只要有人類把關(guān)就行。瑞典薩爾格林斯卡醫(yī)院的神經(jīng)生物學(xué)家Almira Osmanovic Thunstr?m與人合作發(fā)布了一篇關(guān)于GPT-3的實(shí)驗(yàn)報(bào)告,他說:“科研人員再也不用坐在那里給經(jīng)費(fèi)申請書寫很長很長的引言了,他們現(xiàn)在只要讓系統(tǒng)來寫就行了?!?/p> 倫敦軟件咨詢公司InstaDeep的研究工程師Tom Tumiel表示,他每天都用LLM寫代碼。他說,“它就像一個進(jìn)階版的Stack Overflow。”Stack Overflow是一個程序員互問互答的熱門論壇。 但是,研究人員強(qiáng)調(diào),LLM給出的回答從根本上說是不可靠的,有時(shí)候還是錯的。Osmanovic Thunstr?m說:“我們在利用這些系統(tǒng)生成知識的時(shí)候要很當(dāng)心?!?/p> 這種不可靠已經(jīng)深入LLM的構(gòu)建方式。ChatGPT和它的競爭對手都是通過學(xué)習(xí)龐大在線文本數(shù)據(jù)庫中的語言統(tǒng)計(jì)模式來運(yùn)作的,這些文本中不乏謠言、偏見和已經(jīng)過時(shí)的信息。當(dāng)LLM接到提示(prompt,比如Greene和Pividori使用精心組織的語言提出重寫論文部分章節(jié)的要求)后,它們會一字一句地吐出看上去符合語言習(xí)慣的任何回復(fù),只要能讓對話繼續(xù)下去。 結(jié)果就是LLM很容易給出錯誤或誤導(dǎo)人的信息,尤其是那些訓(xùn)練數(shù)據(jù)很有限的技術(shù)性話題。還有一點(diǎn)是LLM無法給出準(zhǔn)確的信息來源。如果你讓它寫論文,它會把參考文獻(xiàn)給你編出來?!?strong>這個工具在事實(shí)核查或提供可靠參考文獻(xiàn)方面是不能被信任的。”《自然-機(jī)器智能》(Nature Machine Intelligence)在1月發(fā)表的一篇關(guān)于ChatGPT的社論中寫道。 在這些注意事項(xiàng)下,如果研究人員有足夠?qū)I(yè)知識發(fā)現(xiàn)問題或能很容易驗(yàn)證答案對錯,比如他們能判斷某個解釋或?qū)Υa的建議是否正確,那么ChatGPT和其他LLM就能成為真正意義上的助手。 不過,這些工具可能會誤導(dǎo)一些初級用戶。比如在去年12月,Stack Overflow臨時(shí)禁用了ChatGPT,因?yàn)楣芾碚甙l(fā)現(xiàn)一些熱心用戶上傳了大量由LLM生成的回答,這些答案看起來很像回事,但錯誤率很高。這可能會是搜索引擎的一個噩夢。 缺陷能解決嗎? 有些搜索引擎工具能解決LLM在來源引用上的不足,例如面向科研人員的Elicit能先根據(jù)提問搜索相關(guān)參考文獻(xiàn),再對搜索引擎找到的各個網(wǎng)站或文獻(xiàn)進(jìn)行概括歸納,生成看上去全帶參考來源的內(nèi)容(但是LLM對不同文獻(xiàn)的歸納仍有可能不準(zhǔn)確)。 開發(fā)LLM的公司也注意到了這些問題。去年9月,谷歌(Google)子公司DeepMind發(fā)表了一篇關(guān)于其“對話智能體”Sparrow的論文。DeepMind首席執(zhí)行官、聯(lián)合創(chuàng)始人Demis Hassabis后來告訴《時(shí)代周刊》(TIME),Sparrow的私測版會在今年發(fā)布;根據(jù)《時(shí)代周刊》的報(bào)道,谷歌想進(jìn)一步攻克包括來源引用在內(nèi)的各種能力。其他競爭對手,如Anthropic,則表示他們已經(jīng)解決了ChatGPT的一些問題(Anthropic、OpenAI、DeepMind都拒絕就此文接受采訪。) 一些科研人員表示,目前來看,ChatGPT在技術(shù)性話題上還沒有足夠且專業(yè)的訓(xùn)練數(shù)據(jù),所以用處并不大。當(dāng)哈佛大學(xué)的生物統(tǒng)計(jì)學(xué)博士生Kareem Carr將ChatGPT用于他的工作時(shí),他對ChatGPT的表現(xiàn)毫不驚艷,他說,“我認(rèn)為ChatGPT很難達(dá)到我需要的專業(yè)水平?!保ǖ獵arr也表示,當(dāng)他讓ChatGPT為某個科研問題給出20種解決辦法時(shí),ChatGPT回復(fù)了一堆廢話和一個有用的回答,這個他之前從沒聽過的統(tǒng)計(jì)學(xué)術(shù)語替他打開了一個新的文獻(xiàn)領(lǐng)域。) 一些科技公司以及開始用專業(yè)的科研文獻(xiàn)訓(xùn)練對話機(jī)器人了,當(dāng)然這些機(jī)器人也各有各的問題。去年11月,持有Facebook的科技巨頭Meta發(fā)布了名為Galactica的LLM,Galactica用學(xué)術(shù)摘要進(jìn)行訓(xùn)練,有望在生成學(xué)術(shù)內(nèi)容和回答科研問題方面具備一技之長。但是,其測試版在被用戶拿來生成不準(zhǔn)確和種族歧視的內(nèi)容后即被下架(但代碼依舊公開)。Meta的首席AI科學(xué)家楊立昆(Yann LeCun)在面對批評時(shí)發(fā)推特表示,“今后再也不要想用它來隨意生成點(diǎn)好玩的東西了,這下高興了吧?”(Meta并未回復(fù)本文通過媒體辦公室采訪楊立昆的請求。) 安全與責(zé)任 Galactica遇到的是一個倫理學(xué)家已經(jīng)提出了好幾年的安全問題:如果不對輸出內(nèi)容進(jìn)行把控,LLM就能被用來生成仇恨言論和垃圾信息,以及訓(xùn)練數(shù)據(jù)中可能存在種族歧視、性別歧視等其他有害聯(lián)想。 Shobita Parthasarathy是美國密歇根大學(xué)一個科技與公共政策項(xiàng)目的負(fù)責(zé)人,她說,除了直接生成有害內(nèi)容外,人們還擔(dān)心AI對話機(jī)器人會從訓(xùn)練數(shù)據(jù)中習(xí)得一些歷史性偏見或形成對世界的特定看法,比如特定文化的優(yōu)越性。她說,由于開發(fā)大型LLM的公司大多來自或置身于這些文化中,他們可能沒什么動力去糾正這些根深蒂固的系統(tǒng)性偏見。 OpenAI在決定公開發(fā)布ChatGPT時(shí),曾試圖回避很多這些問題。OpenAI讓ChatGPT的信息庫截至到2021年為止,不讓它瀏覽互聯(lián)網(wǎng),還通過安裝過濾器防止ChatGPT對敏感或惡意的提示做出回應(yīng)。不過,做到這一點(diǎn)需要人類管理員對龐雜的有害文本進(jìn)行人工標(biāo)記。有新聞報(bào)道稱這些工人的工資很低,有些人還有傷病。關(guān)于社交媒體公司在雇傭人員訓(xùn)練自動機(jī)器人標(biāo)記有害內(nèi)容時(shí)存在勞動力壓榨的類似問題也曾被提出過。 OpenAI采取的這些防護(hù)措施,效果不盡如人意。去年12月,加州大學(xué)伯克利分校的計(jì)算神經(jīng)科學(xué)家Steven Piantadosi發(fā)推文表示他讓ChatGPT開發(fā)一個Python程序,該程序?qū)⒏鶕?jù)某個人的來源國決定這個人是否應(yīng)該受到折磨。ChatGPT先回復(fù)了請用戶輸入國家的代碼,然后如果國家是朝鮮、敘利亞、伊朗和蘇丹,則這個人就應(yīng)該受到折磨。(OpenAI后來了關(guān)閉了這類問題。) 去年,一個學(xué)術(shù)團(tuán)隊(duì)發(fā)布了另一個名叫BLOOM的LLM。該團(tuán)隊(duì)試著用更少的精選多語言文本庫來訓(xùn)練這個機(jī)器人。該團(tuán)隊(duì)還把它的訓(xùn)練數(shù)據(jù)完全公開(與OpenAI的做法不同)。研究人員呼吁大型科技公司參照這種做法,但目前不清楚這些公司是否愿意。 還有一些研究人員認(rèn)為學(xué)術(shù)界應(yīng)該完全拒絕支持商用化的大型LLM。除了偏見、安全顧慮和勞動剝削等問題,這些計(jì)算密集型算法還需要大量精力來訓(xùn)練,引發(fā)人們對它們生態(tài)足跡的關(guān)注。進(jìn)一步的擔(dān)憂還包括把思考過程交給自動化聊天機(jī)器,研究人員可能會喪失表達(dá)個人想法的能力。荷蘭拉德堡德大學(xué)的計(jì)算認(rèn)知科學(xué)家Iris van Rooij在一篇呼吁學(xué)術(shù)界抵制這類誘惑的博客文章中寫道,我們作為學(xué)術(shù)人員,為何要迫不及待地使用和推廣這類產(chǎn)品呢?” 另一個不甚明確的問題是一些LLM的法律狀態(tài),這些LLM是用網(wǎng)上摘錄內(nèi)容訓(xùn)練的,有些內(nèi)容的權(quán)限處于灰色地帶。版權(quán)法和許可法目前只針對像素、文本和軟件的直接復(fù)制,但不限于對它們風(fēng)格上的模仿。當(dāng)這些由AI生成的模仿內(nèi)容是通過輸入原版內(nèi)容來訓(xùn)練的,問題也隨之而來。一些AI繪畫程序開發(fā)者,包括Stable Diffusion和Midjourney,正受到藝術(shù)家和攝影機(jī)構(gòu)的起訴。OpenAI和微軟(還有其子公司技術(shù)網(wǎng)站GitHub)也因?yàn)槠銩I編程助手Copilot的開發(fā)面臨軟件侵權(quán)官司。英國紐卡斯?fàn)柎髮W(xué)的互聯(lián)網(wǎng)法律專家Lilian Edwards表示,這些抗議或能迫使相應(yīng)法律做出改變。 強(qiáng)制誠信使用 因此,一些研究人員相信,給這些工具設(shè)立邊界可能十分必要。Edwards認(rèn)為,當(dāng)前關(guān)于歧視和偏見的法律(以及對AI惡意用途實(shí)施有計(jì)劃的監(jiān)管)將有助于維護(hù)LLM使用的誠信、透明、公正。她說,“已經(jīng)有很多法律了,現(xiàn)在只是執(zhí)行或是稍微調(diào)整的問題?!?/p> 與此同時(shí),人們也在倡導(dǎo)LLM的使用需要更透明的披露。學(xué)術(shù)出版機(jī)構(gòu)(包括《自然》的出版商)已經(jīng)表示,科研人員應(yīng)當(dāng)在論文中披露LLM的使用(相關(guān)閱讀:ChatGPT威脅科研透明,《自然》等期刊提出新要求);老師們也希望學(xué)生能進(jìn)行類似披露?!犊茖W(xué)》(Science)則更進(jìn)一步,要求所有論文中都不得使用ChatGPT或其他任何AI工具生成的文本。 這里有一個關(guān)鍵的技術(shù)問題:AI生成的內(nèi)容是否能被發(fā)現(xiàn)。許多科研人員正在進(jìn)行這方面的研究,核心思路是讓LLM自己去“揪”AI生成的文本。 去年12月,美國普林斯頓大學(xué)的計(jì)算機(jī)科學(xué)研究生Edward Tian推出了GPTZero。這是一個AI檢測工具,能從兩個角度分析文本。一種是“困惑度”(perplexity),這個指標(biāo)檢測LLM對某個文本的熟悉度。Tian的工具使用的是更早版本——GPT-2;如果它發(fā)現(xiàn)大部分詞句都是可預(yù)測的,那么文本很有可能是AI生成的。這個工具還能檢測文本的變化度,這個指標(biāo)也稱為“突發(fā)性”(burstiness):AI生成的文本比人類創(chuàng)作的文本在語調(diào)、起承轉(zhuǎn)合和困惑度上更單調(diào)。 許多其他產(chǎn)品也在設(shè)法識別AI生成的內(nèi)容。OpenAI本身已推出了GPT-2的檢測器,并在1月發(fā)布了另一個檢測工具。對科研人員來說,反剽竊軟件開發(fā)公司Turnitin正在開發(fā)的一個工具顯得格外重要,因?yàn)門urnitin的產(chǎn)品已經(jīng)被全世界的中小學(xué)、大學(xué)、學(xué)術(shù)出版機(jī)構(gòu)大量采用。該公司表示,自從GPT-3在2020年問世以來,他們一直在研究AI檢測軟件,預(yù)計(jì)將于今年上半年發(fā)布。 不過,這些工具中還沒有哪個敢自稱絕不出錯,尤其是在AI生成的文本經(jīng)過人工編輯的情況下。這些檢測工具也會誤將人類寫的文章當(dāng)成是AI生成的,美國得克薩斯大學(xué)奧斯汀分校的計(jì)算科學(xué)家、OpenAI的客座研究員Scott Aaronson說道。OpenAI表示,在測試中,其最新工具將人類寫的文本誤判為AI生成文本的錯誤率為9%,而且只能正確辨認(rèn)出26%的AI生成文本。Aaronson說,在單純靠檢測工具就指責(zé)學(xué)生偷偷使用了AI之前,我們可能還需要進(jìn)一步證據(jù)。 另一種方法是給AI內(nèi)容加水印。去年11月,Aaronson宣布他和OpenAI正在研究給ChatGPT生成的內(nèi)容加水印的方法。該方法還未對外發(fā)布,但美國馬里蘭大學(xué)計(jì)算科學(xué)家Tom Goldstein的團(tuán)隊(duì)在1月24日發(fā)布的一篇預(yù)印本論文中提出了一個加水印的辦法。具體做法是在LLM生成結(jié)果的某個時(shí)刻利用隨機(jī)數(shù)字生成器,生成LLM在指令下從中可選的一連串替代詞匯。這樣就能在最終文本中留下所選詞匯的線索,這在統(tǒng)計(jì)學(xué)上很容易辨認(rèn),但讀者卻很難發(fā)現(xiàn)。編輯可以把這些線索抹掉,但Goldstein認(rèn)為,這種編輯需要把超過一半的詞匯都換掉。 Aaronson指出,加水印的一個好處是不太會產(chǎn)生假陽性的結(jié)果。如果有水印,文本很可能就是AI生成的。當(dāng)然,他說,這也不是絕對的?!叭绻阕銐蛴袥Q心,就肯定有辦法破解任何加水印的策略?!?strong>檢測工具和加水印只是讓AI用于欺騙手段更難了,但沒法絕對禁止。 與此同時(shí),LLM的開發(fā)者正在構(gòu)建更大型的數(shù)據(jù)集,打造更智能的聊天機(jī)器人(OpenAI擬在今年推出GPT-4),包括專門面向?qū)W術(shù)或醫(yī)療領(lǐng)域的機(jī)器人。去年12月底,谷歌和DeepMind發(fā)布了一篇預(yù)印本論文,提前預(yù)告了名為Med-PaLM的臨床專業(yè)LLM。這個工具可以回答一些開放式的醫(yī)學(xué)問題,水平與普通人類醫(yī)師相當(dāng),但仍有缺陷和不可靠的問題。 加州斯克利普斯研究所主任Eric Topol表示,他希望將來整合了LLM功能的AI能將全身掃描與學(xué)術(shù)文獻(xiàn)中的內(nèi)容進(jìn)行交叉驗(yàn)證,幫助診斷癌癥,甚至理解癌癥。但他強(qiáng)調(diào),這一切都需要專業(yè)人士的監(jiān)督。 生成式AI背后的計(jì)算機(jī)科學(xué)發(fā)展迅速,基本每個月都會有新成果。研究人員如何使用這些工具不僅決定了它們的未來,也決定了人類的未來。“要說2023年初,一切已塵埃落定,是不現(xiàn)實(shí),”Topol說,“現(xiàn)在才剛剛開始。” |
|