《自然》長文：ChatGPT闖入科研革新與隱患共存

大風(fēng)兮云卷云舒 2023-02-21 發(fā)布于天津

展開全文

原文作者：Chris Stokel-Walker & Richard Van Noorden

去年12月，計(jì)算生物學(xué)家Casey Greene和Milton Pividori做了一個特別的實(shí)驗(yàn)：他們請一名非科學(xué)家助理幫三篇論文潤色。這位勤奮的助理不到幾秒就給出了修改建議；每篇文章只用了5分鐘就審?fù)炅恕?/strong>這位助理甚至還在一篇生物學(xué)論文中，發(fā)現(xiàn)一個公式的參考文獻(xiàn)有錯誤。雖然實(shí)驗(yàn)的過程有時(shí)候不太順利，但最后的手稿可讀性更強(qiáng)了，至于費(fèi)用也很低，一篇論文只要0.50美元不到。

Greene和Pividori在1月23日發(fā)布的預(yù)印本論文中描述了這個助理，它不是一個人，而是一個AI算法，名叫GPT-3，2020年首次問世。這是一個當(dāng)下很火的生成式AI對話工具，能生成通順流暢的文本，無論是編散文、寫詩歌、敲代碼，還是科研人員需要的論文編輯都不在話下（見文末“如何讓AI對話機(jī)器人改論文”）。

插圖：Pawe? Jońca

這類工具也被稱為大型語言模型（LLM），其中名聲最響的當(dāng)屬GPT-3的一個版本——ChatGPT。由于ChatGPT完全免費(fèi)而且使用方便，去年11月推出后便引發(fā)熱潮。其他類型的生成式AI還能產(chǎn)生圖片或聲音。

“我真的印象深刻，”就職于美國賓夕法尼亞大學(xué)的Pividori說，“它讓我們這些研究人員效率更高了。”很多科研人員說他們現(xiàn)在經(jīng)常用LLM，不僅用它來改論文，還能用來編程，檢查代碼，頭腦風(fēng)暴等。冰島大學(xué)的計(jì)算機(jī)科學(xué)家Hafsteinn Einarsson說：“我現(xiàn)在每天都用LLM。”他最早用的是GPT-3，后來開始用ChatGPT幫他寫演講稿，出考試題和學(xué)生作業(yè)，還能把學(xué)生作文變成學(xué)術(shù)論文。他說：“很多人都把ChatGPT作為數(shù)字秘書或數(shù)字助理。”

LLM既能充當(dāng)搜索引擎，也能作為編程助理，甚至可以和其他公司的對話機(jī)器人就某件產(chǎn)品殺價(jià)。開發(fā)ChatGPT的公司OpenAI位于加州舊金山，已宣布將推出每個月20美元的訂閱服務(wù)，承諾反應(yīng)速度會更快，而且能優(yōu)先使用新功能（ChatGPT的試用版將依然免費(fèi)）。科技巨頭微軟（Microsoft）已經(jīng)投資了OpenAI，1月又宣布了約100億美元的新一輪投資。LLM今后肯定會整合到文字和數(shù)據(jù)處理軟件中。生成式AI在未來的普及似乎已成定局，當(dāng)前的工具還只是這項(xiàng)技術(shù)的初始階段。

但是，LLM也引發(fā)了大量擔(dān)憂，比如它們很容易“胡說八道”，而且人們會說AI生成的內(nèi)容是他們自己創(chuàng)作的。《自然》采訪了研究人員如何看待ChatGPT等對話機(jī)器人的潛在用途，尤其是科研用途，他們在激動之余也表示了憂慮。科羅拉多大學(xué)醫(yī)學(xué)院的Greene說：“如果你相信這項(xiàng)技術(shù)有潛力帶來變革，那么我認(rèn)為你最好緊張一點(diǎn)?！笨蒲腥藛T認(rèn)為，很多方面都將取決于未來的監(jiān)管指南對AI對話機(jī)器人的使用限制。

流暢度高、事實(shí)性差

一些研究人員認(rèn)為，LLM很適合用來提高寫論文或?qū)懟鸬男?，只要有人類把關(guān)就行。瑞典薩爾格林斯卡醫(yī)院的神經(jīng)生物學(xué)家Almira Osmanovic Thunstr?m與人合作發(fā)布了一篇關(guān)于GPT-3的實(shí)驗(yàn)報(bào)告，他說：“科研人員再也不用坐在那里給經(jīng)費(fèi)申請書寫很長很長的引言了，他們現(xiàn)在只要讓系統(tǒng)來寫就行了?！?/p>

倫敦軟件咨詢公司InstaDeep的研究工程師Tom Tumiel表示，他每天都用LLM寫代碼。他說，“它就像一個進(jìn)階版的Stack Overflow。”Stack Overflow是一個程序員互問互答的熱門論壇。

但是，研究人員強(qiáng)調(diào)，LLM給出的回答從根本上說是不可靠的，有時(shí)候還是錯的。Osmanovic Thunstr?m說：“我們在利用這些系統(tǒng)生成知識的時(shí)候要很當(dāng)心?！?/p>

這種不可靠已經(jīng)深入LLM的構(gòu)建方式。ChatGPT和它的競爭對手都是通過學(xué)習(xí)龐大在線文本數(shù)據(jù)庫中的語言統(tǒng)計(jì)模式來運(yùn)作的，這些文本中不乏謠言、偏見和已經(jīng)過時(shí)的信息。當(dāng)LLM接到提示（prompt，比如Greene和Pividori使用精心組織的語言提出重寫論文部分章節(jié)的要求）后，它們會一字一句地吐出看上去符合語言習(xí)慣的任何回復(fù)，只要能讓對話繼續(xù)下去。

結(jié)果就是LLM很容易給出錯誤或誤導(dǎo)人的信息，尤其是那些訓(xùn)練數(shù)據(jù)很有限的技術(shù)性話題。還有一點(diǎn)是LLM無法給出準(zhǔn)確的信息來源。如果你讓它寫論文，它會把參考文獻(xiàn)給你編出來?！?strong>這個工具在事實(shí)核查或提供可靠參考文獻(xiàn)方面是不能被信任的。”《自然-機(jī)器智能》（Nature Machine Intelligence）在1月發(fā)表的一篇關(guān)于ChatGPT的社論中寫道。

在這些注意事項(xiàng)下，如果研究人員有足夠?qū)I(yè)知識發(fā)現(xiàn)問題或能很容易驗(yàn)證答案對錯，比如他們能判斷某個解釋或?qū)Υa的建議是否正確，那么ChatGPT和其他LLM就能成為真正意義上的助手。

不過，這些工具可能會誤導(dǎo)一些初級用戶。比如在去年12月，Stack Overflow臨時(shí)禁用了ChatGPT，因?yàn)楣芾碚甙l(fā)現(xiàn)一些熱心用戶上傳了大量由LLM生成的回答，這些答案看起來很像回事，但錯誤率很高。這可能會是搜索引擎的一個噩夢。

缺陷能解決嗎？

有些搜索引擎工具能解決LLM在來源引用上的不足，例如面向科研人員的Elicit能先根據(jù)提問搜索相關(guān)參考文獻(xiàn)，再對搜索引擎找到的各個網(wǎng)站或文獻(xiàn)進(jìn)行概括歸納，生成看上去全帶參考來源的內(nèi)容（但是LLM對不同文獻(xiàn)的歸納仍有可能不準(zhǔn)確）。

開發(fā)LLM的公司也注意到了這些問題。去年9月，谷歌（Google）子公司DeepMind發(fā)表了一篇關(guān)于其“對話智能體”Sparrow的論文。DeepMind首席執(zhí)行官、聯(lián)合創(chuàng)始人Demis Hassabis后來告訴《時(shí)代周刊》（TIME），Sparrow的私測版會在今年發(fā)布；根據(jù)《時(shí)代周刊》的報(bào)道，谷歌想進(jìn)一步攻克包括來源引用在內(nèi)的各種能力。其他競爭對手，如Anthropic，則表示他們已經(jīng)解決了ChatGPT的一些問題（Anthropic、OpenAI、DeepMind都拒絕就此文接受采訪。）

一些科研人員表示，目前來看，ChatGPT在技術(shù)性話題上還沒有足夠且專業(yè)的訓(xùn)練數(shù)據(jù)，所以用處并不大。當(dāng)哈佛大學(xué)的生物統(tǒng)計(jì)學(xué)博士生Kareem Carr將ChatGPT用于他的工作時(shí)，他對ChatGPT的表現(xiàn)毫不驚艷，他說，“我認(rèn)為ChatGPT很難達(dá)到我需要的專業(yè)水平?！保ǖ獵arr也表示，當(dāng)他讓ChatGPT為某個科研問題給出20種解決辦法時(shí)，ChatGPT回復(fù)了一堆廢話和一個有用的回答，這個他之前從沒聽過的統(tǒng)計(jì)學(xué)術(shù)語替他打開了一個新的文獻(xiàn)領(lǐng)域。）

一些科技公司以及開始用專業(yè)的科研文獻(xiàn)訓(xùn)練對話機(jī)器人了，當(dāng)然這些機(jī)器人也各有各的問題。去年11月，持有Facebook的科技巨頭Meta發(fā)布了名為Galactica的LLM，Galactica用學(xué)術(shù)摘要進(jìn)行訓(xùn)練，有望在生成學(xué)術(shù)內(nèi)容和回答科研問題方面具備一技之長。但是，其測試版在被用戶拿來生成不準(zhǔn)確和種族歧視的內(nèi)容后即被下架（但代碼依舊公開）。Meta的首席AI科學(xué)家楊立昆（Yann LeCun）在面對批評時(shí)發(fā)推特表示，“今后再也不要想用它來隨意生成點(diǎn)好玩的東西了，這下高興了吧？”（Meta并未回復(fù)本文通過媒體辦公室采訪楊立昆的請求。）

安全與責(zé)任

Galactica遇到的是一個倫理學(xué)家已經(jīng)提出了好幾年的安全問題：如果不對輸出內(nèi)容進(jìn)行把控，LLM就能被用來生成仇恨言論和垃圾信息，以及訓(xùn)練數(shù)據(jù)中可能存在種族歧視、性別歧視等其他有害聯(lián)想。

Shobita Parthasarathy是美國密歇根大學(xué)一個科技與公共政策項(xiàng)目的負(fù)責(zé)人，她說，除了直接生成有害內(nèi)容外，人們還擔(dān)心AI對話機(jī)器人會從訓(xùn)練數(shù)據(jù)中習(xí)得一些歷史性偏見或形成對世界的特定看法，比如特定文化的優(yōu)越性。她說，由于開發(fā)大型LLM的公司大多來自或置身于這些文化中，他們可能沒什么動力去糾正這些根深蒂固的系統(tǒng)性偏見。

OpenAI在決定公開發(fā)布ChatGPT時(shí)，曾試圖回避很多這些問題。OpenAI讓ChatGPT的信息庫截至到2021年為止，不讓它瀏覽互聯(lián)網(wǎng)，還通過安裝過濾器防止ChatGPT對敏感或惡意的提示做出回應(yīng)。不過，做到這一點(diǎn)需要人類管理員對龐雜的有害文本進(jìn)行人工標(biāo)記。有新聞報(bào)道稱這些工人的工資很低，有些人還有傷病。關(guān)于社交媒體公司在雇傭人員訓(xùn)練自動機(jī)器人標(biāo)記有害內(nèi)容時(shí)存在勞動力壓榨的類似問題也曾被提出過。

OpenAI采取的這些防護(hù)措施，效果不盡如人意。去年12月，加州大學(xué)伯克利分校的計(jì)算神經(jīng)科學(xué)家Steven Piantadosi發(fā)推文表示他讓ChatGPT開發(fā)一個Python程序，該程序?qū)⒏鶕?jù)某個人的來源國決定這個人是否應(yīng)該受到折磨。ChatGPT先回復(fù)了請用戶輸入國家的代碼，然后如果國家是朝鮮、敘利亞、伊朗和蘇丹，則這個人就應(yīng)該受到折磨。（OpenAI后來了關(guān)閉了這類問題。）

去年，一個學(xué)術(shù)團(tuán)隊(duì)發(fā)布了另一個名叫BLOOM的LLM。該團(tuán)隊(duì)試著用更少的精選多語言文本庫來訓(xùn)練這個機(jī)器人。該團(tuán)隊(duì)還把它的訓(xùn)練數(shù)據(jù)完全公開（與OpenAI的做法不同）。研究人員呼吁大型科技公司參照這種做法，但目前不清楚這些公司是否愿意。

還有一些研究人員認(rèn)為學(xué)術(shù)界應(yīng)該完全拒絕支持商用化的大型LLM。除了偏見、安全顧慮和勞動剝削等問題，這些計(jì)算密集型算法還需要大量精力來訓(xùn)練，引發(fā)人們對它們生態(tài)足跡的關(guān)注。進(jìn)一步的擔(dān)憂還包括把思考過程交給自動化聊天機(jī)器，研究人員可能會喪失表達(dá)個人想法的能力。荷蘭拉德堡德大學(xué)的計(jì)算認(rèn)知科學(xué)家Iris van Rooij在一篇呼吁學(xué)術(shù)界抵制這類誘惑的博客文章中寫道，我們作為學(xué)術(shù)人員，為何要迫不及待地使用和推廣這類產(chǎn)品呢？”

另一個不甚明確的問題是一些LLM的法律狀態(tài)，這些LLM是用網(wǎng)上摘錄內(nèi)容訓(xùn)練的，有些內(nèi)容的權(quán)限處于灰色地帶。版權(quán)法和許可法目前只針對像素、文本和軟件的直接復(fù)制，但不限于對它們風(fēng)格上的模仿。當(dāng)這些由AI生成的模仿內(nèi)容是通過輸入原版內(nèi)容來訓(xùn)練的，問題也隨之而來。一些AI繪畫程序開發(fā)者，包括Stable Diffusion和Midjourney，正受到藝術(shù)家和攝影機(jī)構(gòu)的起訴。OpenAI和微軟（還有其子公司技術(shù)網(wǎng)站GitHub）也因?yàn)槠銩I編程助手Copilot的開發(fā)面臨軟件侵權(quán)官司。英國紐卡斯?fàn)柎髮W(xué)的互聯(lián)網(wǎng)法律專家Lilian Edwards表示，這些抗議或能迫使相應(yīng)法律做出改變。

強(qiáng)制誠信使用

因此，一些研究人員相信，給這些工具設(shè)立邊界可能十分必要。Edwards認(rèn)為，當(dāng)前關(guān)于歧視和偏見的法律（以及對AI惡意用途實(shí)施有計(jì)劃的監(jiān)管）將有助于維護(hù)LLM使用的誠信、透明、公正。她說，“已經(jīng)有很多法律了，現(xiàn)在只是執(zhí)行或是稍微調(diào)整的問題?！?/p>

與此同時(shí)，人們也在倡導(dǎo)LLM的使用需要更透明的披露。學(xué)術(shù)出版機(jī)構(gòu)（包括《自然》的出版商）已經(jīng)表示，科研人員應(yīng)當(dāng)在論文中披露LLM的使用（相關(guān)閱讀：ChatGPT威脅科研透明，《自然》等期刊提出新要求）；老師們也希望學(xué)生能進(jìn)行類似披露?！犊茖W(xué)》（Science）則更進(jìn)一步，要求所有論文中都不得使用ChatGPT或其他任何AI工具生成的文本。

這里有一個關(guān)鍵的技術(shù)問題：AI生成的內(nèi)容是否能被發(fā)現(xiàn)。許多科研人員正在進(jìn)行這方面的研究，核心思路是讓LLM自己去“揪”AI生成的文本。

去年12月，美國普林斯頓大學(xué)的計(jì)算機(jī)科學(xué)研究生Edward Tian推出了GPTZero。這是一個AI檢測工具，能從兩個角度分析文本。一種是“困惑度”（perplexity），這個指標(biāo)檢測LLM對某個文本的熟悉度。Tian的工具使用的是更早版本——GPT-2；如果它發(fā)現(xiàn)大部分詞句都是可預(yù)測的，那么文本很有可能是AI生成的。這個工具還能檢測文本的變化度，這個指標(biāo)也稱為“突發(fā)性”（burstiness）：AI生成的文本比人類創(chuàng)作的文本在語調(diào)、起承轉(zhuǎn)合和困惑度上更單調(diào)。

許多其他產(chǎn)品也在設(shè)法識別AI生成的內(nèi)容。OpenAI本身已推出了GPT-2的檢測器，并在1月發(fā)布了另一個檢測工具。對科研人員來說，反剽竊軟件開發(fā)公司Turnitin正在開發(fā)的一個工具顯得格外重要，因?yàn)門urnitin的產(chǎn)品已經(jīng)被全世界的中小學(xué)、大學(xué)、學(xué)術(shù)出版機(jī)構(gòu)大量采用。該公司表示，自從GPT-3在2020年問世以來，他們一直在研究AI檢測軟件，預(yù)計(jì)將于今年上半年發(fā)布。

不過，這些工具中還沒有哪個敢自稱絕不出錯，尤其是在AI生成的文本經(jīng)過人工編輯的情況下。這些檢測工具也會誤將人類寫的文章當(dāng)成是AI生成的，美國得克薩斯大學(xué)奧斯汀分校的計(jì)算科學(xué)家、OpenAI的客座研究員Scott Aaronson說道。OpenAI表示，在測試中，其最新工具將人類寫的文本誤判為AI生成文本的錯誤率為9%，而且只能正確辨認(rèn)出26%的AI生成文本。Aaronson說，在單純靠檢測工具就指責(zé)學(xué)生偷偷使用了AI之前，我們可能還需要進(jìn)一步證據(jù)。

另一種方法是給AI內(nèi)容加水印。去年11月，Aaronson宣布他和OpenAI正在研究給ChatGPT生成的內(nèi)容加水印的方法。該方法還未對外發(fā)布，但美國馬里蘭大學(xué)計(jì)算科學(xué)家Tom Goldstein的團(tuán)隊(duì)在1月24日發(fā)布的一篇預(yù)印本論文中提出了一個加水印的辦法。具體做法是在LLM生成結(jié)果的某個時(shí)刻利用隨機(jī)數(shù)字生成器，生成LLM在指令下從中可選的一連串替代詞匯。這樣就能在最終文本中留下所選詞匯的線索，這在統(tǒng)計(jì)學(xué)上很容易辨認(rèn)，但讀者卻很難發(fā)現(xiàn)。編輯可以把這些線索抹掉，但Goldstein認(rèn)為，這種編輯需要把超過一半的詞匯都換掉。

Aaronson指出，加水印的一個好處是不太會產(chǎn)生假陽性的結(jié)果。如果有水印，文本很可能就是AI生成的。當(dāng)然，他說，這也不是絕對的?！叭绻阕銐蛴袥Q心，就肯定有辦法破解任何加水印的策略?！?strong>檢測工具和加水印只是讓AI用于欺騙手段更難了，但沒法絕對禁止。

與此同時(shí)，LLM的開發(fā)者正在構(gòu)建更大型的數(shù)據(jù)集，打造更智能的聊天機(jī)器人（OpenAI擬在今年推出GPT-4），包括專門面向?qū)W術(shù)或醫(yī)療領(lǐng)域的機(jī)器人。去年12月底，谷歌和DeepMind發(fā)布了一篇預(yù)印本論文，提前預(yù)告了名為Med-PaLM的臨床專業(yè)LLM。這個工具可以回答一些開放式的醫(yī)學(xué)問題，水平與普通人類醫(yī)師相當(dāng)，但仍有缺陷和不可靠的問題。

加州斯克利普斯研究所主任Eric Topol表示，他希望將來整合了LLM功能的AI能將全身掃描與學(xué)術(shù)文獻(xiàn)中的內(nèi)容進(jìn)行交叉驗(yàn)證，幫助診斷癌癥，甚至理解癌癥。但他強(qiáng)調(diào)，這一切都需要專業(yè)人士的監(jiān)督。

生成式AI背后的計(jì)算機(jī)科學(xué)發(fā)展迅速，基本每個月都會有新成果。研究人員如何使用這些工具不僅決定了它們的未來，也決定了人類的未來。“要說2023年初，一切已塵埃落定，是不現(xiàn)實(shí)，”Topol說，“現(xiàn)在才剛剛開始。”

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：大風(fēng)兮云卷云舒 > 《經(jīng)濟(jì)》

舉報(bào)/認(rèn)領(lǐng)