當(dāng)許多人還在新年中宿醉時(shí),一個(gè)年僅 22 歲的學(xué)生正在狂熱地開(kāi)發(fā)一款新應(yīng)用程序,用來(lái)防止濫用一種名為 ChatGPT 的強(qiáng)大新型人工智能工具。 當(dāng)機(jī)器人開(kāi)始破壞了他的網(wǎng)站,這個(gè)名叫 Edward Tian 的學(xué)生還在熟睡中。緊接著,一個(gè)個(gè)私信和警告信息充滿了他的計(jì)算機(jī)與移動(dòng)設(shè)備。 這位是普林斯頓大學(xué)在讀 22 歲的大四學(xué)生,為華裔加拿大籍人氏,住在加拿大多倫多,據(jù)推斷中文應(yīng)該姓田,但具體中文名字尚不得知。 他在本地的一家咖啡和花店中度過(guò)了寒假,在這個(gè)假期中他創(chuàng)作并完成了第一版本的反ChatGPT工具—— GPTZero。 GPTZero 首頁(yè)|GPTZero 據(jù)他的宣傳,這款應(yīng)用程序能夠“快速有效地”判斷一篇文章是由人類,還是由 OpenAI 的 ChatGPT 撰寫的。 當(dāng)他將GPTZero上傳到應(yīng)用創(chuàng)建和托管平臺(tái) Streamlit 時(shí),他自己也沒(méi)想到它會(huì)受到如此多人的關(guān)注。 “我原本以為最多只有幾十個(gè)人試用這個(gè)應(yīng)用程序,突然之間,用戶數(shù)量開(kāi)始瘋狂暴長(zhǎng),幾個(gè)小時(shí)內(nèi)就有超過(guò) 2000 人注冊(cè)了GPTZero的測(cè)試版。” GPTZero 的流量暴漲,用戶使用頻繁,甚至導(dǎo)致托管它的云平臺(tái)崩潰。Tian 說(shuō)道:“我很震驚,它像爆炸了一樣,又像病毒一樣傳播開(kāi)來(lái)?!?/span> 連他最初發(fā)布在Twitter上的推文,宣傳該應(yīng)用程序可以“快速有效地”檢測(cè)一篇文章是否由人工智能撰寫,也獲得了超過(guò) 700 萬(wàn)的瀏覽量以及大量跟貼。 OpenAI 于 2022 年 11 月 30 日發(fā)布 ChatGPT ,它向世界釋放了一個(gè)數(shù)字潘多拉魔盒,而搜索引擎的壟斷將從此被打破,競(jìng)價(jià)和搜索排名模式將可能被顛覆。 而現(xiàn)實(shí)社會(huì)的每個(gè)人——從高中教師到大學(xué)教授再到記者,都擔(dān)心強(qiáng)大的人工智能聊天機(jī)器人會(huì)開(kāi)啟一個(gè)由機(jī)器人生成的論文和文章的時(shí)代,有些人稱之為“ AIgiarism ”。 一些學(xué)校的教育工作者已經(jīng)開(kāi)始舉告他們的學(xué)生使用 ChatGPT 來(lái)創(chuàng)作論文,并完成作業(yè)的例子。 ChatGPT 服務(wù)被學(xué)生們用于從編碼到健身的方方面面,甚至在理論考試中用來(lái)作弊。 雖然 OpenAI 表示計(jì)劃實(shí)施“水印”以驗(yàn)證某些內(nèi)容是否由 ChatGPT 創(chuàng)建,但仍然在以“識(shí)別文本并非易事”的解決方案延遲,確實(shí),自己制造矛和盾并不容易——而ChatGTP可能會(huì)給教育和新聞業(yè)帶來(lái)沖擊。 攻讀計(jì)算機(jī)科學(xué)與新聞學(xué)雙學(xué)位的Edward Tian 對(duì)聊天機(jī)器人帶來(lái)的道德困境以及他所說(shuō)的大型語(yǔ)言模型(如 ChatGPT)的“黑匣子”性質(zhì)感到深深地困擾。 ChatGPT模型的不透明性導(dǎo)致人們從本質(zhì)上產(chǎn)生誤解,從而去誤用或?yàn)E用它。 “當(dāng)文字不是人類寫的時(shí),人類應(yīng)該有權(quán)知道?!?/b> — Edward Tian,普林斯頓大學(xué) 由此,盡管Tian 即將大學(xué)畢業(yè),面對(duì)著論文等緊急重要的事,他決定利用最后一個(gè)寒假來(lái)開(kāi)發(fā)一個(gè)實(shí)用工具,幫助人們找出一篇文章是否是由機(jī)器人撰寫的。 “當(dāng)文字不是人類寫的時(shí)候,人類應(yīng)該有權(quán)知道,”Tian說(shuō)?!白罱鼑@ ChatGPT 和 AI 生成的炒作信息太多了,人類有必要應(yīng)該知道真相?!?/span> 于是,便有了Tian開(kāi)發(fā)的識(shí)別ChatGPT等機(jī)器創(chuàng)作文本的GPTZero。 Tian 亦坦言,他在使用免費(fèi)開(kāi)源的 GPT-2 來(lái)幫助訓(xùn)練他的應(yīng)用程序,以達(dá)到這個(gè)指標(biāo)。 GPTZero 使用兩種不同的指標(biāo)來(lái)評(píng)估文本是否由機(jī)器人編寫:困惑性(Perplexity)與突發(fā)性(Burstiness),并分別對(duì)其打分,根據(jù)統(tǒng)計(jì)學(xué)特征來(lái)確定,文本是由人工智能寫的還是人類寫的。 總體來(lái)說(shuō),如果這兩項(xiàng)參數(shù)得分都很低的話,那么該文本很有可能出自 AI 之手。 這里指的困惑性,是指來(lái)自人類所寫作品的語(yǔ)言的復(fù)雜性和隨機(jī)性。這個(gè)指標(biāo)主要是衡量文本在一個(gè)句子中的隨機(jī)程度,以及一個(gè)句子的構(gòu)造方式是否會(huì)讓 GPTZero 感到困惑。每當(dāng)用戶在 GPTZero 輸入一段測(cè)試內(nèi)容,它就會(huì)分別計(jì)算出:文字總困惑度、所有句子的平均困惑度、每個(gè)句子的困惑度。 這些數(shù)值越低,越能說(shuō)明這個(gè)文本對(duì) GPTZero 來(lái)說(shuō)是非常熟悉的,那么它很可能是 AI 生成的;相反,如果這些數(shù)值越高,就越能說(shuō)明文本中句子的構(gòu)造或用詞方式讓 GPTZero 感到驚訝,那么它就更可能是出自人類之手。 這是因?yàn)?,人工智能接受過(guò)數(shù)據(jù)庫(kù)的訓(xùn)練,生成的文本在一段時(shí)間內(nèi),表現(xiàn)出的困惑度會(huì)更均勻與恒定,選詞的可預(yù)測(cè)性也更高;而人類書寫的文本則不會(huì)這樣,真人的遣詞造句一般會(huì)比較隨機(jī),比機(jī)器更容易寫比較出乎意料的詞句來(lái)。
使用 GPTZero 檢測(cè)文字是否由 ChatGPT 生成 而突發(fā)性,則是指來(lái)自人類使用的句子結(jié)構(gòu)的變化。這個(gè)參數(shù)主要是比較句子復(fù)雜性的變化程度,衡量它們的一致性。 因?yàn)槿祟悆A向于寫高度復(fù)雜的文本;而人工智能機(jī)器人產(chǎn)出的文本以低復(fù)雜度居多;此外,由于人類的思維結(jié)構(gòu)不是線性的,他們的句子結(jié)構(gòu)也遵循類似的模式。 這意味著,人類使用句子結(jié)構(gòu),會(huì)在長(zhǎng)而復(fù)雜的句子,在短而簡(jiǎn)單的句子之間搖擺不定,有著更多的句式變化,比如復(fù)雜和簡(jiǎn)單交替并存,一個(gè)長(zhǎng)難句之后接著出現(xiàn)更簡(jiǎn)短的句子;而機(jī)器生成的句子則傾向于更加統(tǒng)一,很少會(huì)有一系列長(zhǎng)度相差很大的句子。 簡(jiǎn)言之,在選詞上簡(jiǎn)單而熟悉,并使用統(tǒng)一整齊的句子,是人工智能生成作品的標(biāo)志特征,而更復(fù)雜和多樣的東西,則表明是人類寫的。這便是“困惑性”和“突發(fā)性”這兩項(xiàng)指標(biāo)可以作為衡量標(biāo)準(zhǔn)的原因。 “計(jì)算機(jī)永遠(yuǎn)也不能吸收人類散文式的優(yōu)美品質(zhì),”Tian如此解釋道。作為一名新聞專業(yè)的學(xué)生,他從美國(guó)作家約翰·麥克菲 (John McPhee) 的課堂上受到啟發(fā),后者教會(huì)了他關(guān)于人類寫作的美好品質(zhì)。 Tian認(rèn)為他學(xué)習(xí)的另一個(gè)學(xué)科新聞學(xué)也是一樣,新聞的核心價(jià)值觀是尋找真相。AI技術(shù)很擅長(zhǎng)復(fù)述它們知道的事情,但它們并不能發(fā)現(xiàn)真相,而且也無(wú)法做事實(shí)核查、報(bào)告等事情——收集它們的訓(xùn)練數(shù)據(jù)中不存在的新信息。 ChatGTP們做不到的事情太多了。因?yàn)闅w根結(jié)底,這些通用模型并沒(méi)有提出任何原創(chuàng)的東西。它們看到了它們所知道的,然后在大量的內(nèi)容中反省。 Tian 使用 McPhee 在《紐約客》中發(fā)表的一篇文章,作為 GPTZero 演示的一部分: Tian也承認(rèn)他的機(jī)器人GPTZero并非萬(wàn)無(wú)一失,正如一些用戶在測(cè)試時(shí)所報(bào)告的那樣。他說(shuō),他仍在努力提高模型的準(zhǔn)確性。 盡管開(kāi)發(fā)了GPTZero這個(gè)工具,但 Tian 并不反對(duì)人工智能。他認(rèn)為,如果以合乎道德的方式使用并征得用戶同意才好。他甚至使用了像 CoPilot 這樣的人工智能應(yīng)用來(lái)“支持自己的大部分編碼工作”。 “我不反對(duì)在有意義的時(shí)候使用 AI 寫作,”他說(shuō)。 隨著圍繞 ChatGPT 的炒作與恐懼,像 Tian 開(kāi)發(fā)的GPTZero工具可能在各個(gè)領(lǐng)域都非常有用,從想要查閱學(xué)生是否抄襲論文的教育工作者到想要檢查求職信是否真的由申請(qǐng)人寫的人事專員等。 “計(jì)算機(jī)可以但永遠(yuǎn)寫不出人類散文的優(yōu)美品質(zhì)。” — Edward Tian “就在這幾天,一群風(fēng)投不斷向我的Twitter私信,”Tian 說(shuō)道。其中包括 A16Z、Menlo Ventures 和 Red Swan 等知名風(fēng)險(xiǎn)投資公司,他們可能了解這里面可以含有的大量?jī)r(jià)值與利潤(rùn)。 但他覺(jué)得還沒(méi)有完成 GPTZero,想進(jìn)一步改進(jìn)和開(kāi)發(fā)該應(yīng)用程序,他甚至計(jì)劃通過(guò)“解釋器和檢測(cè)方法”擴(kuò)大其透明度。 歸根結(jié)底,Edward Tian是一名大學(xué)四年級(jí)學(xué)生。他的期末考試迫在眉睫,需要擔(dān)心家庭作業(yè)和人工作文?,F(xiàn)在,這比數(shù)字潘多拉魔盒或 VC 投資者更關(guān)心。 他說(shuō):“我最開(kāi)始是想支持各地的新人英語(yǔ)教師。我會(huì)接所有的電話,”他笑著說(shuō),“但現(xiàn)在,我只是一個(gè)專注于畢業(yè)的大學(xué)生?!?/span> 據(jù)稱,Edward Tian 是中國(guó)清華大學(xué)某資深電氣工程師的孫子,距離在普林斯頓大學(xué)完成計(jì)算機(jī)科學(xué)和新聞學(xué)雙學(xué)位還有幾個(gè)月。 |
|
來(lái)自: 天下小糧倉(cāng) > 《智能》