【原】阿里贏了，人類卻一敗涂地：中文「考試」也輸給了AI

雷科技 2022-12-07 發(fā)布于廣東

展開全文

來源：雷科技互聯(lián)網(wǎng)組

編輯：冬日果醬

排版：子彈

今年以來，AIGC（AI 生產(chǎn)內(nèi)容）成了新的互聯(lián)網(wǎng)潮頭，就如同年初大火的 Web3。

最新一波熱潮要?dú)w功于上周剛剛發(fā)布的 ChatGPT，憑借超乎想象的語言理解能力、溝通技巧和背后的知識儲備，不僅技驚四座，也在某種程度上碰到了恐怖谷效應(yīng)，有些網(wǎng)友甚至認(rèn)為它「牛得讓人有點(diǎn)畏懼」。

但 ChatGPT 對人類語言依然存在理解問題，特別是在中文上，比如就有網(wǎng)友提問「如果你是賈寶玉，會(huì)娶誰當(dāng)老婆」，結(jié)果得到一個(gè)啼笑皆非的回答：

圖/即刻@雨醫(yī)生

在AI領(lǐng)域，語言理解一直最為核心，也是難以攻克的問題之一，尤其是中文的語言理解。放眼目前全世界的所有語言，中文的難度系數(shù)是最高的。相比拉丁語系中的單詞，中文漢字的語義更加模糊，容易產(chǎn)生歧義、信息失真等問題，這些都給 AI 提出了更大的挑戰(zhàn)。

也是在最近，阿里和騰訊的 AI 接連取得了突破性的進(jìn)展，中文語言理解又往前再走了關(guān)鍵一步。

AI 中文成績超人類

上月底，在中文語言理解領(lǐng)域權(quán)威榜單 CLUE 中，阿里 AI 以 86.685 的總成績創(chuàng)造了一個(gè)新的紀(jì)錄——該榜單誕生以來AI第一次超過人類成績（86.678）。僅僅不到一周，騰訊 AI 也更新了自己成績，以 86.918 的得分超過了人類和阿里 AI 的成績。

CLUE 總榜，圖/CLUE

中國兩大互聯(lián)網(wǎng)巨頭，在短短一周內(nèi)相繼超越人類的 CLUE 成績。

作為業(yè)界最權(quán)威的中文自然語言理解榜單，CLUE（中文語言理解測評基準(zhǔn)）是一組評估AI機(jī)器人能夠像人類一樣理解和響應(yīng)中文文本的任務(wù)，從長短文本分類、多選閱讀理解、自然語言推理等 17 項(xiàng)任務(wù)中全面考核 AI 模型的語言理解能力。

上線 3 年，該榜單競爭激烈，幾乎是中國互聯(lián)網(wǎng)巨頭的兵家必爭之地，除了阿里達(dá)摩院 NLP 和騰訊混元 AI 大模型團(tuán)隊(duì)，OPPO 研究院、快手搜索及美團(tuán) NLP 等研究機(jī)構(gòu)也都參與了該榜單的競爭。盡管榜首有過多次易主，但在阿里和騰訊AI最近一次更新之前，從未有過 AI 超過人類成績。

不過，此次超越實(shí)際是指總成績在總榜上超過人類，具體到子榜單如自然語言推理榜和分類任務(wù)排行榜，人類的成績依然位居第一。換言之，阿里和騰訊的AI模型目前與人類在 CLUE 的不同測評中互有勝負(fù)。

而另一邊，百度也以中國學(xué)生更為切身的方式展示了中國AI的中文理解能力。9 月舉辦的 2022 百度萬象大會(huì)上，百度宣稱AI數(shù)字人度曉曉挑戰(zhàn)了高考作文，針對全國新高考Ⅰ卷題為《本手、妙手、俗手》作答，憑借 48 分的成績，度曉曉可以排在整體考生作文成績的前 25%。

圖/百度

中國互聯(lián)網(wǎng)巨頭對中文的理解似乎迎來了一個(gè)奇點(diǎn)，阿里云計(jì)算部門就在阿里 AI CLUE 成績首度超越人類后發(fā)文稱，「這標(biāo)志著中國對 AI 模型的理解，達(dá)到了一個(gè)新的水平?！?/span>

巨頭的AI軍備競賽

如果說最近數(shù)年 AI 的快速發(fā)展要從 2016 年的 AlphaGo 算起，2020 年夏天 OpenAI 發(fā)布 GPT-3 模型，可以視為又一個(gè)關(guān)鍵節(jié)點(diǎn)。GPT-3 從發(fā)布之初就展現(xiàn)了驚人的 AI 能力，寫文章、做翻譯、寫代碼，甚至可以學(xué)習(xí)一個(gè)人的語言模式并與之對話。

事實(shí)上，不管是上半年大火的 DALL·E 2（AI 生成圖片），還是 ChatGPT（AI 生成文本）都衍生自 GPT-3 大模型。除此之外，GPT-3 還通過付費(fèi) API 的形式支持了 300 多個(gè)應(yīng)用。

GPT-3 的推出也引發(fā)了全球范圍 AI 大模型的爆發(fā)，全球各大科技巨頭和研究所開始了一場聲勢浩大的 AI 軍備競賽，谷歌就在去年推出了萬億級參數(shù)的 AI 大模型—— Switch Transformer，微軟和英偉達(dá)燒壞了 4480 塊 CPU 后，也完成了完成了 5300 億參數(shù)的自然語言生成模型 MT-NLG（威震天-圖靈）。

國內(nèi)的巨頭自然也不甘落后。百度也在去年發(fā)布了「鵬城-百度·文心」，并于今年升級為文心·行業(yè)大模型。阿里則在今年 9 月推出了「通義」大模型系列，第一個(gè)在 CLUE 測評中得分超越人類的 AI「通義- AliceMind」正是來自該模型系列。

圖/阿里

科技巨頭角力 AI 大模型的背景，是AI在下游應(yīng)用層面出現(xiàn)了碎片化、多樣化的產(chǎn)業(yè)趨勢。華為昇騰計(jì)算業(yè)務(wù)總裁張迪煊指出，過去在單一的AI應(yīng)用場景，其實(shí)是通過多個(gè)AI支撐一個(gè)場景來完成多個(gè)任務(wù)。

傳統(tǒng)AI模型只有較為單一的能力，如 AlphaGo 用于下圍棋，AlphaFold 專注蛋白質(zhì)結(jié)構(gòu)預(yù)測。而大模型如 GPT-3 已經(jīng)可以實(shí)現(xiàn)多個(gè)任務(wù)，服務(wù)多個(gè)場景，「這是生產(chǎn)效率的提升。」

百度移動(dòng)生態(tài)負(fù)責(zé)人何俊杰就表示，AIGC 可以實(shí)現(xiàn)以十分之一的成本，以千倍百倍的生產(chǎn)速度，創(chuàng)造出有獨(dú)特價(jià)值和獨(dú)立視角的內(nèi)容，讓內(nèi)容生產(chǎn)和傳播進(jìn)入 AI 發(fā)電的階段。

事實(shí)上，百度已經(jīng)推出了 AI 作畫平臺「文心一格」，騰訊也有寫稿機(jī)器人「夢幻寫手」，阿里巴巴則有旗下的 AI 在線設(shè)計(jì)平臺 Lubanner，字節(jié)跳動(dòng)則推出剪映提供 AI 生成視頻功能。

但未來的 AI 創(chuàng)作會(huì)是什么樣？

AI創(chuàng)作，還是輔助創(chuàng)作？

在 ChatGPT 展現(xiàn)自己超強(qiáng)的自然語言生成能力之后，有網(wǎng)友就想象未來可以用 ChatGPT 生成文案并輸出為語音，同時(shí)再用 Stable Diffusion（文本生成圖像）生成圖片素材，甚至是直接使用谷歌的 Imagen Video，或是 Meta 的 Make-A-Video 生成視頻。

AI生成的視頻，圖/谷歌

AI 生成文本和圖片今天已經(jīng)比較成熟了，但距離 AI 生成視頻的實(shí)際應(yīng)用還有明顯的差距。阿里資深技術(shù)專家、達(dá)摩院基礎(chǔ)視覺團(tuán)隊(duì)負(fù)責(zé)人趙德麗判斷，大概兩年左右時(shí)間，AI 生成視頻也有望能達(dá)到文生圖級別的效果。她還指出目前的困難點(diǎn)在于，不論是質(zhì)量還是數(shù)量都和文生圖的數(shù)據(jù)有較大差距。

在 9 月的萬象大會(huì)上，百度發(fā)布了一個(gè)「創(chuàng)作者 AI 助理團(tuán)」，其中包括了文案、插畫師、視頻制作等AI助理，實(shí)現(xiàn)一個(gè)人就是一個(gè)制作團(tuán)隊(duì)。

幾乎可以確信，未來 AI 將徹底改變現(xiàn)有的內(nèi)容生產(chǎn)模式，但 AI 帶來的內(nèi)容革命還很難說是好是壞。

ChatGFT 的訓(xùn)練方式主要通過語料庫進(jìn)行自然語言處理的訓(xùn)練。首先將大量的對話記錄和語料庫分詞并處理成可供模型識別的格式。接著通過使用自然語言處理技術(shù)，如深度學(xué)習(xí)等對模型進(jìn)行訓(xùn)練，讓模型能夠通過對語料庫的學(xué)習(xí)，模擬人類的聊天行為，并能夠回答用戶提問。

本質(zhì)上，AI 生成內(nèi)容的基礎(chǔ)是互聯(lián)網(wǎng)上海量的語料庫，既不能憑空創(chuàng)造出新的內(nèi)容，也無法實(shí)時(shí)收集最新產(chǎn)生的語料數(shù)據(jù)，只是在一定的參數(shù)范圍收集已經(jīng)存在的信息，包括那些「有毒的」。

OpenAI 去年就指出他們所做的改進(jìn)并不能消除大型語言模型中固有的毒性問題，GPT-3 接受了超過 600GB 網(wǎng)絡(luò)文本的訓(xùn)練，其中一部分來自具有性別、種族、身體和宗教偏見的社區(qū)。與其他大型語言模型一樣，它會(huì)放大訓(xùn)練數(shù)據(jù)的偏差。

圖/OpenAI

公允地說，這既是 AI 的問題，更是人類自身的問題。但 AI 生成內(nèi)容的方便和快捷都讓內(nèi)容生產(chǎn)成本極大下降，好比現(xiàn)在就用自動(dòng)駕駛司機(jī)代替人類司機(jī)，這也意味著各種問題，比如更像真人的 AI 水軍將充斥社交媒體、AI 生成的虛假或偏見內(nèi)容隨處可見。

越來越多人已經(jīng)開始懷疑，社交媒體上的內(nèi)容到底是真人打出來的，還是由 ChatGPT 生成的文本。長期以往，社交媒體甚至整個(gè)互聯(lián)網(wǎng)上的內(nèi)容徹底被AI占領(lǐng)并非杞人憂天。

北京大學(xué)新聞與傳播學(xué)院教授胡泳發(fā)文還指出，「中文內(nèi)容寫作中本來就充滿洗稿，使用機(jī)器學(xué)習(xí)工具來生成內(nèi)容，將會(huì)使洗稿問題雪上加霜?！褂纱?，胡泳認(rèn)為與其用 AI 直接取代人類生產(chǎn)內(nèi)容，不如思考如何利用 AI 幫助人類的擴(kuò)大內(nèi)容生產(chǎn)能力。

在 ChatGPT 的對話熱潮中，我們也發(fā)現(xiàn)真正具體到內(nèi)容輸出，ChatGPT 盡管對自然語言的理解達(dá)到了足以稱道的程度，實(shí)際回答中仍然充斥著各種「廢話文學(xué)」和過時(shí)偏見信息，不過在協(xié)助內(nèi)容創(chuàng)作、成為人類寫作的助手方面就要好得多。

寫在最后

「人工智能之父」阿蘭·圖靈提出圖靈測試時(shí)，就把語言理解能力作為判斷一個(gè)機(jī)器系統(tǒng)有無智能的關(guān)鍵標(biāo)準(zhǔn)，自然語言理解也因此被認(rèn)為是人工智能皇冠上的明珠。

對中文來說尤為如此。過去我們在 AI 語音助手上就看到，現(xiàn)有語音助手對中文的理解能力很大程度上影響了用戶的語音交互體驗(yàn)，畢竟沒有人喜歡對牛彈琴。

圖/MSF Tech Day

但僅僅在過去一個(gè)月，阿里和騰訊 AI 在 CLUE 中文理解上接連超越人類成績，ChatGPT 更是至少在中日英三語上彰顯了驚人的語音理解能力。今年以來，AI 繪圖、AI 做視頻已經(jīng)接連挑戰(zhàn)了我們對 AI 的認(rèn)知。AI 對內(nèi)容產(chǎn)業(yè)的變革似乎近在咫尺了。

不過就像科幻小說《沙丘》中所寫的，AI 深度學(xué)習(xí)的訓(xùn)練模式?jīng)Q定了，「他們受到的訓(xùn)練是去相信，而不是去知道。信仰可以被操縱。只有知識是危險(xiǎn)的?！?/span>