近日,來自俄羅斯、韓國、贊比亞等國家的11位外國留學生完成了一份特別的中文試卷,之所以稱其特別,原因是這份中文試卷不是由老師批改,而是由AI進行評判。這批考生也成為了全球首批接受AI閱卷的學生。 200字作文尋出8處錯誤考試前,老師給他們布置了一道作文題,名為“請寫一寫你的愛好”。半小時的寫作時間結束后,就輪到AI工作了。不過AI也不是直接就能對試卷進行評判,首先還是得先將試卷掃描,將掃描圖像轉化成文字之后顯示在電腦上,幾十秒不到,就見AI在一篇200字不到的作文里尋得了8個錯誤。
在這份作文里,我們可以看到,在“但中文的難點并非是字,而且像女朋友一樣善變”這句話中,AI將Redundant(多詞)標記在了“是”字下方,將Selection(錯詞)標記在了“而且”下方。此外,Missing(缺詞)和Word Order(語序錯誤)等錯誤,也被AI逐一標記在了文中對應位置。 據(jù)了解,這款AI來自阿里巴巴,將AI應用到外國人學中文試卷批改上,也是全球首例。在擁有評閱試卷的能力之前,這款AI需先經(jīng)歷大量的中文語言體系學習,通過掃描儀掃描完卷面信息,使用OCR技術將其轉換成文本之后,AI再通過自然語言處理算法對文章內(nèi)容進行分析,并識別出錯位類型和位置,最后批注在卷面上。從目前的測試情況來看,這款AI在準確率方面都接近甚至超越人類的水平。 AI閱卷是否靠譜?通常,考試的試卷中都包含主觀題和客觀題兩部分。其中,AI參與客觀題的評判比較常見,客觀題一般都有標準答案,將考生的答案和事先存儲的標準答案進行比對,得出對錯,這是極其簡單的過程。 較高級的AI則可以在判斷對錯之后,對選項做出一定解釋,讓考生明白自己的選擇對錯及原因。除此之外,將所有考生的客觀題答案集合起來,對每道題目的得分率、各選項選擇率等進行綜合分析,則是更為高級的AI,這就涉及到數(shù)據(jù)分析的層面。 目前,用AI來評判客觀題正誤的模式,已被大多數(shù)人認可,一方面提高了閱卷效率,另一方面保證了閱卷質(zhì)量。那用AI來評判主觀題的好壞,又將如何?
主觀題是要靠人的思維發(fā)揮來答題,以作文題為例。上圖是小編選取了某年高考的作文等級評分標準。從上表可以看出,人們將作文等級從內(nèi)容、表達以及特征三個方面將其分為一、二、三、四等。但是小編認為,假如AI參與到此類作文的評判,也就在表達部分,能夠起到最為嚴謹公正的評判。 如上文提到的阿里AI,它就可以在文本結構、語句語病以及語言流暢度方面做出比較公正的評判,在字跡方面,也可以通過算法比對考生字跡和標準字體之間的相似度進行打分。盡管阿里AI已經(jīng)達到了很高的標準,但是小編還是找到了一處AI未能檢測出來的錯誤,在“然而,我的是不會放棄的”一句里,“的”字也應標注Selection(錯字)才對。這說明AI某些語句的理解上,仍然存在一定不足。 再者,中文博大精深,一句話甚至有多種不同的理解。如何判斷考生所寫的內(nèi)容是否符合題意,文章撰寫的是否有文采,對于AI來說或許都是個極大的挑戰(zhàn)。 其次,作文的核心是考生的表達思想,人類的感情是AI永遠學不會的。即便AI可以評判作文的文法對錯,但是它無法體會人類的喜怒哀樂,也就無法對文章內(nèi)容、感情進行評判。 正所謂“文無第一,武無第二”,文學創(chuàng)作本來就沒有統(tǒng)一標準。AI閱卷容易限制考生思維,讓原本能夠展現(xiàn)考生才華的作文變得千篇一律。在這一點上,人工閱卷反倒更能拿捏分寸。 也有人認為,AI閱卷的出現(xiàn),給老師減少了不少負擔。與人工閱卷相比,AI超快的閱卷速度能夠提高評分效率,而且在面對作文這種主觀題上,也能夠施行統(tǒng)一的評判標準,有效避免因人工評卷主觀性因素產(chǎn)生的評分差異,使作文評分機制更加合理公正。 總之,新技術的出現(xiàn)總是爭議不止,一千個讀者眼中有一千個哈姆雷特,對于AI閱卷是否靠譜,你怎么看? |
|