200字作文尋出8處錯誤 AI閱卷是否靠譜？

長慶wcqjs 2017-12-11

展開全文

近日，來自俄羅斯、韓國、贊比亞等國家的11位外國留學生完成了一份特別的中文試卷，之所以稱其特別，原因是這份中文試卷不是由老師批改，而是由AI進行評判。這批考生也成為了全球首批接受AI閱卷的學生。

200字作文尋出8處錯誤

考試前，老師給他們布置了一道作文題，名為“請寫一寫你的愛好”。半小時的寫作時間結束后，就輪到AI工作了。不過AI也不是直接就能對試卷進行評判，首先還是得先將試卷掃描，將掃描圖像轉化成文字之后顯示在電腦上，幾十秒不到，就見AI在一篇200字不到的作文里尋得了8個錯誤。
200字作文尋出8處錯誤 AI閱卷是否靠譜？

圖片源自微博

在這份作文里，我們可以看到，在“但中文的難點并非是字，而且像女朋友一樣善變”這句話中，AI將Redundant（多詞）標記在了“是”字下方，將Selection（錯詞）標記在了“而且”下方。此外，Missing（缺詞）和Word Order（語序錯誤）等錯誤，也被AI逐一標記在了文中對應位置。

據(jù)了解，這款AI來自阿里巴巴，將AI應用到外國人學中文試卷批改上，也是全球首例。在擁有評閱試卷的能力之前，這款AI需先經(jīng)歷大量的中文語言體系學習，通過掃描儀掃描完卷面信息，使用OCR技術將其轉換成文本之后，AI再通過自然語言處理算法對文章內(nèi)容進行分析，并識別出錯位類型和位置，最后批注在卷面上。從目前的測試情況來看，這款AI在準確率方面都接近甚至超越人類的水平。

AI閱卷是否靠譜？

通常，考試的試卷中都包含主觀題和客觀題兩部分。其中，AI參與客觀題的評判比較常見，客觀題一般都有標準答案，將考生的答案和事先存儲的標準答案進行比對，得出對錯，這是極其簡單的過程。

較高級的AI則可以在判斷對錯之后，對選項做出一定解釋，讓考生明白自己的選擇對錯及原因。除此之外，將所有考生的客觀題答案集合起來，對每道題目的得分率、各選項選擇率等進行綜合分析，則是更為高級的AI，這就涉及到數(shù)據(jù)分析的層面。

目前，用AI來評判客觀題正誤的模式，已被大多數(shù)人認可，一方面提高了閱卷效率，另一方面保證了閱卷質(zhì)量。那用AI來評判主觀題的好壞，又將如何？

某年高考的作文等級評分標準

主觀題是要靠人的思維發(fā)揮來答題，以作文題為例。上圖是小編選取了某年高考的作文等級評分標準。從上表可以看出，人們將作文等級從內(nèi)容、表達以及特征三個方面將其分為一、二、三、四等。但是小編認為，假如AI參與到此類作文的評判，也就在表達部分，能夠起到最為嚴謹公正的評判。

如上文提到的阿里AI，它就可以在文本結構、語句語病以及語言流暢度方面做出比較公正的評判，在字跡方面，也可以通過算法比對考生字跡和標準字體之間的相似度進行打分。盡管阿里AI已經(jīng)達到了很高的標準，但是小編還是找到了一處AI未能檢測出來的錯誤，在“然而，我的是不會放棄的”一句里，“的”字也應標注Selection（錯字）才對。這說明AI某些語句的理解上，仍然存在一定不足。

再者，中文博大精深，一句話甚至有多種不同的理解。如何判斷考生所寫的內(nèi)容是否符合題意，文章撰寫的是否有文采，對于AI來說或許都是個極大的挑戰(zhàn)。

其次，作文的核心是考生的表達思想，人類的感情是AI永遠學不會的。即便AI可以評判作文的文法對錯，但是它無法體會人類的喜怒哀樂，也就無法對文章內(nèi)容、感情進行評判。

正所謂“文無第一，武無第二”，文學創(chuàng)作本來就沒有統(tǒng)一標準。AI閱卷容易限制考生思維，讓原本能夠展現(xiàn)考生才華的作文變得千篇一律。在這一點上，人工閱卷反倒更能拿捏分寸。

也有人認為，AI閱卷的出現(xiàn)，給老師減少了不少負擔。與人工閱卷相比，AI超快的閱卷速度能夠提高評分效率，而且在面對作文這種主觀題上，也能夠施行統(tǒng)一的評判標準，有效避免因人工評卷主觀性因素產(chǎn)生的評分差異，使作文評分機制更加合理公正。

總之，新技術的出現(xiàn)總是爭議不止，一千個讀者眼中有一千個哈姆雷特，對于AI閱卷是否靠譜，你怎么看？