抄襲論文檢測技術(shù)研究的意義

Me_萌兔兔 2012-11-29

展開全文

目前，剽竊已經(jīng)是一個日益嚴(yán)重的問題。隨著數(shù)字化圖書館和互聯(lián)網(wǎng)的普及和迅速發(fā)展，大量的以數(shù)字形式存在的資源使剽竊變得更加容易，尤其是學(xué)生和學(xué)術(shù)研究人員，他們通過網(wǎng)絡(luò)搜索工具很容易就可以找到與課題研究相關(guān)的內(nèi)容?？梢?，這些數(shù)字化信息給人們提供幫助的同時，也成為滋生剽竊行為的溫床。特別是近幾年來，抄襲、一稿多投等一系列的剽竊事件屢見報端，其問題的嚴(yán)重性越來越引起人們的重視。

2001年，據(jù)一份由美國學(xué)術(shù)信譽(Academic Integrity)研究機(jī)構(gòu)的Donald對來自美國25所學(xué)校的4500名學(xué)生的調(diào)研問卷統(tǒng)計：72％的學(xué)生承認(rèn)在寫作時有過一次或多次的抄襲行為；另外，97％的學(xué)生承認(rèn)在發(fā)表論文或?qū)懽鳂I(yè)時曾經(jīng)嘗試過抄襲；還有15％的學(xué)生承認(rèn)在發(fā)表論文時，部分章節(jié)來自學(xué)術(shù)刊物或者網(wǎng)站而不注明出處； 90％的學(xué)生承認(rèn)曾經(jīng)通過互聯(lián)網(wǎng)抄襲，當(dāng)然有些學(xué)生屬于認(rèn)識問題。

2004年，在中央廣播電視大學(xué)召開的開放教育試點集中實踐環(huán)節(jié)專題研討會上，陶水龍公布了法學(xué)、教育管理、行政管理三個專業(yè)(本科)審查判為抄襲的情況：法學(xué)專業(yè)畢業(yè)論文總數(shù)為812份，其中判為抄襲的為324份，平均抄襲率為40％，16家市州電大中超過平均數(shù)的有9家，其中比例最大的前三家分別為80％、75％、63％；教育管理專業(yè)畢業(yè)論文總數(shù)為466份，其中判為抄襲的為80份，平均抄襲率為17％，11家市州電大中超過平均數(shù)的有5家，其中比例最大的前三家分別為33％、30％、30％：行政管理專業(yè)畢業(yè)論文總數(shù)為107份，其中判為抄襲的為23份，平均抄襲率為21％，9家市州電大中超過平均數(shù)的有2家，其中比例最大的前三家分別為77％、47％、19％。

以上兩份材料表明，學(xué)生論文中的存在的抄襲情況也同樣十分嚴(yán)重，這些觸目驚心的數(shù)字已經(jīng)向我們敲響了警鐘。因此，要杜絕此類現(xiàn)象、凈化學(xué)術(shù)氛圍，除了要加強(qiáng)學(xué)生的教育、制定相應(yīng)的法律法規(guī)外，建立有效的抄襲識別系統(tǒng)已刻不容緩。

另外，本課題的研究在網(wǎng)上論文評價系統(tǒng)、教學(xué)資源庫建設(shè)、數(shù)字圖書館和搜索引擎領(lǐng)域等領(lǐng)域也具有一定的應(yīng)用價值：

①上論文評價系統(tǒng)為教師提供了一個學(xué)術(shù)交流、評比的平臺，通過這個平臺教師可以獲得專家對論文的指點。但由于上傳的論文量比較大，而且論文中可能存在抄襲現(xiàn)象，如果人工排查會費時、費力，因此在網(wǎng)上論文提交系統(tǒng)中加入抄襲識別功能，讓系統(tǒng)就能夠自動地完成甄別工作，就會節(jié)省專家們的工作量，同時也會提高評比工作的公正性與公平性。例如：論文檢測系統(tǒng)

②教學(xué)資源通過圖像、文字、聲音和視頻等多種表現(xiàn)形式，向?qū)W生提供了豐富的學(xué)習(xí)材料，激發(fā)了學(xué)生的學(xué)習(xí)興趣；同時，教師也可以利用資源讓教學(xué)變得更加生動。但是使用者在添加資源的時候，僅僅通過簡單的搜索，不可能避免重復(fù)資源的上傳，這樣就增加了資源庫的冗余，使資源庫變得不利于管理也不方便使用。因此，在資源庫中加入重復(fù)識別的功能也很有必要。

③在數(shù)字圖書館中，材料一般都以數(shù)字形式存檔。但由于數(shù)字形式的文檔最容易被復(fù)制，所以經(jīng)常會出現(xiàn)論文剽竊進(jìn)而侵犯知識產(chǎn)權(quán)的問題。因此在數(shù)字圖書館中加入抄襲識別技術(shù)，文檔入庫前首先檢查是否復(fù)制了庫中文檔的內(nèi)容、是否構(gòu)成剽竊，并將檢查結(jié)果通知給用戶。這樣就保護(hù)了信息提供者的知識產(chǎn)權(quán)又降低了系統(tǒng)的存儲開銷。

④搜索引擎，目前隨著網(wǎng)絡(luò)資源的形式和內(nèi)容不斷膨脹，大量的重復(fù)、冗余信息也充斥其中，例如：相同內(nèi)容的文章大量出現(xiàn)在不同的博客、維客、論壇中，而搜索引擎只是返回與用戶查詢相關(guān)的結(jié)果，因而存在大量的重復(fù)。這顯然浪費網(wǎng)絡(luò)資源和檢索資源，同時也耗費提問者的精力。在搜索引擎中加入重復(fù)識別功能，可以實現(xiàn)網(wǎng)頁消重，進(jìn)一步提高了有效網(wǎng)頁的搜集速度。

此外，研究本課題還具有以下兩點學(xué)術(shù)意義：

①豐富信息檢索理論，本文的研究對信息檢索理論提出了新的挑戰(zhàn)，拓寬了其研究范圍，豐富了信息檢索的理論和實踐。

②端正學(xué)者研究態(tài)度，引導(dǎo)教師和學(xué)生們樹立正確的學(xué)術(shù)研究觀念。