目前,剽竊已經(jīng)是一個日益嚴(yán)重的問題。隨著數(shù)字化圖書館和互聯(lián)網(wǎng)的普及和迅速發(fā)展,大量的以數(shù)字形式存在的資源使剽竊變得更加容易,尤其是學(xué)生和學(xué)術(shù)研究人員,他們通過網(wǎng)絡(luò)搜索工具很容易就可以找到與課題研究相關(guān)的內(nèi)容??梢?,這些數(shù)字化信息給人們提供幫助的同時,也成為滋生剽竊行為的溫床。特別是近幾年來,抄襲、一稿多投等一系列的剽竊事件屢見報端,其問題的嚴(yán)重性越來越引起人們的重視。 2001年,據(jù)一份由美國學(xué)術(shù)信譽(Academic Integrity)研究機(jī)構(gòu)的Donald對來自美國25所學(xué)校的4500名學(xué)生的調(diào)研問卷統(tǒng)計:72%的學(xué)生承認(rèn)在寫作時有過一次或多次的抄襲行為;另外,97%的學(xué)生承認(rèn)在發(fā)表論文或?qū)懽鳂I(yè)時曾經(jīng)嘗試過抄襲;還有15%的學(xué)生承認(rèn)在發(fā)表論文時,部分章節(jié)來自學(xué)術(shù)刊物或者網(wǎng)站而不注明出處; 90%的學(xué)生承認(rèn)曾經(jīng)通過互聯(lián)網(wǎng)抄襲,當(dāng)然有些學(xué)生屬于認(rèn)識問題。 2004年,在中央廣播電視大學(xué)召開的開放教育試點集中實踐環(huán)節(jié)專題研討會上,陶水龍公布了法學(xué)、教育管理、行政管理三個專業(yè)(本科)審查判為抄襲的情況:法學(xué)專業(yè)畢業(yè)論文總數(shù)為812份,其中判為抄襲的為324份,平均抄襲率為40%,16家市州電大中超過平均數(shù)的有9家,其中比例最大的前三家分別為80%、75%、63%;教育管理專業(yè)畢業(yè)論文總數(shù)為466份,其中判為抄襲的為80份,平均抄襲率為17%,11家市州電大中超過平均數(shù)的有5家,其中比例最大的前三家分別為33%、30%、30%:行政管理專業(yè)畢業(yè)論文總數(shù)為107份,其中判為抄襲的為23份,平均抄襲率為21%,9家市州電大中超過平均數(shù)的有2家,其中比例最大的前三家分別為77%、47%、19%。 以上兩份材料表明,學(xué)生論文中的存在的抄襲情況也同樣十分嚴(yán)重,這些觸目驚心的數(shù)字已經(jīng)向我們敲響了警鐘。因此,要杜絕此類現(xiàn)象、凈化學(xué)術(shù)氛圍,除了要加強(qiáng)學(xué)生的教育、制定相應(yīng)的法律法規(guī)外,建立有效的抄襲識別系統(tǒng)已刻不容緩。 另外,本課題的研究在網(wǎng)上論文評價系統(tǒng)、教學(xué)資源庫建設(shè)、數(shù)字圖書館和搜索引擎領(lǐng)域等領(lǐng)域也具有一定的應(yīng)用價值: ①上論文評價系統(tǒng)為教師提供了一個學(xué)術(shù)交流、評比的平臺,通過這個平臺教師可以獲得專家對論文的指點。但由于上傳的論文量比較大,而且論文中可能存在抄襲現(xiàn)象,如果人工排查會費時、費力,因此在網(wǎng)上論文提交系統(tǒng)中加入抄襲識別功能,讓系統(tǒng)就能夠自動地完成甄別工作,就會節(jié)省專家們的工作量,同時也會提高評比工作的公正性與公平性。例如:論文檢測系統(tǒng) ②教學(xué)資源通過圖像、文字、聲音和視頻等多種表現(xiàn)形式,向?qū)W生提供了豐富的學(xué)習(xí)材料,激發(fā)了學(xué)生的學(xué)習(xí)興趣;同時,教師也可以利用資源讓教學(xué)變得更加生動。但是使用者在添加資源的時候,僅僅通過簡單的搜索,不可能避免重復(fù)資源的上傳,這樣就增加了資源庫的冗余,使資源庫變得不利于管理也不方便使用。因此,在資源庫中加入重復(fù)識別的功能也很有必要。 ③在數(shù)字圖書館中,材料一般都以數(shù)字形式存檔。但由于數(shù)字形式的文檔最容易被復(fù)制,所以經(jīng)常會出現(xiàn)論文剽竊進(jìn)而侵犯知識產(chǎn)權(quán)的問題。因此在數(shù)字圖書館中加入抄襲識別技術(shù),文檔入庫前首先檢查是否復(fù)制了庫中文檔的內(nèi)容、是否構(gòu)成剽竊,并將檢查結(jié)果通知給用戶。這樣就保護(hù)了信息提供者的知識產(chǎn)權(quán)又降低了系統(tǒng)的存儲開銷。 ④搜索引擎,目前隨著網(wǎng)絡(luò)資源的形式和內(nèi)容不斷膨脹,大量的重復(fù)、冗余信息也充斥其中,例如:相同內(nèi)容的文章大量出現(xiàn)在不同的博客、維客、論壇中,而搜索引擎只是返回與用戶查詢相關(guān)的結(jié)果,因而存在大量的重復(fù)。這顯然浪費網(wǎng)絡(luò)資源和檢索資源,同時也耗費提問者的精力。在搜索引擎中加入重復(fù)識別功能,可以實現(xiàn)網(wǎng)頁消重,進(jìn)一步提高了有效網(wǎng)頁的搜集速度。 此外,研究本課題還具有以下兩點學(xué)術(shù)意義: ①豐富信息檢索理論,本文的研究對信息檢索理論提出了新的挑戰(zhàn),拓寬了其研究范圍,豐富了信息檢索的理論和實踐。 ②端正學(xué)者研究態(tài)度,引導(dǎo)教師和學(xué)生們樹立正確的學(xué)術(shù)研究觀念。 |
|