2月5日,全球訪問(wèn)Sci-Hub的網(wǎng)絡(luò)用戶。 Sci-Hub 上已經(jīng)涵蓋了全部學(xué)術(shù)論文的 69%,而剩下的 31% 并非是它不能下載,而是沒(méi)人對(duì)網(wǎng)站提出獲取它們請(qǐng)求——是人們不需要的內(nèi)容。 毫無(wú)疑問(wèn),著名的非法(根據(jù)美國(guó)法院的判決)盜版論文在線資料庫(kù) Sci-Hub是非常受歡迎的。但是它的資源庫(kù)到底有多大?最近,賓夕法尼亞大學(xué)的生物學(xué)家丹尼爾·希默斯坦(Daniel Himmelstein)和同事開始在科學(xué)研究中心的幫助下試圖找出這個(gè)問(wèn)題的答案。 他們的發(fā)現(xiàn)作為一篇預(yù)印本論文發(fā)表在7月20日在 Peer J 期刊的網(wǎng)站上。文章認(rèn)為,通過(guò)Sci-Hub 可以立即獲取全部學(xué)術(shù)論文中的三分之二,希默斯坦表示,這一數(shù)字比他的預(yù)期要高得多。此外,對(duì)于受付費(fèi)墻保護(hù)的研究論文,Sci-Hub 的覆蓋面更大,可以立即獲取在訂閱獲取期刊上發(fā)表的所有論文的 85%。對(duì)于一些大型出版商而言(如愛思維爾),其 97%以上的期刊文章目錄被存儲(chǔ)在 Sci-Hub 的服務(wù)器上,也就是說(shuō)可以免費(fèi)獲取這些文章。 Sci-Hub 幾乎可以訪問(wèn)科研人員想要閱讀的每一篇文章,并且對(duì)于該網(wǎng)站上沒(méi)有的文章也可以快速獲取,那么,這個(gè)網(wǎng)站真的可以推翻傳統(tǒng)的期刊出版商嗎? 希默斯坦接受 ScienceInsider 的采訪時(shí)推測(cè),他的研究結(jié)果表示,這可能標(biāo)志著付費(fèi)墻研究論文“終結(jié)階段的開始”。本文是這次訪談的簡(jiǎn)編。 問(wèn):您為什么要研究 Sci-Hub 的覆蓋面? 答:這一切開端是,3月19日 Sci-Hub 在推特上發(fā)布了其資源庫(kù)中所有文章的列表。我當(dāng)時(shí)一看:“這下我們可以研究很多之前無(wú)法研究的東西了,可以研究這個(gè)網(wǎng)站的運(yùn)營(yíng)情況和資源的覆蓋范圍。大多數(shù)人都知道 Sci-Hub 提供了一些學(xué)術(shù)文獻(xiàn)的獲取權(quán)限,但問(wèn)題是究竟有多少文章。 問(wèn):具體的計(jì)算過(guò)程是怎樣的? 答:我們的主要步驟是弄清楚現(xiàn)存的學(xué)術(shù)論文總數(shù)。為此,我們使用了 Crossref 的數(shù)據(jù),該數(shù)據(jù)庫(kù)具有日志標(biāo)識(shí)符或 DOI(數(shù)字對(duì)象標(biāo)識(shí)符)數(shù)據(jù)庫(kù)。這個(gè)數(shù)據(jù)庫(kù)不是唯一的,但是迄今為止最常用的學(xué)術(shù)出版數(shù)據(jù)庫(kù)。做了一些排除后,我們編制了一份包括8160萬(wàn)篇文章的清單。這一步很重要,因?yàn)檫@讓我們的計(jì)算方程有了分母。過(guò)去研究 Sci-Hub 覆蓋范圍的人并沒(méi)有采取這個(gè)正確的步驟,要搞清 Sci-Hub 的文獻(xiàn)覆蓋比例,需要先弄清文獻(xiàn)的總量。 問(wèn):您的研究的主要發(fā)現(xiàn)是什么? 答:最簡(jiǎn)單的結(jié)論是 Sci-Hub 上涵蓋了全部學(xué)術(shù)論文的69%。我們還發(fā)現(xiàn),該網(wǎng)站會(huì)優(yōu)先涵蓋封閉獲取期刊出版商和高影響力期刊的文章。我覺(jué)得很有意思的一點(diǎn)是,Sci-Hub 對(duì)愛斯維爾和美國(guó)化學(xué)學(xué)會(huì)的論文覆蓋率最高,這正是起訴 Sci-Hub 的兩家出版商。也許是因?yàn)橐庾R(shí)到自己的整個(gè)資源庫(kù)都在 Sci-Hu b的涵蓋范圍之內(nèi)。還有很多期刊上每一篇文章都能在 Sci-Hub 上獲得。 問(wèn):剩下的31%呢? 答:如果只是有一篇文章不在 Sci-Hub 的數(shù)據(jù)庫(kù)中,并不等于無(wú)法通過(guò) Sci-Hub 獲得這篇文章。我們估計(jì) Sci-Hub 能夠在99%的情況下完成獲取論文的請(qǐng)求,這表明它沒(méi)有涵蓋的31%的文章是人們不需要內(nèi)容,沒(méi)有提出獲取請(qǐng)求。 問(wèn):您是否研究了不同學(xué)科領(lǐng)域的涵蓋范圍變化情況? 答:是的。不同學(xué)科領(lǐng)域之間的覆蓋率有一些變化,但我認(rèn)為這個(gè)變化幅度可能不像人們過(guò)去猜測(cè)的那么大。論文覆蓋率最高的是化學(xué)學(xué)科,達(dá)到93%,而最低的計(jì)算機(jī)科學(xué)為76%。這個(gè)結(jié)果可能與這些領(lǐng)域內(nèi)論文發(fā)表活動(dòng)有關(guān)。我們發(fā)現(xiàn),封閉獲取期刊的覆蓋率比開放獲取期刊高。 問(wèn):Sci-Hub 面臨一些法律上的挑戰(zhàn),你認(rèn)為這些問(wèn)題會(huì)阻止它的發(fā)展嗎? 答:我們?cè)谶@篇論文中繪制了 Sci-Hub 與 Google 趨勢(shì)圖的歷史對(duì)比,Sci-Hub每次遭遇法律上的挑戰(zhàn),都導(dǎo)致對(duì)該網(wǎng)站的谷歌搜索量的飆升,這表明,這些挑戰(zhàn)基本上是為 Sci-Hub 做了免費(fèi)廣告。我認(rèn)為官司糾紛無(wú)法阻止 Sci-Hub 的發(fā)展。 問(wèn):你認(rèn)為 Sci-Hub 將來(lái)會(huì)如何發(fā)展? 答:在我們的論文中提到,未來(lái)的技術(shù)可以在不存在中心點(diǎn)故障的情況下為用戶提供文件托管服務(wù),所以,通過(guò) Sci-Hub 或與之類似的服務(wù)仍然可以訪問(wèn)所有這些論文,但這些服務(wù)的背后找不到某個(gè)特定的域或個(gè)人。而現(xiàn)在,如果 Sci-Hub 的服務(wù)器被發(fā)現(xiàn),它們可能會(huì)被緝獲并銷毀。 問(wèn):您真的認(rèn)為,將來(lái)會(huì)有圖書館員為 Sci-Hub 支付期刊獲取的費(fèi)用嗎? 答:由于指示他人做下不法行為會(huì)引發(fā)法律問(wèn)題,我認(rèn)為圖書館員永遠(yuǎn)不會(huì)這樣做。但在某種程度上,他們已經(jīng)在這樣做了?,F(xiàn)在有很多圖書館不能提供100%的學(xué)術(shù)文獻(xiàn)資料。在全球范圍內(nèi),能夠提供完全訪問(wèn)權(quán)限的大學(xué)所占的比例很小。 問(wèn):出版商要怎么辦,才可以阻止新的論文被添加到 Sci-Hub 的資源庫(kù)中? 答:確實(shí)可以采取一些辦法,但真的可能傷及自身。問(wèn)題是,出版商的態(tài)度越保守,合法獲取論文的難度就越大,而這會(huì)促使更多的人去使用 Sci-Hub。 問(wèn):您希望這項(xiàng)研究可以造成哪些影響? 答:我認(rèn)為這項(xiàng)研究展現(xiàn)的大局是,這是訂閱獲取學(xué)術(shù)出版走向終結(jié)的開端。我認(rèn)為訂閱獲取模式將不可避免地走向失敗,更多的開放模式的出現(xiàn)將成為必須之事。做這項(xiàng)研究的一個(gè)動(dòng)力是,我想促進(jìn)這一必須之事更快地成為現(xiàn)實(shí)。 原文鏈接: http://www./news/2017/07/sci-hub-s-cache-pirated-papers-so-big-subscription-journals-are-doomed-data-analyst |
|