文:Martha Henriques 試問,哪位歷史學(xué)家有時(shí)間閱讀跨越一個(gè)多世紀(jì)英國歷史的數(shù)千萬份報(bào)紙?沒人可以。所以,電腦科學(xué)家和歷史學(xué)家一起,教會(huì)了電腦做這件事——分析新聞報(bào)導(dǎo)中的數(shù)十億個(gè)詞,讓我們重新認(rèn)識(shí)19世紀(jì)到20世紀(jì)初的英國歷史。 這項(xiàng)研究發(fā)表在PNAS上(http://www./content/early/2017/01/03/1606380114),是對(duì)“文化組學(xué)”這一新興學(xué)科的實(shí)踐。 注:文化組學(xué)culturomics,指通過數(shù)位化文本的定量分析研究人類行為和文化趨勢(shì)的計(jì)算詞彙學(xué) 電腦分析了1800年至1950年間的3500萬份英國地區(qū)新聞報(bào)導(dǎo)中的286億詞彙,約占該時(shí)期英國地區(qū)報(bào)刊總量的14%。 作為對(duì)比,一個(gè)成年人的平均閱讀速度為大約每分鐘300字。按照這個(gè)速度,一個(gè)人需要整整180年來完成所有的閱讀。如果算上人類的休息時(shí)間,閱讀需要的時(shí)間就更長(zhǎng)了。而電腦演算法用大約8周完成了所有的工作,該專案研究員英國布裡斯托大學(xué)電腦科學(xué)家Nello Cristianini稱。 這項(xiàng)研究的第一步是人工檢查,以確保電腦可以從報(bào)紙中提取真實(shí)的歷史事件。檢查的內(nèi)容為電腦是否能準(zhǔn)確地找到諸如加冕,已知的疾病流行和戰(zhàn)爭(zhēng)等事件。 有趣的部分發(fā)生在下一步:研究電腦演算法是否可以找到歷史學(xué)家使用傳統(tǒng)方法不能找到的歷史事件。 “我們正在尋找一些不太明顯的歷史進(jìn)程——例如,技術(shù)的興起,”Cristianini說?!拔覀兛吹?900年左右,技術(shù)發(fā)生了變化。我們還能進(jìn)一步解讀更微妙的信號(hào):我們可以看到電報(bào),電話和廣播被公眾接受的速度有多快。這個(gè)速度在不斷加快。現(xiàn)在,人們接受Twitter或Facebook只需要一年?!?/p> 人工智慧分析不僅僅是簡(jiǎn)單的字?jǐn)?shù)統(tǒng)計(jì)(這是曾經(jīng)大量數(shù)位化文學(xué)研究的做法)。這一次,研究人員使用AI技術(shù),如自然語言處理,以獲得對(duì)上下文和文本含義的理解。你可以認(rèn)為它是終極的快速閱讀。 他們發(fā)現(xiàn)了什麼?這是AI眼中的英國歷史: 電力什麼時(shí)候趕超了蒸汽? 1898年。這一年,電在新聞中出現(xiàn)的頻率開始超過蒸汽,電能逐漸取代了蒸汽。 圖:20世紀(jì)來臨時(shí),電力取代了蒸汽(來源Nello Cristianini / PNAS)
火車什麼時(shí)候趕超了馬車? 僅僅四年後的1902年?;疖嚨臅r(shí)代開始於19世紀(jì)40年代,那時(shí)英國開始發(fā)展國家鐵路系統(tǒng)。但就新聞方面而言,火車在半個(gè)多世紀(jì)後才變得比馬車更重要。 圖:“鐵馬”(來源New York Public Library / Flickr) 人們什麼時(shí)候開始 不再討論奴隸制? 對(duì)奴隸制的報(bào)導(dǎo)高峰出現(xiàn)於1830-1870年廢奴運(yùn)動(dòng)時(shí)期和1861-1865年美國南北戰(zhàn)爭(zhēng)期間。1870年後,報(bào)紙幾乎不再提及奴隸制。 圖:1830年到1870年,奴隸制出現(xiàn)在新聞中(來源Nello Cristianini / PNAS) 記者什麼時(shí)候開始 報(bào)導(dǎo)婦女參政權(quán)運(yùn)動(dòng)? 1906年。一個(gè)戲劇性的報(bào)導(dǎo)高峰出現(xiàn)在1913年,在女性參政倡議者Emily Wilding Davison試圖在賽馬會(huì)上阻攔英國國王的馬之後。 圖:Emily Davison倒在英國國王的馬前,四天后她死於頭部創(chuàng)傷(來源Hulton Archive) 注:女權(quán)運(yùn)動(dòng)還有這段歷史!今天的一切來之不易??! 對(duì)他來說,成功只是一種習(xí)慣 女性什麼時(shí)候得到了 和男性相同數(shù)量的報(bào)導(dǎo)? 從來沒有過。20世紀(jì)開始,對(duì)女性的報(bào)導(dǎo)率有上升趨勢(shì),且在二戰(zhàn)時(shí)期突然增加。但在整個(gè)分析覆蓋的時(shí)期,新聞中每提到一個(gè)女性大約會(huì)提到三個(gè)男性。在21世紀(jì),這個(gè)數(shù)字更接近男女比2:1,但這種轉(zhuǎn)變並不大。 圖:戰(zhàn)爭(zhēng)時(shí)期,女性得到了更多的報(bào)導(dǎo)(來源Wikime)
勇氣什麼時(shí)候最重要? 毫不意外,在第一次和第二次世界大戰(zhàn)期間勇氣被提到最多。維多利亞時(shí)代的價(jià)值觀,例如毅力,在整個(gè)分析覆蓋時(shí)期表現(xiàn)出報(bào)導(dǎo)頻率的穩(wěn)步下降。但在戰(zhàn)爭(zhēng)年代,對(duì)耐力和勇氣等價(jià)值觀的報(bào)導(dǎo)出現(xiàn)了明顯的增加。
英國和英國人的概念 (Britishness)是何時(shí)出現(xiàn)的? 注:英國全稱為大不列顛及北愛爾蘭聯(lián)合王國United Kingdom of Great Britain and NorthernIreland。不列顛Britain/British是對(duì)英國和英國人的統(tǒng)稱,相較於對(duì)英國某部分的特指例如England/English是指英格蘭和英格蘭人,或Scotland/Scottish是指蘇格蘭和蘇格蘭人。 對(duì)“不列顛”的報(bào)導(dǎo)出現(xiàn)於20世紀(jì)早期,1900年左右出現(xiàn)第一個(gè)峰值,一戰(zhàn)和二戰(zhàn)期間出現(xiàn)了兩個(gè)更大的峰值。這個(gè)發(fā)現(xiàn)和很多歷史學(xué)家的觀點(diǎn)不同——很多歷史學(xué)家認(rèn)為“不列顛”在更早前就已經(jīng)是一個(gè)活躍的概念了。 圖:“不列顛”的概念在20世紀(jì)早期開始活躍,而傳統(tǒng)上,歷史學(xué)家認(rèn)為“不列顛”出現(xiàn)得更早(來源Nello Cristianini / PNAS)
經(jīng)濟(jì)什麼時(shí)候成為了口號(hào)? 與“經(jīng)濟(jì)”相比,“政治經(jīng)濟(jì)”一直是更為常用的術(shù)語,直到1900年左右,這兩個(gè)詞的用法變得更加模糊。20世紀(jì)初,這兩個(gè)術(shù)語在約十年間的使用頻率大致相似,之後,“經(jīng)濟(jì)”開始成為更受歡迎的用語,在幾個(gè)劇烈的峰值後使用頻率開始穩(wěn)步上升。 圖:“政治經(jīng)濟(jì)”的使用被“經(jīng)濟(jì)”取代(來源Nello Cristianini / PNAS) (Martha Henriques / 大數(shù)據(jù)文摘) 注:文章源自大數(shù)據(jù)文摘。點(diǎn)擊本頁左下角“閱讀原文”可以流覽原文頁。 |
|