提到語料庫,很多人腦中浮現(xiàn)出這樣的畫面—— 或者這樣的—— 但其實(shí),語料庫可以是我們做(語言)研究、學(xué)外語的好幫手。比如,你可以在某些語料庫查到最地道的英語表達(dá),也可以聽到世界各地的英語口音。 今天就為大家介紹9個語料庫網(wǎng)站—— 1. 語言結(jié)構(gòu)世界地圖集 Word Atlas of Language Structure 知道阿伯卡茨語有多少元音和輔音?波羅羅語的詞綴有幾種形態(tài)?恰卡通戈米斯特克語有幾種聲調(diào)? 想回答這些問題? 你需要的只是登陸這個名為The World Atlas of Language Structures Online(語言結(jié)構(gòu)世界地圖冊,簡稱WALS)的網(wǎng)站 這里有各類語言分布的詳細(xì)地圖,有對于世界上2600多種語言192個語言學(xué)特征的詳細(xì)記錄,非常適合語言愛好者。 嗯,媽媽再也不用擔(dān)心我被多語狂魔們實(shí)力嘲諷了,隨便選出一個語言了解一下,足以技驚四座! 詳細(xì)的使用指南以及更多精彩內(nèi)容,午餐早已備好,我不會這門語言,但我可以查到關(guān)于它的一切 | 語言學(xué)午餐 2. 語言口音檔案館 the Speech Accent Archive 大家學(xué)英語這么多年,基本上屬于身經(jīng)百戰(zhàn)了,哪個地方的英語口音沒聽過,什么純正倫敦音,印度咖喱腔,蘇格蘭懵逼腔,布魯克林街頭腔,那是如數(shù)家珍。 但是,你聽過剛果金非洲小哥的英語口語嘛?你了解玻利維亞大媽的英語口音嘛?喏,這個名為the Speech Accent Archive 的網(wǎng)站絕對可以滿足各位英語語音控的獵奇愿望。 該數(shù)據(jù)庫搜集了幾百名來自世界各地,不同民族語言背景的人們針對同一段文字的錄音資料,每段錄音都詳細(xì)記錄了音頻提供者的詳細(xì)背景資料,每段語音也很詳細(xì)的進(jìn)行了轉(zhuǎn)寫。 對于研究者來說,可視之為研究英語使用者發(fā)音特征的獨(dú)門利器;對普通人來說,則是一個了解各地英語口音的難得窗口。 3. 當(dāng)代美國英語語料庫 COCA 想知道某個單詞在新聞和小說中的使用有什么差異?英文寫作的時候想知道自己寫出來的英語搭配夠不夠地道?想知道背下多少單詞就可以流利閱讀各類小說報紙? 嗯,你需要的只是一個語料容量巨大的英語語料庫,COCA恰好可以滿足你的這些需求。 當(dāng)代美國英語語料庫(Corpus of Contemporary American English,簡稱COCA)是目前最大的免費(fèi)英語語料庫。 語料庫由包含4.5億詞的文本構(gòu)成,文本分為口語、小說、流行雜志、報紙以及學(xué)術(shù)文章五種不同的文體。單詞,短語,搭配,想搜什么搜什么,豐富的英語語料很適合英語學(xué)習(xí)者了解地道表達(dá)。 再一份詳細(xì)使用指南傾情奉上,走近COCA,在線語料庫的翹楚 | 語言學(xué)午餐(注:目前COCA界面和該文章寫成時稍有出入,但主要操作流程仍值得參考)。 4. 兒童語音語料庫 CHILDS 午餐君曾經(jīng)有過這么一個想法,將來如果成功升級為孩兒他爸,一定要把自己孩子學(xué)說話的過程進(jìn)行錄音,然后安心保存,處理,分析,說不定可以探究出語言習(xí)得的奧秘,然后提出理論,一戰(zhàn)封神,著書立說,設(shè)館招徒,麾下天啟四騎士,再然后成為頂級公知(喂喂喂!快醒醒!你個單身狗?。?/p> 不過話說回來,實(shí)際記錄兒童語言這個想法早就有學(xué)者付諸實(shí)踐了,他們還創(chuàng)立了一個規(guī)模龐大的兒童語音語料庫CHILDES(Child Language Data Exchange System)。 兒童語言數(shù)據(jù)交流系統(tǒng)是在兒童語言研究相關(guān)領(lǐng)域被最廣泛使用的語料庫,創(chuàng)立于上世紀(jì)八十年代,涵蓋了多門語言中兒童習(xí)得者的語音記錄。根據(jù)學(xué)者統(tǒng)計(jì),截至2000年,已有1000余項(xiàng)基于該語料庫的研究成果發(fā)表( MacWhinney 2000)。 在這里,你可以找到兒童語言習(xí)得過程的詳細(xì)音頻文件和轉(zhuǎn)寫文本,涉及的語言包括英語,德語,法語,日語,漢語,廣東話等等。錯過了記錄自己牙牙學(xué)語的軌跡,或許這個數(shù)據(jù)庫是一個不錯的彌補(bǔ)手段。 嗯,這個也有使用指南:一款超級強(qiáng)大的兒童語音語料庫 | 語言學(xué)午餐 5. 語言學(xué)數(shù)據(jù)聯(lián)盟 Linguistic Data Consortium 前不久AlphaGo席卷棋壇,人工智能再顯神威;提到語言學(xué)中的人工智能,大家第一反應(yīng)或許會是蘋果的語音助手Siri。 不過各位有沒有想過如果你有足夠的數(shù)據(jù)資料,輔以適當(dāng)?shù)乃惴?,做一個人工智能語言系統(tǒng)也許并不是那么困難,這不,Linguistic Data Consortium就為你提供了這種可能。 這個上世紀(jì)90年代初由賓夕法尼亞尼亞大學(xué)發(fā)起的數(shù)據(jù)共享平臺,目前已經(jīng)由上百所大學(xué)加盟,涵蓋幾百種語言數(shù)據(jù),包含英語,法語,西班牙語,漢語等十多種語言。 Siri之所以能夠神奇的聽懂使用者的命令,很大程度上得益于其背后強(qiáng)大的語音數(shù)據(jù)庫,而LDC的強(qiáng)大之處就在于它提供了大量的語音資源,口語對話,新聞廣播,電話對話等等。唯一有些傷感的是,這個數(shù)據(jù)庫并不是免費(fèi)的,不過也別氣餒,如果你有驚人的idea不妨嘗試申請一下LDC提供的研究獎勵金,這樣就可以繼續(xù)實(shí)現(xiàn)你的語言智能夢想了。 說了這么多,就差一個程序員了... 6. 北大&北語漢語語料庫 CCL and BCC 剛剛說了好多英語數(shù)據(jù)庫,我們再來聊聊漢語語料庫。 漢語語料庫里有兩個不得不說,一個是老牌勁旅,北京大學(xué)漢語語料庫(CCL);一個是后起之秀,北京語言大學(xué)漢語語料庫(BCC)。 兩個語料庫各有千秋,各有特點(diǎn),小編也不敢妄下評價,不過有一點(diǎn)是相同的,那就是兩個語料庫用來做漢語研究和日常搜索(比如教外國人漢語時找例句)都相當(dāng)不錯。 北京大學(xué)漢語語料庫是漢語研究中最主要的語言案例來源,每當(dāng)使用的時候,都可以自豪的說出自己使用的是專家同款語料庫,其語料編排得當(dāng),挑選細(xì)致,搜索方便,這些優(yōu)點(diǎn)都使得其廣為語言學(xué)眾所喜愛。北語漢語語料庫則擁有更多數(shù)據(jù)搜索功能,例如可以查看搜索詞的歷時詞頻變化,學(xué)生作文語料等等,語料容量更是達(dá)到了驚人的bilion級。 除了上述這些以外,語言學(xué)數(shù)據(jù)庫還有很多很多,比如一些強(qiáng)大的專業(yè)性語料庫,雙語平行語料庫,多模態(tài)語料庫,依存樹庫等等。 在文末午餐君再為各位附上兩個提供語料庫索引功能的網(wǎng)站: http://www./varieng/CoRD/corpora/corpusfinder 這個名為corpus finder的網(wǎng)站提供了近60種語料庫的資料信息和使用鏈接,感興趣的朋友不妨試試看。 http://www. 不少大學(xué)院系網(wǎng)站上也會提供大量的數(shù)據(jù)資源和相關(guān)指南,北京外國語大學(xué)語料庫團(tuán)隊(duì)的網(wǎng)站就是一個不錯的選擇,網(wǎng)站提供了大量語料庫相關(guān)資源,相比國外網(wǎng)站,其漢語數(shù)據(jù)也更豐富。 |
|