中文詞匯材料庫合集

鐘山紫竹林 2019-06-18

展開全文

2018年末，基于英國諾丁漢特倫特大學(xué)的Andrew Dunn實(shí)驗(yàn)室網(wǎng)站，Open Science Club 團(tuán)隊(duì)系統(tǒng)整理了關(guān)于身體圖片、聲音及相關(guān)工具的材料合集，詳見身體圖片、聲音、工具及中文詞匯合集。加上Open Science之前的推文面孔材料和工具集合，心理學(xué)中可借鑒的49個(gè)面孔材料庫與20個(gè)工具集。兩次推文幾乎全面介紹了一個(gè)人從上到下（面孔到身體），從內(nèi)到外（聲音、圖片與視頻）的研究材料與工具。

本次推文在OSC團(tuán)隊(duì)的推文基礎(chǔ)上，詳細(xì)介紹目前已有的中文詞匯材料庫，以便相關(guān)領(lǐng)域的研究人員知曉并獲取實(shí)驗(yàn)材料。

中文詞頻表

詞頻是語言研究中最重要的變量。根據(jù)New、Brysbaert和其同事在英語、法語和荷蘭語的工作，2010年，華東師大蔡清教授建立了一個(gè)基于電影和電視字幕語料庫（4680萬字符，3350萬單詞）的詞頻和字頻數(shù)據(jù)庫。

該數(shù)據(jù)庫是第一個(gè)包含有關(guān)單詞上下文多樣性的信息，通過掃描以下二維碼或輸入鏈接即可免費(fèi)獲取SUBTLEX壓縮文件（內(nèi)含SUBTLEX-CH-WF, SUBTLEX-CH-CHR, SUBTLEX-CH-WF_PoS)。

網(wǎng)址：https:///10.1371/

journal.pone.0010729.s002

參考文獻(xiàn)：Cai, Q., & Brysbaert, M. (2010). SUBTLEX-CH: Chinese word and character frequencies based on film subtitles. PloS one, 5(6), e10729.

漢字命名的心理語言學(xué)數(shù)據(jù)庫

研究者提供3314個(gè)傳統(tǒng)漢字的心理語言學(xué)數(shù)據(jù)，收集了140名中國人的命名反應(yīng)時(shí)間（RTs）。

數(shù)據(jù)庫中的詞匯和語義變量包括頻率、規(guī)則性、熟悉度、一致性、筆畫數(shù)、同音異義度（homophone density）、語義歧義程度（semantic ambiguity rating）、語音組合能力（phonetic combinability）、語義組合能力（semantic combinability）以及由一個(gè)字符組成的雙音節(jié)復(fù)合詞的數(shù)量。

通過多元回歸分析，考察了這些變量對(duì)RTs命名的預(yù)測(cè)能力。結(jié)果表明，這些變量在RTs的命名中占了很大的比例（55.8%）。這個(gè)資料庫對(duì)于研究中文加工、中文教育或跨語言比較是非常有用的。

數(shù)據(jù)庫可以通過在線查詢系統(tǒng)訪問，掃描下列二維碼或輸入網(wǎng)址查看。

網(wǎng)址：http://ball.ling./

namingdatabase/index.html

參考文獻(xiàn)：Chang, Y. N., Hsu, C. H., Tsai, J. L., Chen, C. L., & Lee, C. Y. (2016). A psycholinguistic database for traditional Chinese character naming. Behavior Research Methods, 48(1), 112-122.

中文情緒詞匯庫

該詞匯庫總共有1100個(gè)中文單詞，從效價(jià)、喚起度、具體性、熟悉度、形象度（imageability）和語境可用性評(píng)分。所有變量的評(píng)分均采用9分制李克特量表。

這一情緒詞匯數(shù)據(jù)庫將為利用漢語詞匯進(jìn)行情感研究提供有價(jià)值的信息來源，使研究人員能夠使用高度受控的漢語語言刺激，更可靠地研究認(rèn)知與情感之間的關(guān)系。

獲取材料二維碼或網(wǎng)址。

網(wǎng)址：https://static-content./

esm/art%3A10.3758%2Fs13428-016-0793-2/

MediaObjects/13428_2016_793_MOESM2_ESM.pdf

參考文獻(xiàn)：Yao, Z., Wu, J., Zhang, Y., & Wang, Z. (2017). Norms of valence, arousal, concreteness, familiarity, imageability, and context availability for 1,100 Chinese words. Behavior research methods, 49(4), 1374-1385.

中文詞匯庫

中文詞匯庫（Chinese lexical database, CLD）是一個(gè)大型的簡(jiǎn)體中文詞匯庫。提供了3913個(gè)單字、34233個(gè)雙字詞、7143個(gè)三字及3355個(gè)四字詞的豐富詞匯資料。

對(duì)于CLD中的48644個(gè)單詞，研究者提供了廣泛的分類預(yù)測(cè)因子，包括頻率、復(fù)雜性、鄰近密度（neighborhood density）、正字法音系一致性（orthography-phonology consistency）和信息理論（information-theoretic）度量。

獲取材料二維碼或網(wǎng)址。

網(wǎng)址：https://static-content./

esm/art%3A10.3758%2Fs13428-018-1038-3/

MediaObjects/13428_2018_1038_MOESM1_ESM.txt

如果上述txt文件比較雜亂，也可以通過下面網(wǎng)址直接登錄該作者網(wǎng)站查詢，以及下載各種格式的CLD數(shù)據(jù)庫。

CLD在線查詢系統(tǒng)，可以按照研究者需要進(jìn)行詞匯分類查找，目前包括以下13種分類：

1	Words and characters
2	Character structure and type
3	Pronunciation
4	Frequency
5	Family size and family frequency
6	Visual complexity
7	Neighborhood density
8	Semantic radical
9	Phonetic radical
10	Phonological frequency
11	Orthography-to-phonology consistency
12	Phonology-to-orthography consistency
13	Information-theoretic measures

詳情可掃描二維碼或登錄網(wǎng)址查看與操作。

網(wǎng)址：http://www.

參考文獻(xiàn)：Sun, C. C., Hendrix, P., Ma, J., & Baayen, R. H. (2018). Chinese lexical database (CLD). Behavior research methods, 50(6), 2606-2629.

簡(jiǎn)體中文詞匯判斷數(shù)據(jù)庫

該數(shù)據(jù)庫包含1020個(gè)單字、1022個(gè)雙字、949個(gè)三字和587個(gè)四字簡(jiǎn)體中文單詞的詞匯判斷數(shù)據(jù)集（MELD-SCH）。

研究者發(fā)現(xiàn)單詞長(zhǎng)度與反應(yīng)時(shí)間之間的U形關(guān)系，這在中文中還沒有報(bào)道過。MELD-SCH能夠提供高質(zhì)量的規(guī)范數(shù)據(jù)和不同語言變量的信息，促進(jìn)漢語詞匯識(shí)別的研究。它還鼓勵(lì)研究人員將他們的實(shí)證發(fā)現(xiàn)（主要基于一個(gè)字符和兩個(gè)字符的單詞）擴(kuò)展到不同長(zhǎng)度的單詞。

相關(guān)材料掃描以下二維碼或登錄網(wǎng)址可見。

網(wǎng)址：https://static-content./

esm/art%3A10.3758%2Fs13428-017-0944-0/

MediaObjects/13428_2017_944_MOESM1_ESM.xlsx

參考文獻(xiàn)：Tsang, Y. K., Huang, J., Lui, M., Xue, M., Chan, Y. W. F., Wang, S., & Chen, H. C. (2018). MELD-SCH: A megastudy of lexical decision in simplified Chinese. Behavior research methods, 50(5), 1763-1777.

漢字書寫的心理語言學(xué)數(shù)據(jù)庫

該研究建立了一個(gè)漢字書寫的心理語言學(xué)數(shù)據(jù)庫。該數(shù)據(jù)庫挑選出了1600個(gè)頻率分布廣泛的漢字，采用聽寫任務(wù)，總共203名被試來書寫這些漢字，采集了被試的書寫潛伏期、書寫時(shí)長(zhǎng)、書寫正確率，并收集了1600漢字的14個(gè)詞匯變量。

研究結(jié)果發(fā)現(xiàn)，字頻、習(xí)得年齡、語境是影響正字法通達(dá)、運(yùn)動(dòng)執(zhí)行和書寫正確率的共同因素；語音變量（是否為形聲字、規(guī)則性、同音字密度）影響正字法通達(dá)，但不影響運(yùn)動(dòng)執(zhí)行；語義變量（表象性和具體性）只影響書寫正確率。研究結(jié)果對(duì)漢字書寫產(chǎn)生機(jī)制有著重要啟發(fā)。作為第一個(gè)大規(guī)模的漢字書寫的心理語言學(xué)數(shù)據(jù)庫，該數(shù)據(jù)庫可以作為二次數(shù)據(jù)分析的資源以及書寫實(shí)驗(yàn)材料制作的工具。

相關(guān)材料包括數(shù)據(jù)庫、代碼及論文可見OSF，掃描以下二維碼或登錄網(wǎng)址可見。

網(wǎng)址：https:///7s9kq/

參考文獻(xiàn)：Wang, R., Huang, S., Zhou, Y., & Cai, Z. G. (2019). Chinese character handwriting: A large-scale behavioral study and a database. Behavior research methods, 1-15.

詞語小世界

詞語聯(lián)想實(shí)驗(yàn)是一個(gè)大規(guī)模的科學(xué)研究。該網(wǎng)站研究者致力于構(gòu)建世界上主要語言的大腦詞庫，并普及這些信息。

與一般詞庫或者字典不同，詞語聯(lián)想詞庫幫助我們深入了解人腦中最重要的詞及其含義的構(gòu)成。心理學(xué)家、語言學(xué)家、神經(jīng)學(xué)家等其他領(lǐng)域的研究人員也可以利用詞語聯(lián)想詞庫檢驗(yàn)有關(guān)語言表達(dá)和語言處理的新理論。這些知識(shí)可以運(yùn)用于諸多領(lǐng)域，包括文化差異，母語或二語的新詞習(xí)得與忘記。

詳情請(qǐng)見原網(wǎng)址。

網(wǎng)址：https:///

zh/project/home

語料庫在線

該語料庫是教育部語言文字應(yīng)用研究所肖航教授建立的，網(wǎng)站提供在線現(xiàn)代漢語語料庫檢索、古代漢語語料庫檢索和語料庫字詞索引。

除此之外，提供了語料分析處理工具，如語料分詞和詞性標(biāo)注、語料漢語拼音自動(dòng)標(biāo)注和語料字詞頻率統(tǒng)計(jì)。

詳情可登錄原網(wǎng)頁查看并使用。

網(wǎng)址：http://corpus./

CCL現(xiàn)代漢語語料庫

CCL漢語語料庫總字符數(shù)為783,463,175,其中現(xiàn)代漢語語料庫總字符數(shù)為581,794,456。

CCL語料庫及其檢索系統(tǒng)為純學(xué)術(shù)非盈利性質(zhì)，語料庫中的中文文本未經(jīng)分詞處理，檢索系統(tǒng)以漢字為基本單位。主要功能特色在于：支持復(fù)雜檢索表達(dá)式（比如不相鄰關(guān)鍵詞查詢，指定距離查詢等等）；支持對(duì)標(biāo)點(diǎn)符號(hào)的查詢（比如查詢“?”可以檢索語料庫中所有疑問句）；支持在“結(jié)果集”中繼續(xù)檢索：用戶可定制查詢結(jié)果的顯示方式（如左右長(zhǎng)度，排序等）；用戶可以從網(wǎng)頁上下載查詢結(jié)果（text文件）。

網(wǎng)址：http://ccl.pku.edu.cn:8080/

ccl_corpus/index.jsp?dir=xiandai

新詞語研究資源庫

由國家語言資源監(jiān)測(cè)與研究有聲媒體中心提供在線查詢1995年至2016漢語新詞語。

網(wǎng)址：http://ling./

newword/showcls2.aspx?classid=94

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：鐘山紫竹林 > 《語言》

舉報(bào)/認(rèn)領(lǐng)