2018年末,基于英國諾丁漢特倫特大學(xué)的Andrew Dunn實(shí)驗(yàn)室網(wǎng)站,Open Science Club 團(tuán)隊(duì)系統(tǒng)整理了關(guān)于身體圖片、聲音及相關(guān)工具的材料合集,詳見身體圖片、聲音、工具及中文詞匯合集。加上Open Science之前的推文面孔材料和工具集合,心理學(xué)中可借鑒的49個(gè)面孔材料庫與20個(gè)工具集。兩次推文幾乎全面介紹了一個(gè)人從上到下(面孔到身體),從內(nèi)到外(聲音、圖片與視頻)的研究材料與工具。 本次推文在OSC團(tuán)隊(duì)的推文基礎(chǔ)上,詳細(xì)介紹目前已有的中文詞匯材料庫,以便相關(guān)領(lǐng)域的研究人員知曉并獲取實(shí)驗(yàn)材料。 1 中文詞頻表 詞頻是語言研究中最重要的變量。根據(jù)New、Brysbaert和其同事在英語、法語和荷蘭語的工作,2010年,華東師大蔡清教授建立了一個(gè)基于電影和電視字幕語料庫(4680萬字符,3350萬單詞)的詞頻和字頻數(shù)據(jù)庫。 該數(shù)據(jù)庫是第一個(gè)包含有關(guān)單詞上下文多樣性的信息,通過掃描以下二維碼或輸入鏈接即可免費(fèi)獲取SUBTLEX壓縮文件(內(nèi)含SUBTLEX-CH-WF, SUBTLEX-CH-CHR, SUBTLEX-CH-WF_PoS)。 網(wǎng)址:https:///10.1371/ journal.pone.0010729.s002 參考文獻(xiàn):Cai, Q., & Brysbaert, M. (2010). SUBTLEX-CH: Chinese word and character frequencies based on film subtitles. PloS one, 5(6), e10729. 2 漢字命名的心理語言學(xué)數(shù)據(jù)庫 研究者提供3314個(gè)傳統(tǒng)漢字的心理語言學(xué)數(shù)據(jù),收集了140名中國人的命名反應(yīng)時(shí)間(RTs)。 數(shù)據(jù)庫中的詞匯和語義變量包括頻率、規(guī)則性、熟悉度、一致性、筆畫數(shù)、同音異義度(homophone density)、語義歧義程度(semantic ambiguity rating)、語音組合能力(phonetic combinability)、語義組合能力(semantic combinability)以及由一個(gè)字符組成的雙音節(jié)復(fù)合詞的數(shù)量。 通過多元回歸分析,考察了這些變量對(duì)RTs命名的預(yù)測(cè)能力。結(jié)果表明,這些變量在RTs的命名中占了很大的比例(55.8%)。這個(gè)資料庫對(duì)于研究中文加工、中文教育或跨語言比較是非常有用的。 數(shù)據(jù)庫可以通過在線查詢系統(tǒng)訪問,掃描下列二維碼或輸入網(wǎng)址查看。 網(wǎng)址:http://ball.ling./ namingdatabase/index.html 參考文獻(xiàn):Chang, Y. N., Hsu, C. H., Tsai, J. L., Chen, C. L., & Lee, C. Y. (2016). A psycholinguistic database for traditional Chinese character naming. Behavior Research Methods, 48(1), 112-122. 3 中文情緒詞匯庫 該詞匯庫總共有1100個(gè)中文單詞,從效價(jià)、喚起度、具體性、熟悉度、形象度(imageability)和語境可用性評(píng)分。所有變量的評(píng)分均采用9分制李克特量表。 這一情緒詞匯數(shù)據(jù)庫將為利用漢語詞匯進(jìn)行情感研究提供有價(jià)值的信息來源,使研究人員能夠使用高度受控的漢語語言刺激,更可靠地研究認(rèn)知與情感之間的關(guān)系。 獲取材料二維碼或網(wǎng)址。 網(wǎng)址:https://static-content./ esm/art%3A10.3758%2Fs13428-016-0793-2/ MediaObjects/13428_2016_793_MOESM2_ESM.pdf 參考文獻(xiàn):Yao, Z., Wu, J., Zhang, Y., & Wang, Z. (2017). Norms of valence, arousal, concreteness, familiarity, imageability, and context availability for 1,100 Chinese words. Behavior research methods, 49(4), 1374-1385. 4 中文詞匯庫 中文詞匯庫(Chinese lexical database, CLD)是一個(gè)大型的簡(jiǎn)體中文詞匯庫。提供了3913個(gè)單字、34233個(gè)雙字詞、7143個(gè)三字及3355個(gè)四字詞的豐富詞匯資料。 對(duì)于CLD中的48644個(gè)單詞,研究者提供了廣泛的分類預(yù)測(cè)因子,包括頻率、復(fù)雜性、鄰近密度(neighborhood density)、正字法音系一致性(orthography-phonology consistency)和信息理論(information-theoretic)度量。 獲取材料二維碼或網(wǎng)址。 網(wǎng)址:https://static-content./ esm/art%3A10.3758%2Fs13428-018-1038-3/ MediaObjects/13428_2018_1038_MOESM1_ESM.txt 如果上述txt文件比較雜亂,也可以通過下面網(wǎng)址直接登錄該作者網(wǎng)站查詢,以及下載各種格式的CLD數(shù)據(jù)庫。 CLD在線查詢系統(tǒng),可以按照研究者需要進(jìn)行詞匯分類查找,目前包括以下13種分類:
詳情可掃描二維碼或登錄網(wǎng)址查看與操作。 網(wǎng)址:http://www. 參考文獻(xiàn):Sun, C. C., Hendrix, P., Ma, J., & Baayen, R. H. (2018). Chinese lexical database (CLD). Behavior research methods, 50(6), 2606-2629. 5 簡(jiǎn)體中文詞匯判斷數(shù)據(jù)庫 該數(shù)據(jù)庫包含1020個(gè)單字、1022個(gè)雙字、949個(gè)三字和587個(gè)四字簡(jiǎn)體中文單詞的詞匯判斷數(shù)據(jù)集(MELD-SCH)。 研究者發(fā)現(xiàn)單詞長(zhǎng)度與反應(yīng)時(shí)間之間的U形關(guān)系,這在中文中還沒有報(bào)道過。MELD-SCH能夠提供高質(zhì)量的規(guī)范數(shù)據(jù)和不同語言變量的信息,促進(jìn)漢語詞匯識(shí)別的研究。它還鼓勵(lì)研究人員將他們的實(shí)證發(fā)現(xiàn)(主要基于一個(gè)字符和兩個(gè)字符的單詞)擴(kuò)展到不同長(zhǎng)度的單詞。 相關(guān)材料掃描以下二維碼或登錄網(wǎng)址可見。 網(wǎng)址:https://static-content./ esm/art%3A10.3758%2Fs13428-017-0944-0/ MediaObjects/13428_2017_944_MOESM1_ESM.xlsx 參考文獻(xiàn):Tsang, Y. K., Huang, J., Lui, M., Xue, M., Chan, Y. W. F., Wang, S., & Chen, H. C. (2018). MELD-SCH: A megastudy of lexical decision in simplified Chinese. Behavior research methods, 50(5), 1763-1777. 6 漢字書寫的心理語言學(xué)數(shù)據(jù)庫 該研究建立了一個(gè)漢字書寫的心理語言學(xué)數(shù)據(jù)庫。該數(shù)據(jù)庫挑選出了1600個(gè)頻率分布廣泛的漢字,采用聽寫任務(wù),總共203名被試來書寫這些漢字,采集了被試的書寫潛伏期、書寫時(shí)長(zhǎng)、書寫正確率,并收集了1600漢字的14個(gè)詞匯變量。 研究結(jié)果發(fā)現(xiàn),字頻、習(xí)得年齡、語境是影響正字法通達(dá)、運(yùn)動(dòng)執(zhí)行和書寫正確率的共同因素;語音變量(是否為形聲字、規(guī)則性、同音字密度)影響正字法通達(dá),但不影響運(yùn)動(dòng)執(zhí)行;語義變量(表象性和具體性)只影響書寫正確率。研究結(jié)果對(duì)漢字書寫產(chǎn)生機(jī)制有著重要啟發(fā)。作為第一個(gè)大規(guī)模的漢字書寫的心理語言學(xué)數(shù)據(jù)庫,該數(shù)據(jù)庫可以作為二次數(shù)據(jù)分析的資源以及書寫實(shí)驗(yàn)材料制作的工具。 相關(guān)材料包括數(shù)據(jù)庫、代碼及論文可見OSF,掃描以下二維碼或登錄網(wǎng)址可見。 網(wǎng)址:https:///7s9kq/ 參考文獻(xiàn):Wang, R., Huang, S., Zhou, Y., & Cai, Z. G. (2019). Chinese character handwriting: A large-scale behavioral study and a database. Behavior research methods, 1-15. 7 詞語小世界 詞語聯(lián)想實(shí)驗(yàn)是一個(gè)大規(guī)模的科學(xué)研究。該網(wǎng)站研究者致力于構(gòu)建世界上主要語言的大腦詞庫,并普及這些信息。 與一般詞庫或者字典不同,詞語聯(lián)想詞庫幫助我們深入了解人腦中最重要的詞及其含義的構(gòu)成。心理學(xué)家、語言學(xué)家、神經(jīng)學(xué)家等其他領(lǐng)域的研究人員也可以利用詞語聯(lián)想詞庫檢驗(yàn)有關(guān)語言表達(dá)和語言處理的新理論。這些知識(shí)可以運(yùn)用于諸多領(lǐng)域,包括文化差異,母語或二語的新詞習(xí)得與忘記。 詳情請(qǐng)見原網(wǎng)址。 網(wǎng)址:https:/// zh/project/home 8 語料庫在線 該語料庫是教育部語言文字應(yīng)用研究所肖航教授建立的,網(wǎng)站提供在線現(xiàn)代漢語語料庫檢索、古代漢語語料庫檢索和語料庫字詞索引。 除此之外,提供了語料分析處理工具,如語料分詞和詞性標(biāo)注、語料漢語拼音自動(dòng)標(biāo)注和語料字詞頻率統(tǒng)計(jì)。 詳情可登錄原網(wǎng)頁查看并使用。 網(wǎng)址:http://corpus./ 9 CCL現(xiàn)代漢語語料庫 CCL漢語語料庫總字符數(shù)為783,463,175,其中現(xiàn)代漢語語料庫總字符數(shù)為581,794,456。 CCL語料庫及其檢索系統(tǒng)為純學(xué)術(shù)非盈利性質(zhì),語料庫中的中文文本未經(jīng)分詞處理,檢索系統(tǒng)以漢字為基本單位。主要功能特色在于:支持復(fù)雜檢索表達(dá)式(比如不相鄰關(guān)鍵詞查詢,指定距離查詢等等);支持對(duì)標(biāo)點(diǎn)符號(hào)的查詢(比如查詢“?”可以檢索語料庫中所有疑問句);支持在“結(jié)果集”中繼續(xù)檢索:用戶可定制查詢結(jié)果的顯示方式(如左右長(zhǎng)度,排序等);用戶可以從網(wǎng)頁上下載查詢結(jié)果(text文件)。 網(wǎng)址:http://ccl.pku.edu.cn:8080/ ccl_corpus/index.jsp?dir=xiandai 10 新詞語研究資源庫 由國家語言資源監(jiān)測(cè)與研究有聲媒體中心提供在線查詢1995年至2016漢語新詞語。 網(wǎng)址:http://ling./ newword/showcls2.aspx?classid=94 |
|