熱詞熱語怎么選拔
——“十大新詞語”“十大流行語”每年發(fā)布,許多人好奇 《2011年中國語言生活狀況報告》最近發(fā)布,傷不起、虎媽、淘寶體和另外7個詞,被宣布為“十大新詞語”,十二五開局、喬布斯、利比亞局勢等則是“十大流行語”…… 許多人好奇,這兩個“十大”到底是怎么“選拔”的?該不是一幫人圍一桌你一言我一語湊出來的吧?中國傳媒大學(xué)教授侯敏對此回應(yīng):怎么可能?這可是歷經(jīng)監(jiān)測、過濾、篩選、釋義等一整套程序,從每年10億字的語料中像沙里淘金那般“提煉”出來的。 沙里淘金,幾萬條中挑幾百個 侯敏教授有著另一個頭銜:國家語言資源監(jiān)測與研究中心有聲媒體語言分中心負(fù)責(zé)人。她介紹說,每年總量10億字的語料,取自平面媒體、有聲媒體和網(wǎng)絡(luò)媒體,并且逐年積累形成三大語料庫。 語料備齊,先要人工“淘洗”一番,查找補正漏字、缺字、亂碼等,而后一股腦兒送進(jìn)語言信息處理技術(shù)平臺,平臺上裝著全切分軟件、自動分詞軟件等。在電腦上輸入“我是學(xué)生”,立馬會被切分成我、是、學(xué)、生4個字與我、是、學(xué)生3個詞。 把語料統(tǒng)統(tǒng)切分成詞語之后,需借助軟件把它們跟此前幾年的詞語作比對,去舊留新,剩下來的就構(gòu)成了年度新詞語候選集——候選的詞語有多少?年均幾萬條。侯敏說,每年最終入圍的幾百個新詞語,就是從這幾萬條候選詞中遴選出來的。遴選完全由人工操作,選中的詞語還要逐條釋義,為此幾十名專家得集體工作兩個多月。 相比新詞語,流行語的“選拔”簡單些。利用電腦軟件,統(tǒng)計出每個詞在365天中的生命周期長短、出現(xiàn)頻次高低等指標(biāo),然后對比前一年數(shù)據(jù),使用頻率相仿的即刻淘汰,而一旦發(fā)現(xiàn)使用頻率“異峰突起”的,就留下。 “額的神啊”“吊絲”為啥沒選上 2011年度語言生活報告公布后,有人對那些熱詞、熱語有意見:“跟我們的感覺不一樣???”“有些用得很多的網(wǎng)言網(wǎng)語怎么沒入選,'額的神啊’在哪兒?”“今年2月,我們就2011年度的熱詞、熱語向網(wǎng)友征求意見時,就聽到了各種建議?!焙蠲艚淌谡f,網(wǎng)友們舉出了不少新鮮的網(wǎng)絡(luò)用詞,問報告中怎么不見蹤影?我跟他們解釋:網(wǎng)絡(luò)媒體語料庫在采集語料時以網(wǎng)站的新聞欄目為主,BBS論壇、網(wǎng)友留言與發(fā)帖不在其列,“'額的神啊’僅在論壇里熱度很高,所以'落選’了?!?/P> 今年,“吊絲”一詞的去留成了爭論最激烈的一個議題。經(jīng)過一應(yīng)前道工序,它也進(jìn)入了候選集,但專家們犯難:不選吧?確是新詞,征求意見時網(wǎng)友呼聲極高;選吧?這個詞品位不高,想準(zhǔn)確釋義更難?!拔覀冞x詞有標(biāo)準(zhǔn),得是新詞,得有一定使用頻率,得能反映當(dāng)今社會生活,還得'干凈’,要有一定品位。”
|
|
來自: 陽光妥妥 > 《默任文摘-哲思禪悟》