如果收到大學錄取通知書后,你有一個長達8個月的假期,打算去做點什么? 去山區(qū)支教,當志愿者?跨上背包,來個“迷你版”的間隔年旅行?開啟學霸模式,在當?shù)卮髮W提前修兩門專業(yè)課? …… 有個叫Klio的姑娘。她幸運地提前8個月就拿到了美國名校Rice的錄取offer。 手握Rice CS 提前錄取offer,萌妹子Klio 竟然一天都沒有粗去浪,就提前開啟了自己的IT生涯。
從10年級到12年級,在準備留學的道路上踩過不少坑,上過幾回當,著實沒少走彎路。這個堅信技術能讓世界更美好的妹子,決定趁著去念大學前的閑工夫,為師弟師妹們做點什么。
在自己就讀的國際高中低年級蹲點了2周,聊(撩)過上百個師弟師妹后,Klio發(fā)現(xiàn):美本黨們全身上下都是痛點。 標準化考試 :趕上了2016的SAT改革,老題統(tǒng)統(tǒng)作廢,市面可用的參考資料屈指可數(shù)。 背景提升:百度一下,遍地都是推廣,然而真正有競爭力的好活動,可遇不可求。 申請文書:都說招生官總是“戀”上好essay,然而過來人一半以上沒躲過文書中介的坑。
面對全身都是痛點的吐槽,沒資源、沒背景、沒社會經驗的Klio覺得,自己最有發(fā)言權的還是標準化考試。
師弟師妹們感到前途迷茫...
于是,她決定幫大家研究一份應對改革后SAT的靠譜詞匯資料。 單詞這個東東,真真是簡單到不值一提,又復雜到一言難盡。 隨手搜搜百度文庫,京東當當書城,同類考試的單詞書多的讓人眼花繚亂。 然而,像新東方的紅寶書那樣經得起考驗的,卻又能有幾本? 面對一門考試,究竟要背哪些詞?確定了背誦范圍后,又要背這些單詞的哪些釋義?過來人Klio認為,解決好這兩個問題,備考效率將直線提高。 思路有了,具體要從何開始呢?
那么新SAT,Klio認為自然也要從官方材料入手。 不同的是,21世紀已經過去小20年了,新時代的騷年們,不需要用繩命數(shù)數(shù)了,因為他們會寫!代!碼!
統(tǒng)計結果不看不知道,一看嚇一跳,什么the,a, of,that,才是詞頻中的霸王詞...... 事實上,拿著手里跑出來的結果,Klio開始懷疑人生...... 比如,如何定義一個單詞的出現(xiàn)頻率?真的就是用程序數(shù)一遍它出現(xiàn)過的次數(shù)么?騷年,too simple too naive啦! 從跑出來的excel表中看到,很多單獨統(tǒng)計的單詞,其實來自于同一個詞的變形。比如,結果顯示excerpt共出現(xiàn)了3次,而excerpted出現(xiàn)了29次。事實上他倆說的是一個詞:excerpt,只不過在閱讀的斜體字中文章來源處,有大量的“this passage is excerpted from…”的表達,拉高了excepted的出現(xiàn)頻數(shù)。 沒錯,英語中有很多單詞都有不規(guī)則的變型詞,舉幾個初中階段的例子給你看: swim swum swimming forget forgot forgotten 那么諸如這樣的單詞,在做詞頻統(tǒng)計的時候,是算一個詞,還是算多個詞?統(tǒng)計詞頻,是合并?還是分開?如果要合并,技術上怎么操作?查閱了諸多語言學和技術文獻后,Klio終于找到了答案。 英美權威的語料庫在進行詞頻統(tǒng)計時,會根據(jù)詞性對變型詞進行詞頻的合并計數(shù)。 這就好比一個妹子,時而呈現(xiàn)小清新的畫風,時而呈現(xiàn)霸道總裁畫風,但無論風格怎樣多變,只要她出現(xiàn)在大party上的總次數(shù)足夠多,我們就認定她是一個social 女皇! 單詞也是一樣,你可以把變型詞看做一個站臺的家伙,但是不管怎么個變法,只要都還原成原型詞,算出總的出現(xiàn)概率,就能比較精確的判斷這個詞是否常見、??肌?/span> 因此,基于這樣一種統(tǒng)計的規(guī)則,單詞出現(xiàn)的頻次,是指把所有的變形都進行合并統(tǒng)計后的計數(shù)。 如果說當年的老俞是用生命數(shù)數(shù),那么Klio各種翻文獻,找語言學理論,找算法,則是用生命在思考了。 實現(xiàn)這個變型詞的合并統(tǒng)計,用到了一個超級有用的東東叫l(wèi)ist of lemma,對此,Klio表示還可以聊上三天三夜,此處省略一萬字… 本著這樣一個對單詞不同形態(tài)的統(tǒng)計原則,Klio代碼一寫呀,一張新SAT官方語料的單詞詞頻匯總excel表就出來了。 ▼ 有了全部新版SAT官方語料的單詞詞頻統(tǒng)計,是不是就大功告成了呢?
作為一個被老SAT批判性閱讀虐過的孩紙,Klio確定一定以及肯定,答案是:NO?。?! WHY? 簡單說來就是:考過的內容indicates了什么重要,但無法indicate什么不重要。換言之:考過的都是重點,然而目前還沒考過的,你判斷不出哪些同樣也是重點。 Klio當年參加中考時,全校童鞋都在刷一本書,叫《5年中考3年模擬》,據(jù)說...他們滴老師當年參加高考的時候,也刷過類似的書... 老師告訴他們,把連續(xù)多年的真題都刷一遍,你能掌握80%以上的出題要點,剩下的20%就看造化了。 這個邏輯解釋老SAT很說得通。把2005年以后的亞太北美全部考卷刷上幾遍,上了考場,那可真真是不會做題也會蒙... 但是改革后就不同了,官方資料太少,資料上有的,一定是重點,資料上沒的,也要去推測,哪些可能也是重點。 這樣的燒腦思考,正對了ITer們的口味。 Klio后半段的工作,focus在了“科學推斷”上。
所謂的學術單詞,就是無論是你學物理,還是學數(shù)學,學天文還是學歷史,都會在教材啊、paper啊,lecture啊,頻繁遇到的“萬金油”單詞。 比如,寫神馬論文都離不開literature review,那么review就是一個典型的academic word。 做物理化學生物醫(yī)學實驗,社科人文問卷調查,都要分析數(shù)據(jù),那么分析,analyse也是一個典型的academic word。 美國有一個超級強大的當代語料庫COCA,COCA基于上億語料,總結出了3000個核心的academic words,還計算了這些單詞在各類學科中出現(xiàn)頻率的分布。分布的越平均,越符合“學術單詞”的定義??粗嬎鉪ispersion的分類,history, humanity, literature, science, news等等,簡直跟新SAT的考察類別無縫對接,真的是要激動哭了。 所謂有人的地方就有江湖,除了COCA的核心3000,雅思里還有一份專門的學術詞表,叫AWL(academic word list),COCA還特別強調了自己與AWL的不同以及自己為何更流弊。 看著最最權威的白頭發(fā)老爺爺們互相掐,也是醉了。不過對于Klio而言,一切權威的學術詞表,都要拿來分析一下。 于是乎,結合英美最權威的AWL和COCA核心學術單詞表以及老SAT全部真題的詞頻統(tǒng)計(方法如上,Klio沒有直接拿市面出版的SAT單詞書做樣本,因為無法確定這些書收錄詞條的原則和算法??矗琑ice的人就是這么學術嚴謹),Klio開始做交叉分析,得到了4類單詞: 這樣,其實得到了4個單詞list,對應4類不同的背誦目標: 就這樣,耗時近2個月,Klio為師弟師妹們制作了一套“根紅苗正”的新SAT備考單詞表。 把這些單詞表導入歐路詞典,補充上Merriam-Webster和American Heritage Dictionary 里的中英文釋義、同義詞、例句。瞬間覺得,當年備考時買的那些SAT單詞書都弱爆了。 這2個月的時間,Klio過的和申請季一樣充實。沒有了對未來的不確定與焦慮,更坦然的投入到工作中去。 這中間,也有很多surprise嚇到了她自己。比如,那個“我是Rice ED生”的驕傲,在面對pdf無亂碼轉word的現(xiàn)實問題時,就被擊的灰飛煙滅。 其實,現(xiàn)實才是最好的老師,為了解決一個問題而行動,收獲往往意想不到。 搜學術期刊、找相關文獻、確定算法、驗證數(shù)據(jù)、交叉分析,Klio感覺自己提前8個月,就開啟了大學的學術生活。
掃掃下方二維碼 回復“SAT”獲得完整詞表 |
|
來自: 昵稱30276536 > 《English》