編輯整理丨Blair
11月11日,由新學(xué)說主辦的“國際學(xué)校發(fā)展大會”(VIS)圓滿落幕。在以“國際學(xué)校質(zhì)量評估與保障”為主題的主會場上,北京大學(xué)中國教育財政科學(xué)研究所教育測量與評價中心主任黃曉婷以《學(xué)科素養(yǎng)測評的國際經(jīng)驗與發(fā)展趨勢》為題,發(fā)表了精彩演講,以下為精彩回顧:
北京大學(xué)中國教育財政科學(xué)研究所教育測量與評價中心主任黃曉婷
黃曉婷為美國加州大學(xué)伯克利分校教育學(xué)博士,現(xiàn)任北京大學(xué)中國教育財政科學(xué)研究所副研究員,教育評價中心主任,主要研究方向為測量學(xué)研究和其他量化研究。在此次演講中,黃曉婷對學(xué)科素養(yǎng)測評進行了深入的分析。
何為“素養(yǎng)”? OECD提出“素養(yǎng)” 的概念:“素養(yǎng)不僅是知識與技能。它是在具體情境中,通過利用和調(diào)動心理、社會資源(包括技能和態(tài)度),以滿足復(fù)雜需要的能力。
歐盟的核心素養(yǎng)框架 美國的核心素養(yǎng)模型 我國的核心素養(yǎng)框架 如何測評學(xué)生的學(xué)科素養(yǎng)?以PISA為例 PISA (Programme for International Student Assessment) 最廣泛的參與:到2015年,PISA已經(jīng)有70多個國家和地區(qū)參與,是國際上規(guī)模最大的標(biāo)準化考試。 測試對象:PISA不是按照年級抽樣,而是按照年齡抽樣,針對年齡15歲3個月到16歲2個月的學(xué)生。
PISA測試的3種學(xué)科素養(yǎng) 科學(xué)素養(yǎng):作為公民參與科技相關(guān)的事務(wù)的能力,解決社會生活中與科學(xué)技術(shù)相關(guān)問題,并有科學(xué)的意識,會科學(xué)反思。 閱讀素養(yǎng):為實現(xiàn)個人目標(biāo),發(fā)展個人的知識和潛能,有效地參與社會生活,而理解、運用和反思書面材料的能力。 數(shù)學(xué)素養(yǎng):人們在各種情境下提出數(shù)學(xué)問題、運用數(shù)學(xué)知識和解釋數(shù)學(xué)結(jié)果的能力,這些能力能夠幫助個體理解數(shù)學(xué)在社會生活中的作用,并且做出好的決策和判斷,成為一個具有建設(shè)性、 參與性、反思能力的公民。
PISA科學(xué)素養(yǎng)的測試框架 在社會生活背景下的科學(xué)能力、知識和態(tài)度 社會生活背景
三種能力(COMPETENCY) 第一,科學(xué)地解釋現(xiàn)象的能力;第二,設(shè)計和評估科學(xué)研究方法的能力,其中包括:找出要解決的問題是什么、甄別哪些問題可以用科學(xué)方法進行研究、提出合適的研究方法、評估當(dāng)前研究所用方法的科學(xué)性、解釋和評估當(dāng)前的研究是如何保證數(shù)據(jù)的信度、客觀性和結(jié)論的可推廣性;第三是解釋數(shù)據(jù)和論據(jù)的能力。
三種知識(KNOWLEDGE) 內(nèi)容(content):科學(xué)事實和理論 過程(procedural):科學(xué)研究的方法,特別是數(shù)據(jù)采集、分析、解讀 認知(epistemic):科學(xué)的認知方法,假設(shè)、觀察、模型、理論、事實 與科學(xué)相關(guān)的態(tài)度 1、調(diào)查學(xué)生對于以下三方面的態(tài)度:對科學(xué)技術(shù)的興趣、環(huán)境意識和對科學(xué)的研究方法的價值認同 2、通過問卷進行調(diào)查,結(jié)果不計入總分 3、部分國家出現(xiàn)能力高分,態(tài)度低分
基于“科學(xué)素養(yǎng)”框架的測試藍圖 PISA的命題和組卷過程 由專業(yè)命題人員和部分參與國的專家根據(jù)測試框架編題 1. 題目的總量約為實際測試的4倍 2. 第一輪審核修改(item paneling) 3. 小規(guī)模試測,測試后保留1/2左右在難度和內(nèi)容上符合要求的題目 4. 參與國家和地區(qū)進行翻譯、本土化 5. 通過第一輪試測的題目進行大規(guī)模試測,在所有參與的國家和地區(qū)抽樣1000名左右,依據(jù)這次試測數(shù)據(jù),技術(shù)試題的各項指數(shù),審核試題的國際可比性 6. 根據(jù)測試藍圖和試測結(jié)果,選擇內(nèi)容和難度適宜、具有國際可比性的性能良好的題目,組成最終測試的試卷
題本設(shè)計 題目多,但是測試時間有限。2015年之前,組成13個題本(testlet);2015年計算機考試,共產(chǎn)生396種組合。同時,為了實現(xiàn)不同題本間可比,每個題目均包含一定數(shù)量的與其他題目相同的題目,每個題本力求內(nèi)容、難度、性別和地域偏向的平衡。
測試結(jié)果分析 1、用項目反應(yīng)理論(item response theory)估算學(xué)生能力 2、為什么不使用原始分? 不同測試之間成績不可比
素養(yǎng)水平的等級劃分 分值的含義:通過試測數(shù)據(jù)分析和專家組對題目內(nèi)容的質(zhì)性分析,設(shè)定合格、優(yōu)秀的分數(shù)標(biāo)準和能力標(biāo)準。 例如,2015年,各國/地區(qū)平均約有7.7%的學(xué)生達到優(yōu)秀;新加坡的優(yōu)秀率為24.2%,臺灣15.4%,芬蘭14.3%。
追蹤學(xué)生素養(yǎng)的發(fā)展變化 1、IRT分值轉(zhuǎn)換到平均分為500,方差為100的標(biāo)準分 ·后期數(shù)據(jù)分析發(fā)現(xiàn),相差一個年級平均相差40分 2、跨年度等值 · 連續(xù)兩輪考試中,使用將近一半的共同題 · 使用IRT的等值方法 · 最后從IRT分值換算到標(biāo)準分
發(fā)展趨勢 首先,以“素養(yǎng)”為核心的質(zhì)量觀越來越深入人心;其次,除學(xué)科素養(yǎng)外,越來越多的研究者嘗試開發(fā)“跨學(xué)科素養(yǎng)的測試”;再次,測量理論(項目反應(yīng)理論,IRT)的應(yīng)用更為廣泛;最后,It技術(shù)、大數(shù)據(jù)與人工智能在“素養(yǎng)測評”中的應(yīng)用更為廣泛。
服務(wù)于學(xué)生發(fā)展的“素養(yǎng)”測評 1、認知理論方面的基礎(chǔ)研究還不足 2、需要與課程、教學(xué)緊密結(jié)合 3、更適合用作低厲害的發(fā)展性評估 |
|