學(xué)科素養(yǎng)測評如何為學(xué)生發(fā)展提供驅(qū)動力？

vivi只這心 2019-01-07

展開全文

編輯整理丨Blair

11月11日，由新學(xué)說主辦的“國際學(xué)校發(fā)展大會”（VIS）圓滿落幕。在以“國際學(xué)校質(zhì)量評估與保障”為主題的主會場上，北京大學(xué)中國教育財政科學(xué)研究所教育測量與評價中心主任黃曉婷以《學(xué)科素養(yǎng)測評的國際經(jīng)驗與發(fā)展趨勢》為題，發(fā)表了精彩演講，以下為精彩回顧：

北京大學(xué)中國教育財政科學(xué)研究所教育測量與評價中心主任黃曉婷

黃曉婷為美國加州大學(xué)伯克利分校教育學(xué)博士，現(xiàn)任北京大學(xué)中國教育財政科學(xué)研究所副研究員，教育評價中心主任，主要研究方向為測量學(xué)研究和其他量化研究。在此次演講中，黃曉婷對學(xué)科素養(yǎng)測評進行了深入的分析。

何為“素養(yǎng)”？

OECD提出“素養(yǎng)” 的概念：“素養(yǎng)不僅是知識與技能。它是在具體情境中，通過利用和調(diào)動心理、社會資源（包括技能和態(tài)度），以滿足復(fù)雜需要的能力。

歐盟的核心素養(yǎng)框架

美國的核心素養(yǎng)模型

我國的核心素養(yǎng)框架

如何測評學(xué)生的學(xué)科素養(yǎng)？以PISA為例

PISA (Programme for International Student Assessment)

最廣泛的參與：到2015年，PISA已經(jīng)有70多個國家和地區(qū)參與，是國際上規(guī)模最大的標(biāo)準化考試。

測試對象：PISA不是按照年級抽樣，而是按照年齡抽樣，針對年齡15歲3個月到16歲2個月的學(xué)生。

PISA測試的3種學(xué)科素養(yǎng)

科學(xué)素養(yǎng)：作為公民參與科技相關(guān)的事務(wù)的能力，解決社會生活中與科學(xué)技術(shù)相關(guān)問題，并有科學(xué)的意識，會科學(xué)反思。

閱讀素養(yǎng)：為實現(xiàn)個人目標(biāo)，發(fā)展個人的知識和潛能，有效地參與社會生活，而理解、運用和反思書面材料的能力。

數(shù)學(xué)素養(yǎng)：人們在各種情境下提出數(shù)學(xué)問題、運用數(shù)學(xué)知識和解釋數(shù)學(xué)結(jié)果的能力，這些能力能夠幫助個體理解數(shù)學(xué)在社會生活中的作用，并且做出好的決策和判斷，成為一個具有建設(shè)性、參與性、反思能力的公民。

PISA科學(xué)素養(yǎng)的測試框架

在社會生活背景下的科學(xué)能力、知識和態(tài)度

社會生活背景

三種能力（COMPETENCY）

第一，科學(xué)地解釋現(xiàn)象的能力；第二，設(shè)計和評估科學(xué)研究方法的能力，其中包括：找出要解決的問題是什么、甄別哪些問題可以用科學(xué)方法進行研究、提出合適的研究方法、評估當(dāng)前研究所用方法的科學(xué)性、解釋和評估當(dāng)前的研究是如何保證數(shù)據(jù)的信度、客觀性和結(jié)論的可推廣性；第三是解釋數(shù)據(jù)和論據(jù)的能力。

三種知識（KNOWLEDGE）

內(nèi)容（content）：科學(xué)事實和理論

過程（procedural）：科學(xué)研究的方法，特別是數(shù)據(jù)采集、分析、解讀

認知（epistemic）：科學(xué)的認知方法，假設(shè)、觀察、模型、理論、事實

與科學(xué)相關(guān)的態(tài)度

1、調(diào)查學(xué)生對于以下三方面的態(tài)度：對科學(xué)技術(shù)的興趣、環(huán)境意識和對科學(xué)的研究方法的價值認同

2、通過問卷進行調(diào)查，結(jié)果不計入總分

3、部分國家出現(xiàn)能力高分，態(tài)度低分

基于“科學(xué)素養(yǎng)”框架的測試藍圖

PISA的命題和組卷過程

由專業(yè)命題人員和部分參與國的專家根據(jù)測試框架編題

1. 題目的總量約為實際測試的4倍

2. 第一輪審核修改（item paneling)

3. 小規(guī)模試測，測試后保留1/2左右在難度和內(nèi)容上符合要求的題目

4. 參與國家和地區(qū)進行翻譯、本土化

5. 通過第一輪試測的題目進行大規(guī)模試測，在所有參與的國家和地區(qū)抽樣1000名左右，依據(jù)這次試測數(shù)據(jù)，技術(shù)試題的各項指數(shù)，審核試題的國際可比性

6. 根據(jù)測試藍圖和試測結(jié)果，選擇內(nèi)容和難度適宜、具有國際可比性的性能良好的題目，組成最終測試的試卷

題本設(shè)計

題目多，但是測試時間有限。2015年之前，組成13個題本（testlet)；2015年計算機考試，共產(chǎn)生396種組合。同時，為了實現(xiàn)不同題本間可比，每個題目均包含一定數(shù)量的與其他題目相同的題目，每個題本力求內(nèi)容、難度、性別和地域偏向的平衡。

測試結(jié)果分析

1、用項目反應(yīng)理論(item response theory)估算學(xué)生能力

2、為什么不使用原始分？不同測試之間成績不可比

素養(yǎng)水平的等級劃分

分值的含義：通過試測數(shù)據(jù)分析和專家組對題目內(nèi)容的質(zhì)性分析，設(shè)定合格、優(yōu)秀的分數(shù)標(biāo)準和能力標(biāo)準。

例如，2015年，各國/地區(qū)平均約有7.7%的學(xué)生達到優(yōu)秀；新加坡的優(yōu)秀率為24.2%，臺灣15.4%，芬蘭14.3%。

追蹤學(xué)生素養(yǎng)的發(fā)展變化

1、IRT分值轉(zhuǎn)換到平均分為500，方差為100的標(biāo)準分

·后期數(shù)據(jù)分析發(fā)現(xiàn)，相差一個年級平均相差40分

2、跨年度等值

· 連續(xù)兩輪考試中，使用將近一半的共同題

· 使用IRT的等值方法

· 最后從IRT分值換算到標(biāo)準分

發(fā)展趨勢

首先，以“素養(yǎng)”為核心的質(zhì)量觀越來越深入人心；其次，除學(xué)科素養(yǎng)外，越來越多的研究者嘗試開發(fā)“跨學(xué)科素養(yǎng)的測試”；再次，測量理論（項目反應(yīng)理論，IRT）的應(yīng)用更為廣泛；最后，It技術(shù)、大數(shù)據(jù)與人工智能在“素養(yǎng)測評”中的應(yīng)用更為廣泛。

服務(wù)于學(xué)生發(fā)展的“素養(yǎng)”測評

1、認知理論方面的基礎(chǔ)研究還不足

2、需要與課程、教學(xué)緊密結(jié)合

3、更適合用作低厲害的發(fā)展性評估