2020年,國務(wù)院印發(fā)的《深化新時代教育評價改革總體方案》明確提出,到2035年,基本形成富有時代特征、彰顯中國特色、體現(xiàn)世界水平的教育評價體系。黨的二十大報告也強調(diào),“完善學校治理和教育評價體系”。在評價改革過程中,遇到“改革高原”的時候,怎么辦?有一個思路是,堅持“教育要面向現(xiàn)代化、面向世界、面向未來”,“堅持對外開放的基本國策”,堅持“高水平對外開放”,“拓展世界眼光,深刻洞察人類發(fā)展進步的潮流……以海納百川的寬闊胸襟,借鑒吸收人類一切優(yōu)秀文明成果”,在此基礎(chǔ)上形成中國式現(xiàn)代化,實現(xiàn)中華民族偉大復興,推動建設(shè)更加美好的世界。在這樣的思想指引下,我研究了全球關(guān)于基礎(chǔ)教育評價的前沿研究,包括來自聯(lián)合國、世界銀行、經(jīng)濟合作發(fā)展組織以及歐盟、東盟等發(fā)達國家的文獻報告。這些報告呈現(xiàn)了基礎(chǔ)教育評價改革的六大趨勢,我們可以從中汲取營養(yǎng),以促進中國式教育評價體系的建立,牽引基礎(chǔ)教育的高質(zhì)量發(fā)展。 從一次性、單向性的評價 轉(zhuǎn)變?yōu)槌掷m(xù)性、綜合性的監(jiān)測 過去,我們對學生、教師和學校的評價,往往是單項評價?,F(xiàn)在,迎來了大的轉(zhuǎn)向。轉(zhuǎn)向的標志性成果是,2002年聯(lián)合國教科文組織開始聘請第三方監(jiān)測各國教育發(fā)展概況,每年發(fā)布監(jiān)測評價報告。而且,檢測與評價不是分開的兩個詞,而是合成的一個新詞叫M&E(monitor & evaluation)。評價具有滯后性,總是事后去檢查。但對教育來說,滯后性往往是致命的。生命只有一次,滯后不僅意味著浪費金錢和人力,也可能導致浪費孩子們的生命;對國家和社會來說,也可能導致浪費潛在的人才。比如,一個玩沙子的孩子組織能力很強,將來可能當將軍,結(jié)果老師說孩子太皮了,也許就抹殺了孩子的天性,未來也少了一位將軍。因此,人們開始考慮另外一種方向。那么,什么是監(jiān)測呢?有學者在2001年指出,監(jiān)測是一種具有內(nèi)在動機且精心設(shè)計的評價活動,旨在對一個項目持續(xù)提供多側(cè)面的信息反饋,從而發(fā)現(xiàn)實施過程中的問題和實施的效率效益。什么又是教育監(jiān)測?它是一種教育評估,但監(jiān)測的是教育事業(yè)或教育項目,在其實施過程中進行。它通過在第一時間向決策者和實施者提供早期、具體、多維的操作和信息,不斷修正偏差,以完善教育目標與方案、調(diào)整過程與配置、選擇適恰的教學方法技術(shù),從而確保既定教育目標的實現(xiàn)。我覺得,這是教育評價應該有的方向。 正因如此,聯(lián)合國教科文組織從2002年起,每年既有總體性的評價,又有重點項的監(jiān)測內(nèi)容。比如2003年,基于數(shù)字化盛行的時代背景,將“數(shù)字化轉(zhuǎn)型監(jiān)測”定為報告主題,并監(jiān)測各個國家的實施情況。OECD的PISA三年一次,可以監(jiān)測每個國家在完成義務(wù)教育階段時的學生發(fā)展水平和政策導向。英國教育質(zhì)量標準局對學校的評估和監(jiān)測,分為“優(yōu)秀、比較好、一般、需改進”四個層次。越優(yōu)秀的學校,監(jiān)測的間隔時間越長,可能四年到校監(jiān)測一次,每年學校僅提供自評報告給質(zhì)量標準局;有問題、需改善的學校,則每年參與兩次評審,不斷監(jiān)控學校發(fā)展過程。因為上海參加了PISA,同時結(jié)合本地需求,我們設(shè)計了《上海市義務(wù)教育階段學生學業(yè)質(zhì)量綠色指標體系》。評估每兩三年舉行一次,包含學業(yè)成績、學習動力、學生負擔、教學方式、體質(zhì)健康、師生關(guān)系等。下圖是一所學校2014年和2015年的兩次評估結(jié)果,呈現(xiàn)了10個向度的指數(shù)情況。評估結(jié)果反饋給校長,就能幫助學校不斷調(diào)整發(fā)展方向,越辦越好。2018年,我們對方案進行了修改,讓評估更完善。
從對學校和教師的評價, 轉(zhuǎn)向同時關(guān)注對地方政府的評價 我們當然希望一個好校長帶出一所好學校,但公立教育,特別是義務(wù)教育的均衡與質(zhì)量水平,不但有賴于教師和校長,更取決于地方政府的教育政策、經(jīng)費資源、人力資源和生源配置。OECD的PISA測評中,上海成績第一。成績背后,與學生認知發(fā)展、投入方法、投入多少有關(guān),也與學校差異有關(guān)。那么,學校間的差異由什么造成?學校內(nèi)部哪些是更重要的因素?高水平家庭的孩子進了好學校,農(nóng)民工子女進了差的學校,原因是什么……于是,政策和資源配置的問題就出來了。綜合來看,政府的四大配置決定了學校發(fā)展水平——- 管理資源配置:包括校長配備、財政經(jīng)費、自主空間,比如,財政經(jīng)費好的學??赡茏杂蓹?quán)大,差一點的學校反而錢不足;
- 物質(zhì)資源配置:包括校舍場地、信息資源、實驗設(shè)施;
- 環(huán)境資源配置:包括學生來源、專業(yè)合作、社會支持,比如優(yōu)秀學??梢匀≌猩?,普通學??赡苤辉诒窘值勒猩?/span>
- 人力資源配置:包括師生比例、優(yōu)秀師資、進修機會。
沒有種種資源,一個好校長有時候也辦不了一所好學校。所以,教育評價包含對政府的督導,是好的轉(zhuǎn)向。聯(lián)合國教科文組織2017和2018全球教育監(jiān)測報告的主題是“教育問責”,指向“政府到底怎么做”。中國的《評價改革方案》也強調(diào)“各級黨委和政府要堅持正確政績觀”,符合國際趨勢;同時,以學生評價、政府評價、學校評價、用人評價、教師評價構(gòu)成系統(tǒng),與OECD的評價系統(tǒng)完全一樣??梢姡覀円呀?jīng)走到世界的前列。但是,實際辦學過程當中,我們還是可以看到學校間的差異。關(guān)于學校差異對學生成績的影響力水平,OECD統(tǒng)計顯示,學校與學生數(shù)學成績之間的方差占比平均值是37%。芬蘭的學校高度均衡,只有8%;上海的初中是29%,高中是58%,折算后上海整體變成47%,差異驚人。過去幾年上海為什么堅持“均衡優(yōu)質(zhì)”,原因就在這里。從“對教師的評價”, 到“為教師的評價”和“教師自己的評價” 在教育評價中,對教師的評價起步較晚。美國從1957年開始做教師評價,由于當時主要評價是課程評價,但直到80年代評價工作仍未完成,教育質(zhì)量仍然不好。于是,美國開始把教師單拎出來進行評價,但那時主要是問責式評價,“看看老師在哪些地方還沒做好,以提高教育質(zhì)量”。因此,目前對教師的評價,是以行政管理的方式推進,按照績效獎懲教師,對教師教育質(zhì)量的推動作用非常有限。學者們認為,教師評價更應該轉(zhuǎn)變?yōu)椤盀榱私處煂I(yè)發(fā)展的評價”,因為教師專業(yè)水平提升,教育質(zhì)量就會隨之而提升。此外,沒有兩個教育情景完全相同,忽視了教師個體差異而進行評價,一定會引起內(nèi)卷,讓老師身心疲勞;反過來,“躺平”也會降低教師的幸福感。以教師為對象,檢驗他們的履職程度當然很重要。它本質(zhì)上是一個由外向內(nèi)的問責,包含遵紀守法、履約敬業(yè)、達成目標、檢驗績效高低等方面,以此獎優(yōu)懲懶,提升教師效率。但是,它容易進入精致主義層面,而且是無意義的精致。當然,對教師的評價還要兼顧多層次、多工具的評價,其核心是保障公平。但它的弱點是有“反駁效應”。比如設(shè)立“五唯”指標,那就可能出現(xiàn)只圍繞指標做事而忽略其他事項的情況,同樣會影響孩子的健康成長。本來目的是監(jiān)測,結(jié)果變成“你評什么我就干什么”。久而久之,它會產(chǎn)生競爭內(nèi)卷和躺平。因此,要追求“去反駁效應”。促進教師專業(yè)發(fā)展的評價,則是一種協(xié)作互信、講究反饋和改進、內(nèi)外結(jié)合的專業(yè)指導。它重視教師的發(fā)展過程,重視發(fā)現(xiàn)教師間的差異,并據(jù)此完善教師的行動,提供反饋建議。這種評價的條件是要看輕利害,不以獎懲為主,力求真實,分析教師的行為,進行建議指導。所謂教師自己的評價,強調(diào)內(nèi)在主體需求的升華。教師愿意自己測評,愿意參與評價的設(shè)定,進行反思研究,凸顯教師自己的專業(yè)特色,提升能力。這種評價的條件是提供參照,提供最佳案例,以及通過技術(shù)支持進行自診自評,發(fā)現(xiàn)優(yōu)勢弱點,提高自我效能。上海奉賢中學,在教師評價中專門設(shè)立了“教師自設(shè)性挑戰(zhàn)項目評估”。教師自己提出來明年想做的兩件事,個人申報,立項審核,過程中學校給予指導,最后總結(jié)評價,實現(xiàn)了教師自主立項、學校評估。上海一師附小搭建“教師發(fā)展評價系統(tǒng)”,讓教師個人和集體都明白:自己在哪里(起點);可以到哪里去(方向);如何達到(措施);如何知曉有沒有到達(評價)。由此,形成了這樣的教師成長框架:我現(xiàn)在的狀況是什么?(自我分析、自我定位)→ 我努力的方向(鎖定目標、細化步驟)→我采取的措施(投入研修、學習實踐)→ 我的目標達成(互評總結(jié)、持續(xù)發(fā)展)。這一過程可以通過自我評價、合作評價、發(fā)展評價來推動實施。上海閔行實驗小學將“基礎(chǔ)性評價”和“發(fā)展性評價”并舉(70%-30%),努力保障教師有自己選擇的權(quán)利和發(fā)展空間。學校在設(shè)計評價方案時適度“留白”,邀請教師參與、鼓勵教師首創(chuàng);建立個性發(fā)展平臺,提供專業(yè)成長的選擇性路徑;激活教師的內(nèi)在發(fā)展自覺,揚其長、成其能,讓每個人的優(yōu)勢真正表現(xiàn)出來。從“基礎(chǔ)知識測評”, 轉(zhuǎn)向“基礎(chǔ)知識”與“核心素養(yǎng)”并舉 以PISA為例,上海從2009年開始一直領(lǐng)先于全世界,大家都覺得上海是最好的了,其實不然。將所學的基礎(chǔ)學科知識和技能運用到不同場景中去,主要是基礎(chǔ)素養(yǎng)。而完整的素養(yǎng)框架,還包含計算機問題解決、財經(jīng)素養(yǎng)、協(xié)作問題解決、全球勝任力、創(chuàng)新能力,這些才是核心素養(yǎng)勝任力。在這些勝任力中,我們一個第一也沒有。在PISA2012以計算機為工具進行的一項學生評價中,中國的成績是全世界第六(536分),看上去還不錯。但當我假設(shè)“閱讀、數(shù)學、科學知識學習越好,成績越高,就越能夠解決問題”這樣一個命題,重新排名,上海就墊底了。可以看到,韓國(561分)、美國(508分)、新加坡(562分)等地分數(shù)是正相關(guān)的,即“閱讀、數(shù)學、科學學得越好,解決問題的能力也越強”,但中國是負相關(guān)的,而且是全世界最厲害的。我們原來閱讀、數(shù)學、科學是全世界第一,但是負相關(guān)50分,問題解決的能力就排到18位了,真的成了“高分低能”。問題在哪?PISA描述得很清楚——對老師培養(yǎng)學生解決問題的能力沒有進行深入研究。什么叫提升學生解決問題的能力?首先,學生有沒有意愿參與這樣的認知過程,是不是有利于學生個人潛能的發(fā)揮?問題有沒有不同的情景?問題解決過程是什么樣的?配置與解決過程應該有哪些思維能力?……這些問題不搞清楚,怎么能提高學生解決問題的能力?我們目前的問題就在這里。
教學仍是重要的評價方式,而且評價維度在不斷精細化。原來我們只講教學,但其實教學可以分成課堂管理、教學質(zhì)量和情感支持三個維度。我們參加了一項全球性的教學視頻研究,每個國家85位數(shù)學教師,每人上兩堂課(“一元二次方程”),錄制上課教學行為的視頻,進行同課異構(gòu),觀察其中差異。下圖是對比情況。可以看到,我們的課堂管理(圖中灰色線段)是最強的,教師管理很厲害,高于日本、英國、德國三個典型國家。但是,我們的教學質(zhì)量(圖中藍色線條)就差了,相當集中但是水平較低,在及格左右??磥恚@么多國家都在搞教學改革,課堂卻還是比較傳統(tǒng)。在社情支持(圖中灰色虛線)中,我們也較差。進一步細看,教學可以分成學科內(nèi)容質(zhì)量、學生認知參與、基于學生理解的評價與回應、課堂對話。我們只有教師的學科知識掌握第一,學生認知參與跌下來了,理解學生方面稍微好點,課堂對話較差。這些教學行為本身值得我們思考。上圖是關(guān)于教學的情感支持,圖中越向右偏,說明對學生的支持越大。8個國家和地區(qū)中,情感支持我們最差。分析視頻發(fā)現(xiàn),我們的課堂里,教師經(jīng)常問大家“懂了沒有”。可德國教師從來不問“懂了沒有”,而是經(jīng)常問“哪幾位不懂”。學生回答“我不懂”,這時就是教學中的情感支持。所有的學生都愿意,也敢于在課堂上說“我不懂”。但是,我們的學生不敢說、不輕易說。 細分下來,對學生的情感支持又可分四個指標,我們的指標大部分都處于中間層次,有支持但不強烈。信息技術(shù)運用 成為教育變革和教育評價的新杠桿 最后一個趨勢是運用信息技術(shù),它正在成為一個新的杠桿。首先,大家都把信息技術(shù)作為老師應該掌握的內(nèi)容,但這方面我們不占優(yōu)勢。疫情之下,我們通過遠程教育,通過信息化,解決了所有同學不失學的情況。但是,數(shù)字化更應該是對每個學生因材施教,這個方面我們做得還不夠好。目前,世界各國已經(jīng)在向著上圖的方向發(fā)展,即學生有助學系統(tǒng),教師有助教系統(tǒng),這些系統(tǒng)都在大數(shù)據(jù)支持下不斷反饋。2021年,歐盟在“數(shù)字能力框架指南”的基礎(chǔ)上,研發(fā)了一套名為SELFIE的數(shù)字教育自我評價工具(分學校、職教、教師和學前版),可以供學校、教師和學生自測自評使用。其中,對老師的評價分成“專業(yè)投入(9)、數(shù)字資源使用(5)、教與學(5)、學生測評(3)、賦能學習者(4)、提升學生數(shù)字素養(yǎng)(6)”等六個方面(括號中數(shù)字為指標數(shù)量),共設(shè)32項測評指標,每個指標又分成1~6的熟練水平。比如,數(shù)字資源使用1指標,包含6個熟練度:水平1—我意識到;水平2—我試用過;水平3—我已使用;水平4—我可以在豐富的工具中挑選使用;水平5—我反思并重新設(shè)計與改進給孩子的東西;水平6—我可以自創(chuàng)并自設(shè)。借助現(xiàn)代信息技術(shù)和數(shù)據(jù)分析,歐盟不僅給老師進行測評,還可以基于幾十萬教師數(shù)據(jù)提供指導:哪些方面你更強,哪些方面你還弱;并且給出提升的建議,幫助教師成長。作者 | 張民選(聯(lián)合國教科文組織教師教育研究中心主任) 來源 | 內(nèi)容據(jù)作者在第二屆中國基礎(chǔ)教育論壇的報告整理
|