- TIMSS测评:国际青少年科学素质全景解读
- 杨文源 李秀菊主编
- 3055字
- 2025-04-07 15:38:49
二 TIMSS科学素质测评的设计
围绕测评目标,TIMSS对评价工作进行了整体设计,通过文本分析的方式对各国家/地区课程文件和教科书进行分析,以描述一个国家/地区“预期的课程”;通过问卷调查的方式,对学生所处的背景环境和学生个人的学习态度进行调查,以了解“实际执行的课程”和学生的特征;通过测评的方式对学生的科学素质进行评价,以探查“实际达成的课程”。其中,关于“预期的课程”的分析没有公开共享数据,也没有见到相应的官方报告;对学生科学素质的测评以及背景环境和学生个人特征的调查数据是开放共享的,基于这些数据的分析能够看出一个国家/地区学生科学素质水平的发展变化及其影响因素,也能反映一个国家/地区各方面水平在国际上所处的位置。历次TIMSS对学生科学素质的测评以及背景环境和学生个人特征的调查都做了详细的设计,下面将基于文本分析来呈现和解读TIMSS科学素质测评相关设计的变化发展。
(一)科学素质学业水平测评框架
在对4年级和8年级的测评当中,TIMSS自2003年起才出现明确界定的测评框架,1995年和1999年的测评则只是在技术报告中描述了测评的领域但没有区分年级。表1-2呈现了1995年和1999年TIMSS科学素质学业水平测评领域,表1-3呈现了2003~2019年TIMSS科学素质学业水平测评框架。
表1-2 1995年和1999年TIMSS科学素质学业水平测评领域

表1-3 2003~2019年TIMSS科学素质学业水平测评框架

从表1-2和表1-3可以看到,TIMSS科学素质测评框架在2003年发生了较大变化,相较于前两次测评的设计,区分了年级,更加清晰地呈现了科学素质学业水平要测评的内容是什么,划分维度也让测评内容之间的关系更加明确。自2003年起,TIMSS科学素质学业水平测评题目的命制都是围绕内容维度和认知维度展开的,即一个题目涉及内容和认知两个维度的属性。其中,“内容维度”对应1995年和1999年测评的“内容”领域,“认知维度”对应1995年和1999年测评的“表现预期”领域。2007年测评框架相较于2003年又发生了一次变化,认知维度从2003年的事实性知识、概念性知识以及推理和分析修订为知道、应用以及推理。此后这一框架一直沿用至今,包括还未开展的2019年测评也沿用了这一框架。
在对中学毕业年级的测评(即TIMSS高阶测评)当中,TIMSS科学素质学业水平测评只考查学生的物理学业水平。同样的,在1995年的TIMSS高阶测评中,物理学业水平测评没有明确界定测评框架;在之后的两次高阶测评中,具有清晰界定的测评框架(见表1-4)。
表1-4 2008年和2015年TIMSS高阶测评物理学业水平测评框架

从表1-4可以看到,2015年TIMSS高阶测评相较于2008年,在内容维度上都关注力学、电磁学和原子/核物理,2008年的“热和温度”修订为“热力学”,同时新增了对“波动现象”的考查;在认知维度上都包含“知道”“应用”“推理”三个方面。对比表1-3中关于4年级和8年级的科学素质测评框架,TIMSS高阶测评在内容维度上只关注物理学科,而认知维度则与4年级和8年级的测评一致。
(二)科学素质测评内容比例
基于内容维度和认知维度中各个要素的重要性以及在实际生活中运用的比例,参考各参与国家/地区科学课程中不同学科内容所占的比重,TIMSS拟定了考查各个要素的题目比例(见表1-5、表1-6)。
表1-5 1995年和1999年TIMSS科学素质测评内容比例

在1995年和1999年的测评设计中,只对测评的“内容”领域进行了比例分配,没有对“表现预期”进行比例分配。从表1-5可以看到,在1995年和1999年的测评内容比例分配中,“生命科学”的题量和分值比例都是所有内容中比重最大的;“物理”与“生命科学”的题量相当,但分值少2个百分点;“科学探究与科学本质”的题量和分值比例与“环境和资源问题”较为接近,所占比重分别为最小和次小。对比表1-5和表1-2的“内容”要素,发现在1995年和1999年的测评中,实际测试题目的内容分配与测评框架拟测评的内容并不一致,测评框架中的“物质科学”在实际命题时被拆分为“物理”和“化学”;测评框架中的“科学史和技术”在实际命题时并没有出现;测评框架中的“科学与其他学科”在实际命题时同样没有出现,取而代之的是“科学探究与科学本质”。
表1-6 2003~2019年TIMSS科学素质测评内容比例

从表1-6可以看到,自2003年测评框架发生变化起,内容维度和认知维度下各要素所占的测评比重变化不大。总体来看,在内容维度中,无论是4年级还是8年级测评,占比最大的都是“生命科学”(8年级具体为“生命科学/生物学”),相较于1995年和1999年,“生命科学”与其他学科的题目比重差异进一步拉大;在认知维度中,历次4年级测评和历次8年级测评的比例分配都相对稳定,没有太大的变化,但是,相较来看,4年级对“知道”和“应用”的考查显著多于对“推理”的考查,而8年级对“推理”的考查比例有所提升,对认知维度三个要素的考查相对均衡。对比表1-6和表1-3可以看到,自2003年起,TIMSS科学素质测评命制的题目与该项目拟定的测评框架之间具有良好的对应关系,完全以测评框架为指导来分配题目比例。
TIMSS高阶测评以衔接大学物理专业为导向,在内容比例的分配上也相应地以大学物理专业的关注热点为依据。对应于表1-4的高阶测评框架,TIMSS设置了相应的题目比例,见表1-7。
表1-7 2008年和2015年TIMSS高阶测评内容比例

(三)科学素质测评的题型
自1995年第一次测评起,TIMSS测评的题型一直稳定地保持为两类:单项选择题和开放题。其中,单项选择题易于评阅,但并不是所有的内容都能够通过单项选择题进行有效的考查;开放题则能够弥补单项选择题的局限性。TIMSS测评的单项选择题中通常每个题会提供4~5个选项,只有一个选项是最佳答案;选项中不会出现“我不知道”或者“以上都不是”这样的内容;题干也不会暗示或者建议学生靠猜来回答问题,而是鼓励学生选择“他们认为最恰当的答案”。开放题要求学生自主作答,写出他们的答案,评阅时会按照统一的评分标准对学生的答案进行编码。从历年公开的题目来看,TIMSS测评的单项选择题命题方式较为灵活,有些题目是我们非常熟悉的四选一的单选题形式(如例题1),有的则更像是我们熟悉的判断题(如例题2)。
例题1:(2015年4年级科学)有些动物是非常稀有的,比如西伯利亚虎。如果西伯利亚虎只剩下雌性,最有可能会发生什么事情?
A 雌虎将与另一物种的雄性动物交配并繁殖更多的西伯利亚虎。
B 雌虎相互交配并繁殖更多的西伯利亚虎。
C 雌虎只能繁殖出雌性西伯利亚虎。
D 雌虎不能繁殖出更多的西伯利亚虎,最终走向灭绝。
例题2:(2015年8年级科学)物质从液态变为气态,有些特征和性质会发生变化,有些不会发生变化,在对应的空格内画×。
#####

在开放题方面,考虑到学生本身的书写能力,4年级试题(如例题3)的文字书写量通常比8年级试题(如例题4)的文字书写量要少一些。
例题3:(2015年4年级科学)下图展示了一个池塘。

观察上图,区分生物和非生物,在下面空白处分别列出三种。
生物 非生物
1 1
2 2
3 3
例题4:(2015年8年级科学)一些鸟会吃蛇。有一种蛇,生活在森林中的种群具有深色的外壳,而生活在田野中的种群则具有浅色的外壳。解释外壳颜色的差异对于这种蛇的生存有何意义。
(四)背景调查的框架
除了对学生学业水平的测评外,历次TIMSS测评都对学生的背景信息进行调查,用以挖掘影响学生学业水平的因素,从而为教育系统的改革提供建议和对策。与科学素质测评的框架不同,从第一次TIMSS测评起,对背景信息的调查就有明确的设计,并且在历次测评中调查的维度也在不断发展变化。图1-3呈现了历次TIMSS测评背景调查框架。

图1-3 1995~2019年TIMSS测评背景调查框架
[1]International Association for the Evaluation of Educational Achievement (IEA).About TIMSS & PIRLS International Study Center.https://timss.bc.edu/about.html.2018-10-27.
[2]Martin,M.O.,Kelly,D.L.(Eds.).TIMSS Technical Report Volume I,Design and Development .Chestnut,MA:International Association for the Evaluation of Educational Achievement (IEA),1996:1-4.
[3]LaRoche,S.,Joncas,M.,& Foy,P.(2016).Sample Design in TIMSS 2015.In Martin,M.O.,Mullis,I.V.S.,& Hooper,M.(Eds.).Trends in International Mathematics and Science Study (TIMSS):Methods and Procedures in TIMSS 2015.(pp.3.1-3.38).Chestnut Hill,MA:International Association for the Evaluation of Educational Achievement (IEA).