原标题:pisa和timss之间的比较——我们是一个拥有两种看法的人吗?
编译:许新宇 东南大学脑与学习科学系
研究生导师:柏毅
作者:dougal hutchison, ian schagen
第一节 介绍
2002年和2003年,在英国发生了一件奇怪的事情。政府部长和高级公务员赞扬了学校的成就——此外,根据国际研究的结果进行了赞扬。dfes的常务秘书写道:
“对于那些不断寻求贬低(我们的教育表现)的怀疑者,我们现在有了oecd/pisa研究——这是有史以来最大的一项针对32个国家15岁儿童表现的国际比较研究——显示英国在科学方面排名第四,在识字和数学方面排名第七。只有芬兰和加拿大始终 于英国,而德国、意大利和西班牙等主要国家则远远落后”。(normington, 2002)。
并非所有参与政治进程的人都对此印象深刻。一位反对党议员在评论pisa 2000的结果时说:
“这尤其令人难以置信,因为在前一年,一项更权威的研究——由受人尊敬的国际教育成就评价协会进行的第三次国际数学和科学研究——把英国排在了41个国家中的第20位……”(gibb, 2002)
那么谁是正确的呢?显然,这些研究并不完全相同。但它们有什么不同呢?在这次报告中,我们将描述timss和pisa在许多方面的区别。我们还讨论了他们在数字上乍一看似乎超过了差异的相似之处,至少。在本文中,我们将重点关注timss 8年级的学习,不打算涵盖4年级的学习。
第二节 timss和pisa的框架
timss
timss(国际数学与科学趋势研究项目)是在国际教育成就评价协会(iea)主持下开展的一系列国际成就比较研究中的最新成果。iea称自己是国家研究的独立国际合作机构和政府研究机构,它本质上是一个由教育研究人员组成的关系网,但具有强大的政策应用。iea赞助了多个主题的测验,包括阅读理解、法语、英语、公民学、ict和识字,但这里我们主要关注数学和科学。第一次全面的数学研究发生在1964年,第二次全面的数学和科学研究随后在1980年代(smithers,2004)。第三次国际数学与科学趋势研究项目(timss)于1994-1995年举行,并于1998-1999年举行了一次重演。随后在2003年进行了以四年为一个周期的进一步研究,目前正在建立2007年的研究。这段时间一直用timss这个名字,而不是不断地更名,这个简写被用来代表国际数学和科学趋势的研究。45个国家参加了1995年的timss,1999年38个,2003年49个(smithers,2004,mullis等人,2004,15)。英国的成本约为100万英镑(合190万美元)(bertrand, 2006)
在这段时间里iea在组织、设计、管理和分析此类研究方面积累并完善了大量的知识和专长。iea和timss因其能力、诚信、创新以及与相关国家的需求相关联而受到广泛尊重,这是正确的。引用brown(2000)的话:
“国际教育成就评价协会(iea)进行的三项主要国际数学成就比较(……)在过去50年中对全球教育的影响超过了任何其他单一因素。”
在本文的后面,我们将讨论一些技术方面,如取样、测试设计和分析,但在现阶段,值得赞扬的是,在保持这么多不同国家的海关、制度和议程方面,所涉及的组织和外交技巧。在早期阶段,传闻证据表明,严格的标准有时可能会排在第二位,而不是让各国参与进来。但至少在timss中,组织者显然能够坚持遵守严格的研究规则。
很难找到一个简明扼要的表述timss的目标。这是可以理解的:iea的研究已经存在了很长时间,它们收集了一系列目标,而且成本如此之高,显然用户可以从中得到尽可能多的好处。robitaille et. al(1993)和timss(2007)中有不同程度的冗长陈述。robitaille等人总结了timss所寻找的信息的种类(mullis等人在2007年也有类似的陈述):
数学和科学课程的国际变化,包括目标、意图和课程顺序的变化
科学和数学教师培训的国际差异
官方规定的教科书对数学和科学教学的影响
在数学和科学课堂上实际教授的课程内容,即学习的机会
不同教学实践的有效性
学生的成绩,特别是在解决非常规问题以及科学和数学在“现实”世界中的应用方面的成绩
学生和教师的态度和意见
科技在科学和数学教学中的作用,特别是计算器和计算机的使用
大学预科课程的参与率,特别是基于性别的课程差异
跟踪、流媒体和其他用于影响或指导学生选课的实践的效果
有趣的是,各国的实际成绩比较并没有在上面明确提到。至少有一半的目标暗示,该研究旨在解释学习的变化。还有一个强烈的暗示是,学生应该把数学和科学作为他们作为公民角色的一部分,而不是作为就业武器的一部分。专注于测量成就,mullis等人(2007)指出:
对科学的基本理解,使他们做出的决定是明智的。 “将数学作为学校教育的基本组成部分的主要原因是,人们越来越意识到,了解数学,更重要的是会运用数学,会极大地提高作为一个公民的效率和工作上的成功。”
timss围绕两个框架组织:课程框架和评估框架。课程框架2设想了三个层次:
预期的课程(老师应该教什么)
实施的课程(老师教的内容)
掌握课程(学生所学)
在timss的评估工具(图2.1)中,有两个学科领域,数学和科学,以及从2003年开始的较长
的数学和科学解题问题,学生问卷,教师问卷和校长问卷。专注于这两个主题领域,每一个都被分为内容维度(领域)和认知维度(图2.2)。
数学内容按照课程线分为数字、代数、几何、数据和机会,而科学内容同样按照教学大纲线分为生物、化学、物理和地球科学。认知维度分为认知维度、应用维度和推理维度。(martin et. al, 2004)
pisa
与建立已久的timss系列研究相比,国际学生评估项目(pisa)是一个相对较新的研究。pisa策略是由参与国定义的(oecd, 1999),由于其研究是由oecd资助的,因此具有政府光环。pisa以三年为一个周期进行调查,第一次调查是在2000年。目前还不清楚一次全面的国际学生评估项目花费了多少,但加拿大估计其参与费用为每年170万美元(cmec, 2000)。据报道,英国的成本与timss相当,但略高(bertrand, 2006)。与timss不同的是,pisa旨在评估阅读素养、数学素养和科学素养,它们被称为领域。作为一项任务说明,据称:
“oecd/pisa评估的主要目的是确定年轻人在阅读、数学和科学素养方面获得了多大程度的广泛知识,这些知识是他们成年后所需要的。”(oecd,2004年,4)
每一轮以一个域为主体,约占测试的三分之二,剩下的测试时间分配给另外两个“小”域。因此,2000年的主要重点是阅读素养,2003年是数学素养,2006年是科学素养。经合组织还声称pisa:
“为家庭和学校中影响技能发展的因素提供了深入的见解,并研究了这些因素如何相互作用以及对政策发展的影响。”(oecd, 2003, 10)。
因此,就像timss一样,有人建议尝试寻找表现差异的解释。
在pisa框架内,在最顶层(图2.3),有学生评估、学生问卷和校长问卷。没有任何东西与timss的课程重点相对应。
pisa包括三个领域,阅读素养、数学素养和科学素养,以及问题解决能力(图2.4)。
数学和科学素养都是根据内容、过程和情境或上下文来分类的。“内容”和“过程”基本上对应timss的内容和认知维度。
数学素养被分为“大思想”、“数量”、“形状和空间”、“变化和不确定性”,其次是“课程链”,如数字、代数和几何。数学素养的定义是:
文档中出现的另一个“大思想”是数学化,即将现实生活中的问题转化为数学表示,并解决和解释由此产生的数学问题(oecd, 2003,26)。
“一项重要的生活技能……是从证据和信息中得出适当和谨慎的结论的能力……根据所提出的证据批评他人的主张,并将观点与基于证据的陈述区分开来。”(oecd, 1999, p. 59)
在科学素养方面,确定了以下主要主题(oecd, 2003,136):
?物质的结构和性质
?大气
?化学和物理变化
?能源转换
?力和运动
?形式和功能
?人类生物学
?生理变化
?生物多样性
?遗传控制
?生态系统
?地球和它在宇宙中的位置
?地理变化
timss和pisa的目的截然不同。timss关注的是学生在学校课程中所掌握的数学和科学的程度,而pisa则旨在捕捉“运用知识和技能应对现实生活挑战的能力”。(oecd, 2001). 经合组织教育主任barry mcgaw (2002a)向共同教育和技能委员会提供了证据,他将差异描述为timss乐于发现,“老师教了你什么科学?你学了多少科学?”而pisa的问题是“你能用所学的科学做些什么?”
第三节 抽样
timss——学校抽样
smithers (2004)对iea进行了有趣的简要介绍。据说,在早期,参与的学校和学生的表现都有显著的提高,这是众所周知的。如果一个国家在基础知识方面做得特别好(尤其是在出乎意料的情况下),或者仅仅是吃不到葡萄说葡萄酸,就会导致教学、抽样和测试材料管理方面出现不规范的情况,从而极大地提高了这个国家的成绩。强烈的政治分歧排除了由公正的外部人员进行现场检查的建议,也很难抗拒这样的结论,即人们认为更重要的是让所有人站在一边,并将他们保留在样本中,而不是通过密切调查来冒着疏远他们的风险,即使这是可能的。每个国家都进行了自己的抽样。
1995年iea第三轮数学/科学研究(timss)大大加强了这方面的工作。例如,在2003年,timss样本基本上是由iea指定的,有中央指示,并专门提供软件进行采样。设计必须在执行前仔细记录并与中心协调员达成一致,在绘制时仔细记录,并将细节提供给中心场地。所有这一切虽然无疑会损害那些以其抽样技能、知识和经验为傲的国家的自尊心,但目的是要从那些拥有各种专门知识和人力的国家提供良好、可靠的抽样结果。目的是实现一致性和对当地条件的敏感性的良好结合。在这方面,它在很大程度上是成功的,除了更严格的抽样标准(特别是坚持固定的最低回复率)不利于一些国家(如英国),这些国家有良好的学校水平数据,可以弥补较低的回复率。然而,这可能是另一次的辩论。
国家样本基本上是任何想要参与并且能够负担相当可观费用的国家。其他可以被定义为国家内部国家的地区(如苏格兰),或国家的部分地区(德国)也参与了。8年级评估的目标人群是在测试时13岁学生比例最大的两个相邻年级的高年级注册的所有学生。这个年级的目的是代表八年的教育,从小学或小学的第一年算起,在大多数国家是八年级。
timss——项目抽样
该方案旨在评估广泛的成就。为了涵盖所有这些,timss评估中包含的项目和任务库非常广泛,需要的测试时间远远超过分配给单个学生的时间(8年级约7小时)。因此,timss 2003和其他年份使用了矩阵抽样技术,包括将整个评估池划分为一组独特的项目块,将这些块分布在一组小册子上,并在学生之间轮换小册子。每个学生都拿了一本包含数学和科学项目的小册子。这种设计从每个抽样的受访者中获得的回复相对较少,同时在所有受访者中汇总回复时,保持了广泛的内容表示。这种类型的设计以前曾用于英格兰和威尔士绩效评估单元(apu)调查(foxman, hutchison and bloomfield, 1991)和美国“国家教育进步评价”(naep)调查(beaton, ed., 1988)。
在timss 2003评价设计中,将383个八年级项目划分为28个项目块。每个学生的评估时间为90分钟(6个15分钟的单元)。这些小册子分成两个三单元(第一和第二部分),各部分之间有休息。
pisa——学校抽样
样本仅限于oecd成员国,但也包括了一些“伙伴国家”(如突尼斯、巴西)。每个国家的预期pisa目标人群包括在本国教育机构就读的15岁学生,7年级或更高。这包括全日制和兼职的学术和职业学生。家庭学生、在职学生和没有接受任何教育的人被排除在外。这在大多数发达的oecd国家不太可能是一个主要问题,但在“伙伴国家”中很可能是相关的。在墨西哥和土耳其,官方规定的义务教育年龄是6-14岁。prais(2003)认为,即使在德国和瑞士这样高度发达的国家,义务教育也只到15岁。
这意味着,在2003年4月进行测试的所有国家,国家目标人口都可以定义为1987年出生、在学校或其他教育机构上学的所有学生。这个年龄定义允许一个月以内的变化。如果测试在另一个时间进行,出生日期的定义必须得到联盟的调整和批准。
在大多数国家,用于pisa评估的抽样设计是两阶段分层抽样。每个国家至少要选出150所学校。第一阶段的抽样单位包括有15岁学生的个别学校。除了少数几个国家,所有的学校都是从一份综合的全国合格学校名单中系统抽样的,这些学校的概率与规模成比例(pps)。在被选中的学校中,35名学生以相同的概率从所有15岁的学生名单中被选中。
学校可能会被排除在外,例如,由于交通不便,或可能由于政治、组织或运营原因而取消某一语言团体。某些类型的学生可以被排除在外,例如智力或功能残疾的学生和接受考试语言教学不到一年的学生。只有那些因智力、功能或语言原因而被排斥在外的学生才能就读的学校被认为是学校一级的排斥。要求将一个国家内的总排除率保持在5%以下。
pisa——项目抽样
在timss中,虽然没有一个学生被要求去做所有的事情,但是使用矩阵抽样的方法涵盖了很广泛的项目。2003年167个主要研究项目被分配到13个项目集群(7个数学集群和每个其他领域的2个集群),每个集群代表30分钟的测试时间。这些题目被分成13份测试手册分发给学生,每个手册由4组组成,每组在手册的4个可能位置出现一次。
本文是dougal hutchison和 ian schagen学者于2007年收录在 lessons learned—what international assessments tell us about math achievement (pp. 227–261)的论文。
推荐书籍
东南大学百研工坊:21世纪是我国创新型人才培养的关键期。东南大学百研工坊(儿童发展与教育研究所)是国内从事科学教育研究的专业团队,结合教育学、心理学、认知科学和现代信息技术,开展面向基础教育阶段的科学教育研究,包括:青少年科学教育、stem教育、人工智能教育和科学素养评价研究,希望与广大科学教育工作者一起努力,为我国科学教育事业的发展做出贡献!
责编:湛蓝返回搜狐,查看更多
责任编辑: