【资料】计算机化自适应测试(CAT)的相关研究(不断补充中)

作者&投稿:禽狭 (若有异议请与网页底部的电邮联系)
~ 记录时间:2021-6-8

在传统 纸笔测验 中, 所有被试 不论能力高低都 作答相同的一批题目 , 所以纸笔测验中题目的难度分布较广, 一般覆盖整个能 力范围。题目对高能力被试而言大多比较容 易,对低能力被试来说大多比较难, 不利于对被试能力的准确估计。

计算机化自适应测验(Computerized Adaptive Testing, CAT)的基本思路是让计算机自动模仿聪明主试的做法, 每次都呈现最适合被试作答的题目。因此, 相对于纸笔测验, CAT使用更少的题目就能达到相同的能力估计精度, 大大提高了测验效率。

CAT 还有很多其他优点, 比 如:(1)随着计算机硬件的不断升级, 可以在短时间内完成越来越复杂的计算; (2)与多媒体技术结合可以提供包括音频与视频在内的新颖题目类型(如短 时记忆题和空间记忆题)。如果有语音合成器, 还可进行听力与口语测试; (3)与认知诊断相结合可以测量新的技能类型(如知识状态); (4)与多级项目反应 理论(Polytomous Item Response Theory, PIRT)结合 可以提供基于表现的题目类型(如开放题); (5)与多维 IRT (Multidimensional IRT, MIRT)相结合可以提 供被试在多个分维度上的精细信息; (6)主试如果感兴趣还可以记录被试在每个题目上的反应时, 以作 为评价被试能力的辅助指标(Wang, 2012); (7)当题库得到良好维护时, 测验可以全年提供, 被试可以选择方便的时间参加测验(Cheng, 2008)。上述优点使得国内外很多大规模的选拔性与资格性考试都推出CAT版本的测验,

——陈平,《两种新的计算机化自适应测验在线标定方法》

记录时间:2021-6-10

( 一) 开发环节

CAT 的主要开发环节有:

    (1) 判定被试能力初始值:一般在给被试提供4-5道题后,根据被试的作答情况即可判定

    (2) 确定选题策略:不仅要选出与被试能力相匹配的试题,还要考虑测验中各部分内容的平衡和试题曝光度的控制

    (3) 判断被试能力:目前主要采用极大似然估计和贝叶斯后验期望估计等参数估计的方法

    (4) 设定测验结束条件:一般设置能力值的标准误满足一定的精度或采用固定长度法,两者相比,似乎前者在理论上更合理些。但在实际操作中,州立K-12 教育测评更倾向于后者,因为固定长度法与传统的纸笔测验更具衔接性。

( 二) 题库建设

CAT 的实施过程可能会长达数周,这就会产生一个问题:试题泄露。要想解决这个问题,就必须开发多个功能平行的题库。

另外,针对每个题库包含的试题数量,研究者建议:如果测验采用的是固定长度法( 例如30 道题) ,那么题库中试题数量应该是测验长度的12 倍( 即360 道题为宜) 。如果测验长度是动态变化的,那么题库中试题数量则是测验长度平均值的12 倍。

(三) 试题编制

1. 难度分布

对于州立教育测评中的纸笔测验,试卷中大部分试题都是处于中等难度,它们的正答率应该达到60%-70%,极难和极易的试题一般不会出现在试卷中。

而CAT 则不同,为了满足不同能力水平被试的需要,题库中试题的难度必须涵盖较大的范围。另外,在阅读测验中,两者试题难度的编制也显现出较大的差异,例如,纸笔测验中每篇阅读文章后面往往附着几个难度从易到难的试题,而CAT 中每篇阅读文章后面附着的试题难度具有一致性,以保证该文章要么适应较高水平的被试,要么适应较低水平的被试。

2. 质量控制

CAT 与纸笔测验中试题质量控制环节很多是相同的,关键的差异在于试卷形成的最后一个步骤。纸笔测验中,试卷雏形产生之后,要请一位学科专家对试卷做最后检查,以确保试卷中试题质量符合测验要求。但CAT 中,每个题库包含300 至400 道试题,测验前夕请学科专家重新检查所有试题显然是不现实的,因此CAT 只能通过优化以下选题策略来确保试卷质量: 

首先,为题库中每道试题设置尽可能详细的字段信息,以保证选出最合适的试题; 其次,选题策略要具有控制选择相似试题的功能,以确保测验中试题所考查的内容不重合; 再次,考试前夕可以由计算机模拟的方式产生难、中、易三份代表性试卷,由学科专家审阅,以便发现其中的不足。这种方法虽然有效,但却使试卷产生过程变得更为繁杂,无法体现CAT 的优势。因此,CAT 的研究者们倾向于将学科专家在试卷中发现的不足逐步归纳总结,并使其转化为可操作的规则与算法,最终体现在CAT 的选题策略之中。

3. 生命周期

在美国,CAT 都是由专业教育测量公司开发的,题库建设过程中必须执行严格的入库流程和标准,导致平均下来每道题都花费不菲,因此教育测量公司总希望能够延长试题的生命周期。但在实际操作中,伴随试题的不断曝光,以及社会和科技的不断进步,使得题库中的试题需要不断更新方可,但更新的程度却不尽相同,它和具体学科、年级、区域等因素息息相关。

另一个影响试题生命周期的因素则是: 州立教育测评结束后,是否公开试卷? 一般纸笔测验完成后,州立教育机构倾向于公开试卷内容,接受公众的评判。而CAT 要公开所有试卷则意味着近乎题库系统的曝光,这对教育测量公司来说显然是难以承受的压力,折中的办法就是挑选难、中、易三份试卷公开,以满足公众的部分需求。

——陆宏,高佳佳,胡一平,《计算机自适应测验在美国州立K-12教育测评中的实践与探索》

我是Finger,关注心理学、儿童教育,以及人类数字化生存,喜欢写作,旅游,如果你对我的文章感兴趣,欢迎留言与我交流。


有人参加过Ukiset考试吗?难考吗
UKiset为联机考试,是个自适性的在线考试,题目根据考生的答题会自动调整难度。如果遇到Ukiset考试相关问题可以私信提问,有专业的课程辅导老师来解答。并且考而思教育拥有丰富的考试真题,资料。方便大家了解更多考试内容。

UKISET考试都考什么内容?应该怎么应对考试?
UKiset由英国顶尖学校联合发起,分成英语、数学及逻辑思维(Non-verbalreasoning)三个部分。一、英语:包括语法,词汇,阅读理解,听力和创造性写作等。考生考试当天还需根据指定话题写一篇作文,作文为手写。作文的最少字数各年龄段有所不同,考生所写文章必须达到规定的最少字数。9-11岁:最少100-150单词...

论网络对传统企业管理的影响
通过因特网实现企业内部的信息沟通,形成内部的高度整合是企业信息化的第一步;第二步是上网寻找客户, 扩大新的销售渠道,形成新的管理职能;第三步是对价值链或供应链进行全面整合,实现电子化管理的高效运作,使企业内部机制的管理发生实质性变化;最后是通过网上销售扩大相关的服务范围,使企业的经营管理进一步完善。 3....

月亮是外星人做的一个人造卫星?
从行星演化看月球起源 近几年来,科学家们以现代行星演化理论为基础,用计算机计算了在太阳系形成的初期,作用于太阳、地球、月亮三者之间的力以后,得出了一种新的月球起源学说。科学家们认为,月球是在地球形成的初期,在地球的引力范围内被地球所俘获的;而这种现象在当时又是极为普遍的现象。这种新学说,即所谓新俘获...

关于名人事例
这个太湖南部的鱼米之乡,是近代以来中国农业最为发达之区,它紧邻着现代化的上海,又是人文荟萃的地方,这造成了茅盾勇于面向世界的开放的文化心态,以及精致入微的笔风。 他十岁丧父。许多中国作家、政治家的“第一教师”是寡母,茅盾即由其母抚养长大。从北京大学预科读毕,无力升学,入上海商务印书馆工作,改革老牌...

天文望眼镜多少钱的可以看清8大行星
自七十年代以来,在望远镜的制造方面发展了许多新技术,涉及光学、力学、计算机、自动控制和精密机械等领域。这些技术使望远镜的制造突破了镜面口径的局限,并且降低造价和简化望远镜结构。特别是主动光学技术的出现和应用,使望远镜的设计思想有了一个飞跃。 从八十年代开始,国际上掀起了制造新一代大型望远镜的热潮。其中,...

金太阳全国大联考第四次(湖南专用)试题
特拉华大学内来自物理、化学、生物、医学、电子和计算机等不同领域的科学家聚集在一起,各自新颖的观点最终碰撞出火花,得出了解决问题的新思路,纳米炸弹应运而生,而美国国防部为谊前沿课题提供了部分研究经费。 碳纳米管是一种具有特殊结构的一堆量子材料,主要为呈六边形排列的碳原于构成的同轴圆管,其径向尺寸为纳米量...

汽车stop是什么故障
stop是的故障码是:强制停车报警灯。如果其中一个部件有问题,STOP就会点亮。汽车仪表板上显示stop后,需要立即停车检查。汽车仪表板是反映车辆各系统工作状况的装置。 常见的有燃油指示灯、洗涤器液指示灯、电子节气门指示灯、前后雾灯指示灯和报警灯。仪表板上显示停止时,这表示车辆有比较严重的故障,车辆...

杜牧的诗有哪些
1、【清明】唐代:杜牧 清明时节雨纷纷,路上行人欲断魂。借问酒家何处有,牧童遥指杏花村。译文:江南清明时节细雨纷纷飘洒,路上羁旅行人个个落魄断魂。借问当地之人何处买酒浇愁?牧童笑而不答遥指杏花山村。2、【秋夕】唐代:杜牧 银烛秋光冷画屏,轻罗小扇扑流萤。天阶夜色凉如水,卧看牵牛...

《记承天寺夜游》优秀教案
媒体设计:计算机课件 教学步骤: 一、设置情景导入课文。播放一组月色图让大家欣赏。导语:人们常说:“月色如画”,在摄影家、画家眼中如此,在散文大家的笔下也毫不逊色。今天我们就来学习一篇古代散文《记承天寺夜游》欣赏一下散文大家苏轼笔下的月色图。 二、简介作者。请学生交流收集的有关作者的信息,用多媒体展示...

准格尔旗13280285379: CAT在科学里面什么意思?
艾詹奥美: 计算机辅助测试:计算机辅助测试(CAT)工作站是一个集各种电参数的测试、仪器系统的硬件软件开发、仿真和调试、系统的状态显示和故障诊断以及文本编辑于一体的一个集成测试环境. 过氧化氢酶(CAT)是一种酶类清除剂,它可促使H2O2分解为分子氧和水,清除体内的过氧化氢,从而使细胞免于遭受H2O2的毒害,是生物防御体系的关键酶之一.

准格尔旗13280285379: 你好..计算机当中 AU.URL.CAD.CAU.CAT.CPU.CPO. TCP分别是什么? -
艾詹奥美: AU----Adobe Audition软件.URL----统一资源定位器,说白了就是网址.CAD----一种画平面图的软件,非常普遍.CAU----命令运算部件.CAT----计算机化适应性检测.cat命令的用途是连接文件或标准输入并打印.CPU----中央处理器,电脑的核心部件之一.集成运算器和控制器.CPO----电脑内部没有CPO,CPO是首席产品官的简称.TCP----传输控制协议.最常见的就是TCP IP协议.也叫网络通讯协议.

准格尔旗13280285379: CAT是计算机的应用领域之一,它具体是指什么? -
艾詹奥美: 计算机辅助测试

准格尔旗13280285379: 计算机辅助系统主要包括什么? -
艾詹奥美: 计算机辅助主要包括以下方面: 1、计算机辅助设计(CAD) 2、计算机辅助制造(CAM) 3、计算机辅助工程(CAE) 4、计算机辅助测试(CAT) 5、计算机辅助教学(CAI)简介: 计算机辅助系统(Computer-aided system)是利用计算...

准格尔旗13280285379: 什么是CAT -
艾詹奥美: 大写的CAT是指化学中的过氧化氢酶和计算机程序中的计算机辅助翻译.同时CAT也是卡特彼勒公司的缩写和一著名品牌休闲服装和鞋类.另外CAT还是国际公认会计技师.

准格尔旗13280285379: Cat,什么意思? -
艾詹奥美: 小写cat译为中文是猫的意思,大写的CAT是指化学中的过氧化氢酶和计算机程序中的计算机辅助翻译. cat其他解释:1. cat(Concatenate的缩写)是matlab中的一个函数,用于构造多维数组. 2. Central Africa Time,中非时间,GMT+ 2:00,通俗讲比夜上海GMT + 8:00)早6个小时. 3. cat命令的用途是连接文件或标准输入并打印.这个命令常用来显示文件内容,或者将几个文件连接起来显示,或者从标准输入读取内容并显示,它常与重定向符号配合使用.

准格尔旗13280285379: CAT考试是什么意思?
艾詹奥美: 计算机程序中的计算机辅助

准格尔旗13280285379: CAD、CAT、CAI、CAM各指什么?
艾詹奥美: cad:计算机辅助设计, CAI:计算机辅助教学 CAM:计算机辅助制造 CAT:计算机辅助测试

准格尔旗13280285379: 计算机中的CAD、CAM、CAI、CAT分别是什么意思? -
艾詹奥美: CAD---计算机辅助设计 CAM---计算机辅助制造 CAI---计算机辅助教学 CAT---计算机华轴向测试

准格尔旗13280285379: CAT是什么意思?
艾詹奥美:CAT简称 1. = Computer Aided Test 【电脑】电脑辅助测试 2. = computerized axial tomography 电脑化轴向测试 3. = clear - air turbulence 【气】晴空乱流cat[美] [kæt] [英] [kæt] 名词 1. 猫 When the cat is away, the mice will play. 猫儿不在,老鼠翻天. 2. 有三对活动脚的六脚器 3. 九尾鞭 4. (爱用指甲)抓人的孩子 5. 坏心眼的女人 6. 猫科的动物

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网