汉语大全>计算机理论>计算机口语考试信度研究

计算机口语考试信度研究

详细内容

摘要:本研究分析了信度概念及影响因素,并从成绩相关性、效度、评分维度及施测维度等诸信度要素分析了传统面试型口语考试(OPI)与计算机口语考试(COPI )。研究结果表明,OPI与COPI相关性较高,具有较高的效度和可替代性。OPI与COPI信度较高,测试结果不存在显著差异。评分维度上,两位评分者在OPI及COPI中的严厉程度没有显著性差异,评分信度较好。但即便是高相关的两种测试,COPI仍在项目及考生维度上较OPI产生了更多、更严重的评分偏差。施测维度上,考生心理上更倾向于OPI, COPI使考生紧张,且对施测环境COPI有较大干扰。尽管COPI施测手段更公正,但较OPI 缺乏交互性。要提高COPI施测信度,除考前需做好充分准备外,更需关注评分信度,固化评分标准,定期培训评分员,实时评估COPI评分信度,同时充分考虑COPI施测局限性,合理设置题型。

关键词:信度;计算机口语考试

大学英语教学改革将“培养学生的英语综合应用能力,特别是听说能力”(教育部高等教育司,2004)提上了日程,许多学校将口语测试纳人了大学英语评估体系。但目前大学英语班级规模较大,组织大规模面试型口语测试(Oral Proficiency Interview,简称OPI)费时费力,而且OPI的“信度往往较低”(Shohamy, 1986: 212-220 )。口语具有“瞬间性、临时性、短暂性” ( Fulcher, 2003)的特点,因此,口语能力的测试是一种主观性的语言测试。许多教师和测试专家都承认口语测试很难做到客观公正。“根本原因是其中要注意的成分太多,而且无法进行定量分析。当然,有时也有无意识的成见或偏爱”(刘润清,2000)。如何消除评分误差,提高口语测试信度的研究一直在进行,但可惜的是“完全消除不一致是不可能的”(Bachman, 1996) o 半直接口试又称录音口试(Simulated Oral Profi- ciency Interview,简称SOPI ),利用统一的录音材料获取考生的口语话语样本,并进行即时录音,然后考官听录音进行评分。由于试题内容统一,口试过程和评分过程分离,更适合于信度要求较高的大规模考试。国内学者(金艳,2002: 72-79)对录音方式的四、六级 CET-SOPI的效度、可行性、评分一致性及评分信度等做了研究,认为CET-SOPI可以替代CET-SET对考生进行口语能力测量。熊敦礼等人(2002;283-287)的研究也表明大规模录音口试是可行的,但需进一步完善与改进。随着网络技术的发展,计算机口语考试 (puterized Oral Proficiency Interview,简称COPI)作为一种新型的半直接口试方式,以其施测和评分的便捷得到应用。蔡基刚(2005:66-75)、宁见红(2009)等发现计算机口语考试在信度及效度上都超过面试型口试。周欣(2008)对计算机化高考英语口试的评分方法做了对比研究,指出如果不需要考虑有关考生英语口语能力的具体情况,使用整体性评分标准将更加合适。周民等(2008:103-107)对机助口试的反拨作用做了研究,发现大学英语机助口试对英语学习者学习态度、内容以及评估方面产生了反拨作用,但作用不明显。邱东林等(2005:76-79)分析了计算机口语考试的利弊。但目前国内对计算机口语考试信度的研究仍不多,有的只是一些简单定性的结论,缺乏说服力。本文将从影响计算机口语测试信度的施测及评分维度着手,分析OPI与COPI成绩相关性、信度效度差异,提出作者简介:戴朝晖:男,讲师,硕士。研究方向:外语教学法,测试学及语料库语言学。收稿日期:2010-03-18 戴朝晖:计算机口语考试信度研究提高CON信度的方法,以降低干扰侧面的影响,推动 COPI在大学英语口语考试中的应用。 1信度的概念及影响因子 信度是指“同一个人在不同场合参加同一测试或参加内容与难度相当的不同测试其成绩保持一致的程度”( Anasitasi , 1996 )。

刘润清认为语言测试的信度是指“考试结果的可靠性和稳定性”(刘润清,2000)。信度包括三个方面:测试本身的信度、受试者在不同情况下的表现及评分信度。 影响语言测试信度的因素有多种。Henning (1987)列举了五项影响测试信度的因素:①学习者的波动,如临时的心理或生理的变化;②评分的波动,如评分员之间、每个评分员自身前后之间的差异;③测试过程中的波动,如外界的干扰、不同的指令;④测试的特征,如测试时间的长短,试题的难易度、区分度;⑤ 与作答相关的错误,如猜测因素等。 Bachman(1999)认为主要的因素有以下4种:受试者的语言能力、测试方法、个人特征、任意性因素。语言能力决定的是真分数(true score),是测试所要测得的分数。考试成绩中真分数的比重越大,测试的结果就越可靠,信度越高;试题说明不清楚、考生对考试题型不熟悉、卷面字迹印刷不清楚、时间不充裕、考场环境、试题本身(如长度、难度、区分度等)都可影响到测试结果的信度;此外,考生的特征和任意性因素包括暂时的心理或生理方面的波动或变化(如生病、疲劳、缺乏考试动力、情绪波动等)均可影响到测试结果的信度,这些因素都是不系统的、随意的。 综合而言,制约口语测试信度的维度主要是施测及评分,即尽量减少测试方法、测试过程及测试程序所引起的误差,同时保证言语样本评分的客观性及一致性。另一方面,效度与信度不是截然不同的两个概念,而是测试中同一问题的两个互补方面,没有效度只有信度毫无意义,没有信度,效度也不可能得到保证。研究信度的同时需考虑效度。Shohamy (1986;212-220) 认为,如果同一批考生在OPI与COPI中成绩具有高相关性,则这两种考试测试的是同一种能力,即具有同样的效度和可替代性。因此COPI的效度如何,是否可代替OPI,主要取决于COPI与OPI成绩的相关程度。 2研究设计 2.1研究问题 (1) COPI与OPI成绩相关性、效度及信度如何? (2) COPI与ON评分维度是否存在差异,存在怎样的差异? (3) COPI与OPI施测维度是否存在差异,存在怎样的差异? (4)提高COPI测试信度有哪些措施? 2.2受试对象 本研究对象为2006级选修“多媒体(网络)英语” 的三个班级的学生,总人数为135人,COPI于OPI结束后两周进行。 2.3数据采集过程 本研究采用复测信度(test and retest reliability)的办法,数据来自于(1)用 ON及COPI分别施测的一套等值试卷结果;(2)调查问卷及访谈结果。 在COPI测试中,学生分两批(每批70人左右),分散于可容纳45人的三个机房中,每个机房分配约 22-25名学生,且配备两名监考教师及一名技术人员。学生进人机房后,用自己的学号及密码登录系统进行口语测试。本次口试的题型分为三部分:第一部分为朗读,学生需朗读指定的一段文章,准备时间为30秒,朗读时间为2分钟;第二部分为简短回答两个有关朗读内容的问题,准备时间各1分钟,回答问题时间各为 2分钟;第三部分为看视频材料,就所给题目发表自己的见解,准备时间2分钟,回答问题时间为3分钟。

整场考试总计时长为13.5分钟,包括答题与准备时间。 COPI考试结束后,学生留在机房做问卷调查。技术人员在服务器上开放评分模块,评分员在指定时间、指定地点完成网络阅卷的任务。阅卷时采用整体评分法(holistic scoring ),每一小题均采用十级记分制,评分者用鼠标点击相应级别,由计算机自动记分并求和。 在OPI测试中,由考官对学生现场评分,考试试题、过程及评分标准和COPI完全一致。 2.4控制方法 为使研究数据真实有效,在实验过程中,控制如下影响信度差异的其他要素: (1)控制试题侧面对施测信度的影响,考生须预先熟悉考试题型、时间分配及分数比例,特别是发放了 COPI考试操作须知及相关演示程序,以此控制试题说明不清楚、考试题型不熟悉等因素对测试信度的影响。 (2)考生侧面中,控制受考变化对施测信度的影响,参加OPI及COPI为同一批学生。 (3)评分侧面中,控制评分者变化对施测信度的影响,OPI及COPI采用两位相同的评分者。 2.5数据分析戴朝晖:计算机口语考试信度研究 首先使用Pearson相关系数检验OPI与CON相关性,然后计算OPI与CON Cronbach a信度系数。评分维度差异分析使用Rasch model的FACETS 3. 62. 0 (Linacre, 2007),检验评分一致性及评分偏差。采用均值检验方式分析ON及COPI问卷调查结果,并整理访谈结果。 3结果与讨论 3.1相关性及效度检验 用Pearson相关系数分析OPI与COPI的结果如下: 表1 COPI与ON皮尔逊相关系数表 OPI COPI OPI Pearson Correlation 1 .733(**) Sig. (2一tailed) .000 N 135 135 COPT Pearson Correlation .733(**)I Sig. (2一tailed) .000 N 135 135 ,,表示在0.01水平上相关(双尾) 表1表明,此次COPI与OPI在0.01水平上(双尾)的相关系数为0.733,这与国外面试型及非面试型同期效度研究的0.90高相关(Shohamy, 1989:4-9)有差距,但Hughes (1989)认为,口试是主观题,受评分者的影响较大,因此相关性要比阅读、词汇和结构略低,在0.7左右是比较高的。因此本次实验OPI与COPI 相关性较高,具有较高的效度和可替代性。 3.2信度检验 表2表明,OPI与COPI a信度系数为0. 834 o La- do(1961)认为“口语测试较为理想的信度系数为0.70 - 0. 79 "。因此,OPI及CON总体信度比较理想,分项信度除讨论题外均较高。 表3表明,OPI与COPI在测试结果上存在差异,但差异并不显著(显著性=.342(双尾))。OPI平均成绩略低于COPI,但方差却高于COPI,反映出OPI成绩有较高的离散度。表2 OPI与CON总分。信度系数表考试种类题项分项Alpha信度系数总Alpha信度系数 OPI& COPT 朗读.976 问题I .964 问题2 .981 讨论.563 表3考生OPI与COPI成绩差异考试种类均值方差标准误r值 d#显著性(双尾) ON COPT 10.708.52 924 一0.953 253.344 .342 736 3.3评分维度差异分析 在第二语言口语测试中,对被试口语水平的最终评价始终无法摆脱评分员主观判断误差的影响。

不同评分员之间,同一评分员在不同的心理和情绪状态之下,对同一考生口语水平的判断往往存在一定程度的不一致性(Lievens, 2001:255-264)。经典真分数理论只能解决不同评分者给同样的项目评分时一致性程度的问题(邹申,2005),而项目反应理论(Item Response Theory, IRT)是潜在特质理论,可为评定评分者的评分行为提供更为详细的诊断信息。 3.3.1评分者信度分析 模型分析显示,在OPI及COPI中,两位评分者均表现出较好的内部一致性。表中infit值在可接受的范围之内(士2Z5td) (Mamara, 1994)。从表4和表5 可知,分隔信度(.00)和卡方检验结果显著性指标(P =.76,p =.93)均表明评分者的严厉程度没有显著性差异,评分信度较好。 3.3.2评分者交互作用分析 由于评分者个体差异的存在,“考官往往把个人的看法以及偏见一起带进口试的情景内”( Raatz, 1981 ; 197-211),评分者个人特征与测试项目、考生之间发生交互作用,具体表现为评分者给某些考生或某些考试项目的评分比模型预测的分数要高或低,即评分者在评分中出现偏差。表4 OPI评分者报告表 Correlation Exact Agree Model Measure S. E judges MnSq ZStd PtExp Obs%Exp% 一2.57 一2.61 09 09 05 19 1.05 .76 .76 _96 .76 .76 02 03 09 On 1207 76 00 S. D. S. D ( Pop) (Sam) Separation .00 Reliability (not inter-rater) .00 Fixed (all same) chi-square:.1 d.〔:1 significance (probability):.76 戴朝晖:计算机口语考试信度研究表5 COPI评分者报告表 Correlation Measure5 .E. Exact Agree Estim. Discrm MnSq judges PtExp Exp% 一13.19 一13.35 18 18 1.04 .93 .93 1.02 .93 .93 今一凡, Q产Q S. D S.D (Pop) (Sam) 93加oo 93叨的 18 0000 13.27 08 Separation . 00 Reliability(not inter-rater) .00 Model Fixed ( all same) chi-square; .4 d. f.:1 significance (probability):.93 表6表明,ON中,两位评分者出现了7次评分偏差,其中评分者A出现5次,而评分者B出现2次,评分者A在给第133位考生评分时,reading过于严格 (实际分数为3分,模型期望值为5.4分),而discus- sion又过于宽松(实际分数为5分,模型期望值为1.9 分)。几乎全部评分偏差均出现在discussion项目维度上,而且都是最后一部分考生,说明一方面评分者对 discussion评分标准把握易出现偏差,另一方面偏差可能由于疲倦所致。表7 COP]评分偏差表 Cat Score Exp. Resd StRes judges Num em N items 表‘OPI评分偏差表 Cat Score Exp. Read StRes judges Num exa N items 5.4 5.5 133 99 133 99 3.7 3. 4 2.6 3. I 2.3 2.8 129 131 129 131 reading discussion discussion 乙U 么月沼 l,‘,‘ J峙么乃3 1、乙,J 4 discussion 133 100 133 4 discussion A人A AA卜D OU 一一吕6 100 4 discussion 130 4 discussion 10 8 7.1 .9 3.6 A 7 7 3 8 6 7.0一1.0一5.5 A 7 7 4 10 8 7.1 . 9 3.6 A 9 9 3 8 6 7.0一1.0一5.5 A 9 9 4 9 7 7.9一9一3.0 A 11 11 2 10 8 7. 1 9 3.6 A 11 1l 3 7 5 5.8一8一2.2 A 87 87 3 7 5 5.8一8一2.2 A 89 89 3 7 5 5.8一8一2.2 A 91 91 3 6 4 3.0 1.0 5.1 A 133 133 2 10 8 7. 1 . 9 3.6 B 8 8 3 8 6 7.0一1.0一5.5 B 8 8 4 10 8 7. 1 . 9 3.6 B 10 10 3 8 6 7.0一1.0一5.5 B 10 10 4 7 5 5.8一8一2.2 B 88 88 3 7 5 5.8一8一2.2 B 90 90 3 7 5 5.8一8一2.2 B 92 92 3 6 4 4.8一8一2.2 B 122 122 3 6 4 4.8一8一2.2 B 128 128 3 8 6 4.7 1.3 2.8 B 128 128 4 question2 discussion question2 discussion questionl question2 question2 question2 question2 questionl question2 discussion question2 discussion question2 question2 question2 question2 question2 discussion 而表7则表明,COPI并未能如人们预期地减少或消除OPI评分偏差,相反,却出现了大量原本在OPI中就没有的question 1及question 2项目上的偏差。COPI 中,两位评分者共出现了20次评分偏差,每位评分者均出现10次,其中过于严格的达到13次,过于宽松的 7次,特别是出现了5个标准残差(standardized residu- al)大于5,即标准值.2.5倍的奇异值,且有6位考生.同时在两个项目维度上发生了偏差,说明COPI中评分偏差更为严重。

全部5个严重偏差中的4个发生在discussion项目维度上,说明无论OPI,还是COPI, discussion都是评分者较难把握标准的项目,培训评分者时需予以重点关注。 COPI产生较多评分偏差的原因,一方面是由于目前COPI程序只起到了录音作用,评分者的工作量并未真正减轻,仍需听学生的答题录音并给分,而且在计算机前为考生评分更令人感到单调、乏味。另一个原因是评分过程中监控手段的缺失。由于是异步评分, “评分者可能违背了评分完整性的原则,在评分中任意后退、前进甚至跳过,评分可能只是基于部分内容,并未接受考生的全部语言产出”(戴朝晖,2010:87-95) , 对评分信度产生了负面影响。 3.4施测维度差异分析 此部分主要调查施测维度中考生个人特征、心理因素、考试环境、施测手段、测试特征等方面。问卷调查采用Likert五级记分法,每项备选答案从“完全不同意”到“完全同意”分五级,分别记I一5分。 问卷调查于OPI及COPI考试后立即进行,两次考试后各发放问卷130份,其中OPI收回有效问卷123 .标准残差标准值为:<{2 1 .此6位考生序号分别为:128,10,8,11,9,7 戴朝晖:计算机口语考试信度研究份,占95%左右。COPI收回有效问卷110份,占85% 左右。 根据问卷调查及随后的访谈结果,OPI与COPI在施测维度上存在如下一些差异: (1)考生心理上更倾向于传统OPI考试形式 ( OPI :4. 22, COPI : 2. 72; p =. 000),认为与考官面对面的考试形式更为人性化,更能为他们接受,且更容易发挥自己的水平。 (2)在两种考试中考生心理上的另一个显著差异是COPI使他们更感到紧张(OPI : 3. 24, COPI : 3. 80; p 二.000)。这与考生躲在计算机屏幕之后可不受考官情绪及面试技巧的影响,可缓解他们的紧张情绪之初衷相悖。考生表示计算机虚拟考官冷冰冰、不知变通,漏听或听错信息都不可能重复,因此心理上更为紧张。 (4)本次实验伊始即已考虑口语考试施测环境的影响因素,施测时每个考生之间隔着一个空位。但 COPI施测环境仍对考生有较大的干扰(OPI : 3. 60, COPI :3. 96;p=0.43)。 (5)在施测手段上,COPI更具公正性(OPI :3. 94, COPI :4. 11 ; p =. 039),这主要得益于CON客观的施测程序,考生在相同的时间内,按照相同的程序完成统一的口试任务,考试的公平性能得到充分的保证,消除了考官等人为因素对施测信度的影响。 (6) COPI缺乏交互性(OPI : 3. 07; COPI : 2. 56; p =.029),缺乏与考生即时有效的交流,有的考生认为 COPI“只不过是个录音机而已”,考试要“一直盯着屏幕上的进度条,唯恐说的话录不进去,感觉怪怪的”,自己“长话也变得短说了”。 4结论与讨论 4.1结论 本研究得出如下结论: (1) OPI与COPI相关性较高,具有较高的效度和可替代性。 (2) OPI与COPI具有比较理想的信度,测试结果存在差异,但差异不显著。 (3)评分维度上,两位评分者在OPI及COPI中的严厉程度没有显著性差异,评分信度较好。

但即便是高相关的两种测试,COPI仍在项目及考生维度上较 OPI产生了更多、更严重的评分偏差。 (4)施测维度上,考生心理上更倾向于OPI,因为 COPI使考生紧张,且施测环境有较大干扰。尽管CO- PI施测手段更公正,但与OPI相比缺乏交互性。 4.2讨论与建议 (1) Bachman(1999)认为熟悉的施测环境有助于缓解考生的紧张心理,施测环境包括考生对考试和考试设备、用具的熟悉程度、考试时间的安排和考场的自然环境等。充分的考前准备工作可以提高考试信度,尤其是依赖计算机及网络技术的COPI,流畅顺利的考试过程、运转良好的考试设备,特别是音频输人设备、不分散考生注意力的考试环境可缓解考生的紧张情绪,安全的考试认证过程、可靠的网络服务、无歧义的试题、清楚的考试指令、熟悉的施测手段和施测技巧均有利于考生的有效语言产出。 (2) COPI至少不能有效控制评分偏差,因此,CO- PI更需关注评分信度。首先,要仔细确定评分标准和评分等级,使评分员清楚各评分等级标准。其次,要定期培训评分员,包括有经验的评分员,试评试卷,固化评分标准,降低考官个人因素对评分的影响,提高评分信度。再次,要设置锚卷,实时评估CON评分信度,并对差异较大的评分者予以提醒。最后,可将朗读、应答等题型、答案基本固定的题目交给计算机自动评分,以减轻评分者的工作量。 (3)充分认识COPI施测的局限性,合理设置题型,提高信度。Weir (1992:27-43)把口语能力分为常规技能(routine skills )、应变技能(improvisation skills) 和微语言技能(micro-linguistic skills) ;Tepper(1978)则把口头交际定义为“二人或多人之间通过言语和非言语方法传达或接受想法、观点、感情和态度的一种活动,”其特征包括交互性(interactiveness )、即时性 ( spontaneity)、目的性(purposefulness )、副语言因素 ( para-lingustic features)和听力与口语的不可分割性 ( inseparability of listening from speaking) o OPI侧重对口语交际能力和交际策略的考核,而目前COPI作为一种SOPI,是以牺牲部分交际真实性为代价来提高测试的可行性与评分的可靠性的,比较适合大规模口语考试,但无法全面测试考生的应变及微语言技能。有鉴于此,交际口试题型就不适合用COPI方式施测,否则不但影响施测信度,而且将对英语口语教学带来负面效应。口 Anasitasi 1996. Bachman

参考文献,A. Psychological Testing[M了.Prentice Hall, L. F. Fundamental Considerations in Language ﹁lesjl l2 厂一一﹂一iesL Testing M」.上海:上海外语教育出版社,1999. 戴朝晖:计算机口语考试信度研究仁3〕Bachman, L. F.,Palmer, A. S. Language Testing in Pra4一nal,1986,40. tice[M」.Shanghai:Shanghai Foreign Education Press,[14〕Tepper, A. Speech munication Theory[ M〕.Kendall ; 1996. Hunt Publishing pany, 1978 [ 4 ] Fulcher, G. Testing Second Language Speaking[ M〕.Lon-[15〕Weir, C. J.,Bygate,M. Meeting the criteria of muni- don:Pearson Education Ltd,2003. cativeness in a spoken language test [ J I.Journal of English [5」Henning, G. A. Guide to Language Testing-Development, and Foreign Languages,1992. Evaluation and Research[ M ], Cambridge: Newbury House [ 16〕蔡基刚.大学英语四、六级计算机口语测试效度、信度和 Publishers, 1987.可操作性研究[J].外语界,2005. [ 6 ] Hughes, A. Testing for Language Teachers [ M ]. Cam- [ 17」戴朝晖,尤其达.大学英语计算机口语考试评分者偏差 bridge: Cambridge University Press, 1989分析[J].外语界,2010(5). [ 7 ] Lado, R. Language Testing [ M ] . London: Longman,1961. [ 18」教育部高等教育司.大学英语课程教学要求(试行) [8 ] Lievens, F. Assessor training strategies and their effects on [ M ].上海:上海外语教学出版社,2004. auracy, inter-rater reliability, and discriminant validity仁19」金艳,郭杰克.大学英语四、六级考试非面试型口语考试 [J]. Journal of Applied Psychology, 2001,2效度研究[J].外语界,2002(5). 仁9 ] Linacre, J. M. Facets Rasch Measurement puter Pro- [ 20]刘润清,胡壮麟.语言测试和它的方法「M].北京:外语 gram[ M/OL]. Chicago: Winsteps. ,2007.教学与研究出版社,2000 [10] Mamara, T. F. , Adams, R. J. Exploring Rater Charac-仁21」宁见红.大学英语期末面试口试与机助口试的对比研究 teristics with Rasch Techniques仁C]. Selected papers of the [D].广西师范大学,2009. 13th Language Testing Research Colloquium ( LTRC ). [ 22]邱东林,季佩英,万江波,等.大学英语听说机考尝试 Princeton, NJ: Educational Testing Service,1994. [J].外语界,2005(4). [ 11 ] Raatz, V. Are Oral Tests Tests. Practice and Problems in [ 23]熊敦礼.大学英语大规模录音口语测试研究[J].外语 Language Testing[M].Frankfurt, 1981.教学与研究,2002(4). [12] Shohamy, E. , Gordon, C. , Kenyon, D. , et al. The de- [24]周民,王嫦丽,董国军.大学英语机助口试对英语学习的 velopment and validation of a semi-direct test for assessing反拨作用—以昆明理工大学机助口试为研究对象 oral proficiency[ J ] . Bulletin of Higher Hebrew Education, [ J l.昆明理工大学学报(社会科学版),2008(4). 1989,4. [25」周欣.计算机化高考英语口语测试中整体性和分析性评 [13] Shohamy, E.,Reves, T.,Bejarano, Y. Introducing a分方法的对比研究[M].广东外语外贸大学,2008. new prehensive test of oral proficiency[ J ] . ELT Jour- [ 26]邹申.语言测试[M〕上海:上海外语教育出版社,2005. A Study of the Reliability of puterized Oral Proficiency Interview