更新时间:2023-12-20 09:57
测试效度(test validity)亦称测试的有效性,指一套测试对应该测试的内容所测的程度。也就是说,一套测试是否达到了它预定的目的以及是否测量了它要测量的内容。例如:“Is photography an art or science?Discuss.”这种题目以摄影的知识为前提和主要内容,用来考语言能力,就不具有效性。又如用听写来测量学生的听觉能力,其效度也是不理想的,因为书面记录有声语言不仅涉及学生的听觉能力,而且还与他们的书写速度、拼写能力、语法知识、记忆能力和对全文的理解能力等有关。
测试的效度一般可分为以下几类:
(1)表面效度(face validity)
指测试应达到的卷面标准,即一套测试题从表面看来是否是合适的。例如,若一次阅读理解力的测试包括许多受试者没有学过的方言词汇,则可认为这次测试缺乏表面效度。表面效度是测试出受试者正常水平的一种保证因素。
(2)内容效度(content validity)
指一套测试题是否测试了应该测试的内容或者说所测试的内容是否反映了测试的要求,即测试的代表性和覆盖面的程度。例如,如果某一套发音技能测试题仅仅考查发音所必须具备的某些技能,如只考单一音素的发音,而不考查重读、语调或音素在词语中的发音,那么,该测试的内容效度就很低。
(3)编制效度(construct validity)
指一套测试题的诸项目对编制该测试所依据的理论的各个基本方面的反映程度。例如,以结构主义语言理论为基础,认为系统的语言习惯是通过句型而获得的,那么,强调词汇和语法环境的测试题目就失去了编制效度。
(4)经验效度(empirical validity)
经验效度是一种衡量测试有效性的量度,通过把一次测试与一个或多个标准尺度相对照而得出。经验效度可分为两种:一是共时效度(concurrent validity),即将一次测试的结果同另一次时间相近的有效测试的结果相比较,或同教师的鉴定相比较而得出的系数;二是预测效度(predictive validity),即将一次测试的结果同后来的语言能力相比较,或是同教师后来对学生的鉴定相比较而得出的系数。
一般来说,对某次测试的效度进行检验时,除了要根据教学大纲的要求和观念有效性的理论对试卷的内容进行考查以外,还须采用计算相关系数的定量方法,即计算出本次试卷与另一份已被确定能正确反映受试者水平的试卷之间的相关系数。系数高则有效性大。课堂测试的效度应在0.4-0.7之间,规模较大的测试其效度应在0.7以上。
测量的效度就是指测量的有效性,即能测量到所要测量目标的程度。一般来说,效度的作用比信度的作用更为重要。如果一个测验效度很低,无论它的信度有多高,这项测验都没有应用价值。较高的效度是一个良好的测验最重要的特性,是必要条件,也是选择和评鉴测验的重要依据。但是很多方面都在影响测量的效度,下面主要从测验本身、样本团体、效标因素进行具体分析。
由测验本身带来的影响因素有测验题目的质量、测验实施中的干扰、测验的长度、被试的因素等。
测验题目的质量
题目的指导语不明确、试题的表达不清晰、试题太难或太容易、题目中出现额外的线索、诱答设计不合理、题目过少、试题的安排和组织不恰当、试题不符合测验目的等因素,都会影响测验的效度,使效度降低。
实施测验时的干扰因素
测验的环境太差、被试不遵从指导语、记分错误,都会使测验的效度降低。
测验的长度
一般来说,增加测验的长度通常可以提高测验的信度,而效度系数能否达到最大值也受信度的影响,因此,增加测验的题目往往也能提高测验的效度。不过,效度增加的前提是这些增加的题目必须与测量的目标相关。
被试的影响因素
被试的反应定势、测验动机、情绪和身心状态都会对测量效度的影响。
对效度的计算往往是通过对样本团体的分数进行各种分析而得到的,所以样本团体的性质也会对测验的效度产生影响。这些影响体现在三个方面。
(1) 同一测验对不同的团体所测量的功能可能是不同的;
(2) 对于同一个测验,样本团体的性质不同,效度也会有较大的差别;
(3) 样本团体的异质性对效度也会有影响。
在采用效标关联效度时,效标的性质如何,会影响对测验效度的评价。一般来说,如果其他条件相同,所测量的行为或心理特质与效标行为或特质越相似,效度系数就越高。另外,效标与测验分数之间的关系是否线性也是一个很重要的影响因素。