概化理论

更新时间:2023-12-23 16:59

概化理论是测量理论中最重要的三种理论之一。一般将测量理论分为经典测量理论(CTT)、概化理论(GT)和项目反应理论(IRT)三大类,或称三种理论模型。概化理论从20世纪60年代诞生到1976年提出多元GT,在理论和方法上不断发展,通过改进经典测验理论的数学模型、引进方差分析技术等方法,把分数变异细分为多种来源,为测验决策提供了系统的理论和方法。80年代后期GT迅速发展,与IRT和CTT形成三足鼎立的局面三种测量理论构成了现代人才测评的理论基石。

简介

凡测量都有误差,误差可能来自测量工具的不标准或不适合所测量的对象,也可能来自工具的使用者没有掌握要领,也可能是测量条件和环境所造成,也可能是测量对象不合作所引起。总之产生测量误差的原因是多种多样的,而CTT理论仅以一个E就概括了所有的误差,并不能指明哪种误差或在总误差中各种误差的相对大小如何。这样对于测量工具和程序的改革没有明确的指导意义,只能根据主试自己的理解去控制一些因素,针对性并不强。鉴于此种情况,二十世纪六十至七十年代初,克伦巴赫(Cronbach)等人提出了概化理论简称GT理论。

基本思想

任何测量都处在一定的情境关系之中,应该从测量的情境关系中具体地考察测量工作,提出了多种真分数与多种不同的信度系数的观念,并设计了一套方法去系统辩明与实验性研究多种误差方差的来源。并用“全域分数”(Universe Score)代替“真分数”(True Score),用“概括化系数,G系数”(Generalizability Coefficent)代替了“信度”(Reliabilty)。

主要内容

概化理论认为,测量的总方差可以分解为代表目标测量的方差成分和构成误差的种种方差成分。测量工作中要加以认识和予应用的心理特质水平是测量目标。而构成测量条件与具体情境关系的因素,称为测量侧面(Facets of Measurement)。如学生阅读能力测验,其目的是对学生阅读能力的测量,因此,阅读能力就成为测量目标,除此外试题的水平和评分者等因素也会影响测验的总变异。这两个因素就是测量侧面。这里对学生阅读能力的测量是在双侧面情境的条件下进行的。测量侧面中的单个事例叫侧面的水平,如有两个评分者甲和乙,则评分者这一侧面就有两个水平。测量侧面又分为随机侧面和固定侧面。随机侧面是指测量侧面中所包含的各水平中是类似水平的随机样本,而非固定不变的侧面,如大规模考试中评分者每次都有可能不同,由这样变化的评分者所组成的测量侧面就称为随机侧面。固定侧面是指在各次实施中测量侧面的所在水平一直保持不变的测量侧面,如标准化的心理测验中测验的项目总是一样,这样的侧面就叫固定侧面。因此,进行测验的标准化就是对某些测量侧面进行固定。固定测量侧面可以减少测量误差,但却会使测量目标变得更为局限。比如,把阅读理解题定为对科技说明文,这时,所测的特质就不再是一般的阅读理解能力,而是特定的对科技说明文的理解能力了。这样,测验所得的分数就不能再推广到原来那么宽广的范围了。

概化理论强调,测量目标是具体的,并不是绝对固定不变的。因而全域分数也就不固定,可以有多种。一方面,当固定侧面时,侧面本身会转化为测量目标的一部分(如对一般阅读理解能力的测量转变为对科技说明文的测量),测量目标要局限化;另一方面,当测量中考察目的与应用需要改变时,测量目标对象就可能完全转移。比如,当作文考试结果是要对考生作判断时,测量目标就是考生的作文能力,若要把评分严与评分宽的评分者区分开,评分者的能力就成了测量目标,也即测量目标就完全发生了转移。显然,测量目标不同时,标志测量目标的分数也就不同。测量目标在具体关系条件下的分数叫全域分数。这样,有时对同一批测量资料来说,当测量工作的具体关系变化时全域分数也会变。即同一测验资料就可能有多种全域分数。

概化理论把全域分数方差对总变差的比称为为概括力系数(简称G系数)。而总方差可以分成全域分数方差(δ2 (p)和误差分数方差(δ2(δ)),如果测验是常模参照性测验,则G系数E2ρ是评价测验稳定性程度的最佳指标:

即: E2ρ=(δ2(p))/[ δ2(p) +(δ2(δ))]

若该测验是标准参照性测验,则其依存性j指标是测验稳定一致性的最好指标。

j=(δ2(p))/[ δ2(p) +(δ2(△))]

上两式中,误差方差δ2(δ)可能是很多项的和,如上例中考生的阅读理解能力的方差是标志测量目标的方差,即为全域分数方差记为(δ2(p)),而试题、评分者及三个主效应间的交互作用方差(共有7种方差成分)都不应包括在全域分数方差之中,作为误差方差(δ2(δ))的一部分,是构成总方差的成分之一。由此可见,当全域分数方差不变,而误差分数方差增大时,概括力系数值降低,信度降低。反之,当全域分数方差增大,而误差分数方差不变,则概括力系数增大,信度提高。所以,随着测量情境关系的变化,测量目标与侧面的变动,概括力系数即信度也就会不同。同一批资料就可能有多种不同含义与取值的概括力系数。一般说来,增大概括力系数的方法有两种:第一种是,固定测量侧面(如固定试题)。第二种是增加侧面所包含的水平数(如增加试题或评分者数目)。

概化理论是用方差分析的方法来全面估计出各种方差成分的相对大小,并可直接比较其大小。虽然真分数理论也可以分别地估出某一方差成分的大小,如代表试题侧面的内部一致性系数,代表评分者侧面的评分者信度等,正因为是单独估出的,这些值之间不能直接比较,也只有对主效应作估计,而不能对交互作用进行估计。而概化理论却能做到这一点。它既能估计出主效应,也能估计出交互作用效应,并能对各估计值的大小进行直接比较。在概化理论中,理论估出各方差成分相对大小的过程,叫概化理论的概括分研究阶段或称G-研究阶段。

概化理论并不内静止地分析各种误差来源,还要在G-研究的基础上,通过实验性研究,进一步考察不同测验设计条件下的概括力系数的变化状况,如固定侧面或增加侧面水平下的变化状况,从而探求到最佳的控制误差的方法,作出最佳的设计决策,从而改进测验的内容、方式方法提供了有价值的信息。这一阶段称作决策研究或称D-研究阶段。

GT在研究测量误差方面有更大的优越性,它能针对不同测量情境估计测量误差的多种来源,为改善测验,提高测量质量有用的信息。其缺陷是统计计算相当繁杂,如果借助一些统计分析软件可以解决这一问题。GT理论目前在我国还处于实验研究阶段,在面试、考核等主观性测评中有一些应用。

免责声明
隐私政策
用户协议
目录 22
0{{catalogNumber[index]}}. {{item.title}}
{{item.title}}