分类变量 - 知识百科

分类变量

更新时间：2023-02-09 12:58

分类变量（categorical variable）是说明事物类别的一个名称，其取值是分类数据。如“性别”就是一个分类变量，其变量值为“男”或“女”；“行业”也是一个分类变量，其变量值可以为“零售业”、“旅游业”、“汽车制造业”等。

简介

特征

（categorical variable）：其变量值是定性的，表现为互不相容的类别或属性。

处理方法

中序次测度变量和名义测度变量的处理方法一样，所以一般并不加以区分,序次测度变量常作为名义测度变量来用,把二者合称为分类变量。

哑变量

分类自变量的哑变量（dummy variables）编码来源：生物统计学论坛在多重回归、Logistic回归模型中，自变量可以是连续型变量（interval variables），也可以是二项分类变量，和多分类变量。为了便于解释，对二项分类变量（如好坏、死活、发病不发病等）一般按0、1编码，一般0表示阴性或较轻情况，而1表示阳性或较严重情况。如果对二项分类变量按+1与-1编码，那么所得的logistic回归OR=exp（2beta），多重回归的beta同样增加一倍，容易造成错误的解释。因此建议尽量避免“+1”、“-1”编码形式。多分类变量又可分为有序（等级）或无序（也叫名义），如果是有序（ordinal）分类变量，一般可按对因变量影响由小到大的顺序编码为1、2、3、...，或按数据的自然大小，将它当作连续型变量处理。如果是无序的（nominal）分类变量，则需要采用哑变量（dummy variables）进行编码，下面以职业（J）为例加予以说明。假如职业分类为工、农、商、学、兵5类，则可定义比分类数少1个，即5－1=4个哑变量

类型

变量类型不是一成不变的，根据研究目的的需要，各类变量之间可以进行转化。例如血红蛋白量（g/L）原属数值变量，若按血红蛋白正常与偏低分为两类时，可按二项分类资料分析；若按重度贫血、中度贫血、轻度贫血、正常、血红蛋白增高分为五个等级时，可按等级资料分析（资料是根据临床数据得出）。有时亦可将分类资料数量化，如可将病人的恶心反应以0、1、2、3表示，则可按数值变量资料（定量资料）分析。

分类

简介

分类变量可分为无序变量和有序变量两类。

释义

无序分类变量（unordered categorical variable）是指所分类别或属性之间无程度和顺序的差别。，它又可分为①二项分类，如性别（男、女），药物反应（阴性和阳性）等；②多项分类，如血型（O、A、B、AB），职业（工、农、商、学、兵）等。对于无序分类变量的分析，应先按类别分组，清点各组的观察单位数，编制分类变量的频数表，所得资料为无序分类资料，亦称计数资料。

有序分类变量（ordinal categorical variable）各类别之间有程度的差别。如尿糖化验结果按－、±、+、++、+++分类；疗效按治愈、显效、好转、无效分类。对于有序分类变量，应先按等级顺序分组，清点各组的观察单位个数，编制有序变量（各等级）的频数表，所得资料称为等级资料。

免责声明

隐私政策

用户协议

目录 22

0{{catalogNumber[index]}}. {{item.title}}