无回答

更新时间:2024-06-27 11:14

无回答是指调查人员因各种原因不能从被抽出的一些样本单位中获得所需要的信息。它从内容上可分为:(1)单位无回答:被调查单位没有参与或拒绝接受调查。(2)项目无回答。被调查单位虽然接受调查,但对其中的一些调查项目没有回答。它从性质上可分为:(1)有意无回答。通常与调查内容有关。(2)无意无回答。通常与调查内容无关。在抽样调查中,因有回答和无回答的被调查者之间往往存在系统性差异,若用有回答的调查结果来推断总体就会使样本失去代表性,造成调查结果的偏差,通常称为无回答误差,故在抽样凋查中应尽可能消除或降低无回答率。

含义

无回答是影响调查数据分析结论可信度的重要因素,可能造成估计量的系统偏差。在调查设计、调查数据收集、整理和分析过程中的很多潜在因素都可能造成无回答。在调查实践中,无回答是指单元没有提供某些或全部调查数据。一般地,无回答分为单元无回答和项目无回答。单元无回答是指单元没有接受调查,或没有提供调查问卷的任何信息。例如,没有收回调查问卷,或者收回的调查问卷全部项目空白而出现的无回答。项目无回答是指单元只回答了调查问卷的某些而不是全部的调查数据。例如,在新药临床试验过程中,或者单元认为新药疗效不好而停止用药,或者认为新药疗效好,病情好转而不再继续治疗,造成项目无回答。

在现场调查中,事前安排好的实验被意外原因终止造成无回答;一些特殊原因的失访也会导致单元无回答;检测限以下数值由于测量工具的局限性会造成无回答;实验单元意外死亡会造成无回答;跟踪调查时单元搬迁而无法取得联系造成无回答,等等。在调查实践中,无回答经常发生,甚至很难避免。特别是以人为单元,更容易出现无回答。很多教材曾引用下面一个案例。1992年,英国保守党第四次在大选中以7.6%的优势胜出。在大选当日,4个主要民意调查公司最后一次民意测验结果仍然表明工党领先了0.9%,预测误差达到了8.5%。在后来的研究中发现,引起如此大预测误差的主要原因之一是在民意测验中没有明确意图的选举人导致预测误差大于2%。在调查中,这些选举人“拒绝回答”或回答“不知道”,在进行统计分析时没有对这些数据采取适当的统计分析方法,导致统计分析的严重偏差。

目前,无回答的研究文献很多,对无回答含义的解释并不完全一致。Little and Rubin(1987)用无回答机制描述无回答的含义。Graham(2012)定义无回答为单元完成调查的状态。后者的定义是为了引入描述无回答状态变量M,M=1表示调查数据Y是观测的,不是无回答;M=0表示调查数据Y为无回答。

产生原因

在实际调查中,无回答产生的可能原因很多,涉及到调查组织者、调查方案设计者、调查员和被调查单元以及调查的各个阶段等。其中,主要原因如下。

1.调查方案设计不合理或者问卷设计不恰当,导致调查得不到被调查单元的数据;问卷涉及个人隐私或者工作机密,被调查单元不愿或不能回答;调查问卷过长,调查项目过多,被调查单元没有足够时间完成调查问卷;调查项目太复杂或选项含糊不清,被调查单元无法正确理解调查项目含义。

2.调查员缺少职业素养,对被调查单元不热情不主动,往往招致被调查单元拒绝回答调查项目;调查员缺乏追问、补问、查漏等必备的基本能力和技巧;调查员的工作态度不积极,往往会放弃联络困难的被调查单元;现场调查的调查员遗漏填写某些调查项目,或者认为调查项目无关紧要或者对调查项目理解不当而没有调查。

3.调查单位没有做好调查的宣传和组织工作,被调查单元经常以各种借口拒绝参加调查;调查时间选择不当,往往找不到外出频率较高的被调查单元;或者被调查单元比较忙、正在就餐或者正在准备外出而不接受入户调查。

4.数据录入员由于粗心遗漏了某些调查数据,或者按照自己意愿删除某些调查数据。

5.学历较低的被调查单元经常拒绝参加调查,或者不理解而不回答调查问题;学历较高的被调查单元更容易接受调查,但所提供的调查数据真实性不一定好于学历较低的被调查单元。

6.对于敏感性调查项目,被调查单元认为某些项目可能会招致日后麻烦或不利影响而拒绝回答;种族和民族的忌讳会引起被调查单元的消极情绪而拒绝回答;调查问卷的调查项目表述不明确,或者调查项目不能引起被调查单元的兴趣容易产生无回答。

7.被调查单元是聋哑人、智障或文盲;作为独生子女的被调查单元无法回答有关兄弟姐妹关系等调查项目;被调查单元无读写能力,不能参加邮寄调查;在医学和生物学等的临床实验研究中,被调查单元的治愈康复、死亡或不愿意继续参加实验而中途退出;在电话调查中,被调查单元的听力和语言障碍而无法进行调查。

8.被调查单元的疏忽也会遗漏某些调查项目;被调查单元态度消极、对调查重要性认识不够、出于自身原因或情绪欠佳等拒绝参加调查。

9.调查员对某些被调在单元没有调查权,或者被调查单元地址不详,或者被调查单元无法寻找等,统计保障制度建立得不完善,缺乏统计执法力度不能保证某些调查的顺利进行。

10.在网络调查中,邮件没有到达被调查单元邮箱,或邮件达到被调查单元邮箱但被调查单元在调查期间没有打开邮箱;被调查单元的计算机无法下载调查问卷;调查员没有收到或无法下载已完成的调查问卷。

11.含调查问卷的信件无人打开;电话调查中,调查员的电话无人接听。

上述罗列的是产生无回答的常见原因,还有很多未被罗列的其他原因也会导致无回答。罗列出无回答的全部潜在原因很困难,甚至是不可能的。调查员和调查组织单位更倾向于高质量完成调查工作,积极性和主动性更高,不断积累调查经验和付出更多的努力,往往会减少或避免自身原因所造成的无回答。与调查人员和调查组织单位相比,被调查单元并不会更多关注调查工作,很难主动去减少或避免无回答的出现。

偏差

在无回答的早期研究中,人们假定无回答是被调查单元的本质特征,被调查单元要么回答调查项目,要么不回答调查项目。按照是否回答调查项目,将所有被调查单元分为两个集合,回答调查项目的被调查单元集合称为回答层,不回答调查项目的被调查单元集合称为无回答层。

这里,为了简单,只关心一个调查项目Y。令 分别为总体中被调查单元总数、回答层单元数和无回答层单元数, 分别为总体均值、回答层均值和无回答层均值。设无回答层和回答层的被调查单元数占比分别为 。可以验证 ,并且, 。由于事前很难判断每个单元是否为无回答, 都未知。从总体中随机抽取的单元,可能来自于回答层,也可能来自于无回答层。观测到的样本标志值都是来自回答层的单元,样本均值记为 。 当抽样方法是简单随机抽样,回答层的样本均值是回答层均值的无偏估计,即 。用样本均值 估计总体均值 ,偏差为

偏差大小取决于无回答层单元数占比 ,以及回答层均值和无回答层均值之间的差值。对于简单随机抽样,样本均值是总体均值的无偏估计。由于无回答导致观测的样本量减小,用观测的样本均值估计总体均值的偏差称为无回答偏差。在数据分析模型中,由于无回答导致模型参数估计量的期望不再等于参数真值,也称其偏差为无回答偏差。

在很多社会调查中,无回答单元往往与回答单元具有不同的统计特征,差值 往往不等于0,而且未知的,无回答造成估计量偏差很难确定。在有些情况下,无回答是客观的偶然因素导致的,不会造成回答层与无回答层之间差异,只会造成样本量减小。在另外一些情况下,回答单元和无回答单元的统计特征存在较大差异,回答层样本不能全面反映总体的统计特征,造成估计量的偏差很大。

根据等式(1),当无回答层均值与回答层均值之间差异较小或无回答率WM较小时,无回答偏差也较小。在实际调查中,差值未知,减小偏差只能尽量降低总体无回答率WM。有些学者鼓励调查数据具有适当高的回答率,认为回答率应该大于50%,回答率高于60%更好。有些学者认为面访调查的回答率为85%是合适的最低限度,回答率低于70%很可能产生严重偏差。目前,由于实际调查问题的复杂性,还没有无回答率最低限度的公认标准,低于公认标准将导致较大无回答偏差。

注意到,等式(1)成立条件为无回答是单元的本质特征。然而,随着抽样调查的广泛应用,有些领域的研究发现,无回答率对总体均值估计量的影响并不大。降低无回答率不一定会降低无回答偏差,有时反而使偏差变大。研究文献也指出,无回答偏差也受到调查环境的影响。,

为了描述偏差的严重程度,Collins et al. (2001)采用了标准化偏差。记估计量的标准化偏差为SB(),均方误差为MSE()。则

Collins et al. (2001)认为,标准化偏差的绝对值不超过40%,无回答不会对估计量造成显著影响;标准化偏差超过40%,无回答可能导致统计分析出现显著偏差。无回答原因和调查项目的相关程度也影响标准化偏差大小。

无回答的敏感性分析是在给定参数取值区间内,检验无回答对估计量偏差的影响。如果在给定的参数值范围内无回答偏差很小,则倾向于无回答偏差的真实水平很小。敏感性分析的参数包括无回答率、目标变量和辅助变量之间相关系数,无回答原因变量与目标变量之间相关系数等。对于未知的相关系数,需要进行估计。在参数取值范围内,无回答偏差显著性的检验统计量

其中为模拟次数。该检验统计量渐进服从T分布,自由度等于模拟次数减2。

偏差度量估计量的均值和总体真值之间差值,在很多情况下并没有太大价值,但是很多其他评价无回答偏差的方法都是偏差的函数。对于无回答偏差的评价,偏差的局限性是在模拟过程中偏差的显著性与模拟次数有关。标准化偏差是偏差的函数,评价无回答偏差更合理;局限性是随着样本量增加而标准化偏差增大。评价无回答偏差的其他方法还有标准差、相对偏差、根均方误差等。

解决方法

为解决无回答问题,常用的处理方法有以下三种。

第一,多次调查。即对于首次调查无回答的单位,分清原因,有针对性地进行第二次、第三次甚至更多次的调查。多次调查能减少不回答率,但要增加费用。

第二,对调查结果进行估算。即不把精力放在如何提高回答率上,而是根据相关信息依靠已回答的数据进行估算,以减少无回答现象对调查结果的影响。

第三,在无回答者中抽取随机子样本进行调查。若调查最初采用邮寄方式进行,从没有寄回填好的问卷者中抽选一个随机子样本进行访问调查。

免责声明
隐私政策
用户协议
目录 22
0{{catalogNumber[index]}}. {{item.title}}
{{item.title}}