更新时间:2024-05-21 13:51
统计模型诊断是20世纪70年代中期发展起来的统计学领域一个新的研究方向,其主要目的是评价统计模型的适当性以及识别数据中可能存在的异常值和强影响点。在模型适当性的评价方面,线性模型中主要采用残差分析来判断模型拟合的好坏。
异常值的识别主要在一定的异常模型假设下进行统计检验。而影响点的识别主要是研究数据点f或数据集对我们关注的某个内容的影响程度并识别数据中的特殊结构,这项工作也称之为影响分析。统计模型诊断可以为统计模型的改进提供重要的参考信息。在某些领域中,异常值及影响点还可以为我们提供某些特殊信息:如在地质找矿中,异常值及影响点可能对应着矿产资源富集信息;而在经济领域,异常的出现还可能是某种预警信息的表现。
异常值对我们现代人来说并不陌生,人们甚至不自觉地会采用一些手段来处理现实生活中出现的异常现象。最典型的就是在体育比赛中对裁判打分的平均算法——去掉一个最高分和最低分,再作平均。人们对异常值的认识可以追溯到l6世纪,Bernoulli提到:“在200多年前,人们丢掉异常值的处理方法已经是常见的现象。”处理和识别异常值的统计方法可追溯到l850年。虽然异常值的识别和处理方法在现代已经发展很快,但是对异常值的定义依然有不同的理解和争论。 例如Edgeworth(1887)认为:不一致观测值(discordantobservation)可以定义为那些与所在样本中其他数据点遵从的频率规则flawoffrequency不一致的观测值。
82年后,Grubbs(1969)又这样表述:
一个异常的观测值,即异常值,是严重偏离所在样本其他数据点的观测值。这些表述实质上认为异常值是有目的的、后验的.这种有目的性的识别异常值的方法,一般只能在数据中的异常值可以预先通过视觉观察时才能使用(在一元小样本中较多)。事实上,对样本量较大或较为复杂的数据集,比如回归、多元数据、试验设计等,预先观察到异常值是很困难的.因此,就有在观察到异常值之前制定一种客观的准则,这种准则大多依赖于异常值模型(outliermodel)。由于强调统计建模的重要性,许多研究者认为异常值是那些来自于非目标总体(某种统计模型)的观察值.Hawkins(1980)给出了一种比较明确的定义:异常值是指污染的观测值或不一致观测值的总称。不一致观测值是指那些让调查者感到吃惊或有较大偏差的数据点。而污染的观测值是指来自非目标总体的观测值。