过拟合 - 知识百科

过拟合

更新时间：2023-11-17 21:48

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

概念

为了得到一致假设而使假设变得过度严格称为过拟合。

定义

给定一个假设空间H，一个假设h属于H，如果存在其他的假设h’属于H,使得在训练样例上h的错误率比h’小，但在整个实例分布上h’比h的错误率小，那么就说假设h过度拟合训练数据。

判断方法

一个假设在训练数据上能够获得比其他假设更好的拟合，但是在训练数据外的数据集上却不能很好地拟合数据，此时认为这个假设出现了过拟合的现象。出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。

图例

例：如图1所示为不同的分类方式（分类器）

可以看出在a中虽然完全的拟合了样本数据，但对于b中的测试数据分类准确度很差。而c虽然没有完全拟合样本数据，但在d中对于测试数据的分类准确度却很高。过拟合问题往往是由于训练数据少等原因造成的。

常见原因

（1）建模样本选取有误，如样本数量太少，选样方法错误，样本标签错误等，导致选取的样本数据不足以代表预定的分类规则；

（2）样本噪音干扰过大，使得机器将部分噪音认为是特征从而扰乱了预设的分类规则；

（3）假设的模型无法合理存在，或者说是假设成立的条件实际并不成立；

（4）参数太多，模型复杂度过高；

（5）对于决策树模型，如果我们对于其生长没有合理的限制，其自由生长有可能使节点只包含单纯的事件数据(event)或非事件数据(no event)，使其虽然可以完美匹配（拟合）训练数据，但是无法适应其他数据集。

免责声明

隐私政策

用户协议

目录 22

0{{catalogNumber[index]}}. {{item.title}}