首页常见问题正文

高级数据建模分析:模型拟合程度越高效果越好吗?

更新时间:2022-11-23 来源:黑马程序员 浏览量:

Java培训班

  一般而言,我们希望追求更好的拟合程度,因为越好的拟合意味着模型能够越全面地学习到数据中的规律和信息。但是,在某些场景下,拟合程度过高意味着严重的“负面”问题。

  例如,决策树是一类数据拟合程度非常高的算法,但可能产生过拟合的问题。过拟合通俗点讲就是在做分类训练时,模型过度学习了训练集的特征,使得训练集的准确率非常高,但是将模型应用到新的数据集时,准确率却很差。因此,避免过拟合是分类模型(重点是单一树模型)的一个重要任务。通过以下方式可以有效避免过拟合。

  (1)使用更多的数据。导致过拟合的根本原因是训练集和新数据集的特征存在较大的差异,导致原本完美拟合的模型无法对新数据集产生良好的效果。

  (2)降维。通过维度选择或转换的方式,降低参与分类模型的特征数量,能有效防止原有数据集中的“噪声”对模型的影响,从而达到避免过拟合的目的。

  (3)使用正则化方法。正则化会定义不同特征的参数来保证每个特征有一定的效用,不会使某一特征特别重要。

  (4)使用组合方法。例如,随机森林、adaboost、xgboost等不容易产生过拟合的问题。

  相似问题:过拟合不仅存在于决策树中,也存在于其他监督式学习中。例如,在做回归时,基本上所有的模型都有各种误差。当你发现误差非常小,甚至几乎为0的时候,就要非常小心,因为这时候很可能已经出现了信息泄露、具有强相关的特征、特征选取失误等问题。

分享到:
在线咨询 我要报名
和我们在线交谈!