梯度增加

一种用于建立预测模型的方法

什么是梯度增强?

梯度增强是一种用于建立预测模型的技术。该技术主要用于回归和分类过程。预测模型通常表示为决策树选择最好的预测。梯度助推和其他助推方法一样,是分阶段建立模型,同时允许可微损失函数的概化和优化。

梯度增加

梯度提升的概念起源于美国统计学家Leo Breiman,他发现该技术可以作为一种优化算法应用于适当的成本函数。该方法经过进一步发展,可以通过迭代选取弱假设或负梯度函数来优化成本函数。

总结

  • 梯度提升是建立预测模型的一种方法。
  • 正则化技术用于减少过拟合效应,通过保证拟合过程受约束来消除退化。
  • 随机梯度增强算法比传统的梯度增强程序更快,因为回归树现在需要拟合更小的数据集。

树的大小

取j为梯度提升中的参数,表示树数终端节点。参数j是可调的,取决于被处理的数据,并控制变量在模型中交互的次数。当决策残桩为两个,即j=2时,模型中变量之间不允许相互作用。

当决策残桩上升到三个,即j=3时,允许的交互效应仅针对最多两个变量。这种趋势以这种方式继续,取决于决策停顿的数量。

然而,最合适的决策残桩数量是在4到8个决策残桩之间。对于大多数应用程序来说,4个以下的决策残桩是不够的,而8个以上的决策残桩则太多且没有必要。

梯度增加正则化

当训练集的拟合过于接近时,它们的泛化模型的能力往往会下降。正则化技术用于减少过度拟合效果,通过确保拟合过程受到约束来消除退化。

一个常用的正则化参数是M,它表示梯度增强的迭代次数。M为决策树为基础学习者时,整个模型中决策树的个数。

大量的梯度提升迭代减少了训练集误差。提高梯度的数量将迭代推得太高会增加过拟合。从不同的验证数据集中监视预测的错误可以帮助选择促进迭代的梯度数量的最优值。

除了使用提升迭代的梯度数量作为正则化参数外,还可以使用树的深度作为有效的正则化参数。当树的深度增加时,模型很可能会过度拟合训练数据。

梯度增加收缩

收缩是一个梯度增强的正则化过程,它帮助修改更新规则,这是由一个称为学习率的参数辅助的。使用低于0.1的学习率可以对模型的泛化产生显著的改进。

在不收缩的梯度提升中,学习速率参数为1,可以看到显著的改进。但是,这样会增加计算时间,在查询和训练过程中代价更大。这是因为当学习率较低时,所需的迭代次数将增加。

随机梯度增加

弗里德曼被激励提出一个改进的梯度增强算法由引导聚合或装袋技术Breiman。Friedman提出,通过将基本学习者的迭代与各自的子样本进行匹配,可以改进算法,训练集可以随机采样而不替换。从弗里德曼的角度进行的修改大大提高了算法的准确性。

子样本的大小是训练集大小中的一个常数分数。当子样本为1时,算法成为确定性的。当子样本值较小时,算法具有随机性,减少了过拟合的机会。它也作为一个正则化过程被称为随机梯度增强。

随机梯度增强算法比传统的梯度增强算法速度快。算法更快,因为回归树现在需要在每次迭代中拟合更小的数据集,而不是传统过程中更大的数据集。

子抽样类似于套袋,它们允许定义袋外误差以提高预测性能。通过评估以前的预测,基础学习者可以纠正缺点,改进现有的预测。估计袋外误差有助于避免独立验证数据集。

树复杂性处罚

另一种梯度增强正则化方法是对树的复杂度进行惩罚。模型的复杂性可以定义为成比例的树叶的数量。模型的优化可以通过修剪树来降低模型的复杂性,消除任何不能达到阈值损失的分支。

额外的资源

感谢您阅读CFI指南的梯度增强。为了让你的职业生涯持续发展,以下额外的CFI资源将会很有用:

  • 随机森林
  • 从Excel过渡到Python
  • 树形图
  • 金融领域的机器学习
'的搜索结果为0