XGBoost算法¶

什么是XGBoost¶

XGBoost（eXtreme Gradient Boosting，极端梯度提升）是一种高效的机器学习算法，由华盛顿大学的Tianqi Chen开发。它是梯度提升决策树（GBDT）的一种改进实现，通过集成多个弱学习器（通常是决策树）来构建强大的预测模型。

XGBoost的名称中：

集成学习是一种将多个基学习器组合起来，以获得更好预测性能的机器学习方法。集成学习主要分为三类：Bagging、Boosting和Stacking。

Boosting是一种序列化的集成方法，其核心思想是将多个"弱学习器"组合成一个"强学习器"。通俗地说，就是"三个臭皮匠顶个诸葛亮"的道理。与随机森林等Bagging方法不同，Boosting方法通过分步迭代的方式构建模型：

梯度提升决策树（GBDT）是一种特殊的提升算法，它使用决策树作为基学习器，并通过梯度下降方法优化损失函数。

GBDT的基本流程：

XGBoost在传统GBDT的基础上引入了多项创新：

目标函数优化：XGBoost的目标函数由两部分组成： • 损失函数（Loss）：衡量模型预测与实际值的差距 • 正则化项（Regularization）：控制模型复杂度，防止过拟合目标函数可表示为：Obj = L + Ω
二阶泰勒展开：XGBoost使用损失函数的二阶泰勒展开进行近似，这使得优化过程更加高效。
树结构学习：XGBoost采用贪心算法来确定最佳的树结构，通过评估分裂增益来决定是否进行节点分裂。