2

XGBoost完全指南

 2 years ago
source link: https://bacterous.github.io/2018/09/13/XGBoost%E5%AE%8C%E5%85%A8%E6%8C%87%E5%8D%97/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

XGBoost完全指南

1 个月前Machine Learning 17 分钟 读完 (约 2503 字)

原文地址:Complete Guide to Parameter Tuning in XGBoost (with codes in Python)

XGBoost(eXtreme Gradient Boosting)是Gradient Boosting算法的一个优化的版本。因为我在前一篇文章,基于Python的Gradient Boosting算法参数调整完全指南,里面已经涵盖了Gradient Boosting算法的很多细节了。我强烈建议大家在读本篇文章之前,把那篇文章好好读一遍。它会帮助你对Boosting算法有一个宏观的理解,同时也会对GBM的参数调整有更好的体会。

XGBoost的优势

XGBoost算法可以给预测模型带来能力的提升。当我对它的表现有更多了解的时候,当我对它的高准确率背后的原理有更多了解的时候,我发现它具有很多优势:

1. 正则化

  • 标准GBM的实现没有像XGBoost这样的正则化步骤。正则化对减少过拟合也是有帮助的。
  • 实际上,XGBoost以“正则化提升(regularized boosting)”技术而闻名。

2. 并行处理

  • XGBoost可以实现并行处理,相比GBM有了速度的飞跃。
  • 不过,众所周知,Boosting算法是顺序处理的,它怎么可能并行呢?每一课树的构造都依赖于前一棵树,那具体是什么让我们能用多核处理器去构造一个树呢?我希望你理解了这句话的意思。如果你希望了解更多,点击这个链接
  • XGBoost 也支持Hadoop实现。

3. 高度的灵活性

  • XGBoost 允许用户定义自定义优化目标和评价标准
  • 它对模型增加了一个全新的维度,所以我们的处理不会受到任何限制。

4. 缺失值处理

  • XGBoost内置处理缺失值的规则。
  • 用户需要提供一个和其它样本不同的值,然后把它作为一个参数传进去,以此来作为缺失值的取值。XGBoost在不同节点遇到缺失值时采用不同的处理方法,并且会学习未来遇到缺失值时的处理方法。
  • 当分裂时遇到一个负损失时,GBM会停止分裂。因此GBM实际上是一个贪心算法
  • XGBoost会一直分裂到指定的最大深度(max_depth),然后回过头来剪枝。如果某个节点之后不再有正值,它会去除这个分裂。
  • 这种做法的优点,当一个负损失(如-2)后面有个正损失(如+10)的时候,就显现出来了。GBM会在-2处停下来,因为它遇到了一个负值。但是XGBoost会继续分裂,然后发现这两个分裂综合起来会得到+8,因此会保留这两个分裂。

6. 内置交叉验证

  • XGBoost允许在每一轮boosting迭代中使用交叉验证。因此,可以方便地获得最优boosting迭代次数。
  • 而GBM使用网格搜索,只能检测有限个值。

7. 在已有的模型基础上继续

  • XGBoost可以在上一轮的结果上继续训练。这个特性在某些特定的应用上是一个巨大的优势。
  • sklearn中的GBM的实现也有这个功能,两种算法在这一点上是一致的。

深入了解相关信息,可参考:
XGBoost Guide - Introduce to Boosted Trees
Words from the Auther of XGBoost [Viedo]

XGBoost的参数

XGBoost的作者把所有的参数分成了三类:
1、通用参数:宏观函数控制。
2、Booster参数:控制每一步的booster(tree/regression)。
3、学习目标参数:控制训练目标的表现。 通用参数

这些参数用来控制XGBoost的宏观功能。

1、booster[默认gbtree]

  • 选择每次迭代的模型,有两种选择:
    gbtree:基于树的模型
    gbliner:线性模型

2、silent[默认0]

  • 当这个参数值为1时,静默模式开启,不会输出任何信息。
  • 一般这个参数就保持默认的0,因为这样能帮我们更好地理解模型。

3、nthread[默认值为最大可能的线程数]

  • 这个参数用来进行多线程控制,应当输入系统的核数。
  • 如果你希望使用CPU全部的核,那就不要输入这个参数,算法会自动检测它。

还有两个参数,XGBoost会自动设置。

booster参数

尽管有两种booster可供选择,我这里只介绍tree booster,因为它的表现远远胜过linear booster,所以linear booster很少用到。

1. eta[默认0.3]

  • 和GBM中的 learning rate 参数类似。
  • 通过减少每一步的权重,可以提高模型的鲁棒性。
  • 典型值为0.01-0.2。

2. min_child_weight[默认1]

  • 决定最小叶子节点样本权重和。
  • 和GBM的 min_child_leaf 参数类似,但不完全一样。XGBoost的这个参数是最小样本权重的和,而GBM参数是最小样本总数。
  • 这个参数用于避免过拟合。当它的值较大时,可以避免模型学习到局部的特殊样本。
  • 但是如果这个值过高,会导致欠拟合。这个参数需要使用CV来调整。

3. max_depth[默认6]

  • 和GBM中的参数相同,这个值为树的最大深度。
  • 这个值也是用来避免过拟合的。max_depth越大,模型会学到更具体更局部的样本。
  • 需要使用CV函数来进行调优。
  • 典型值:3-10

4. max_leaf_nodes

  • 树上最大的节点或叶子的数量。
  • 可以替代max_depth的作用。因为如果生成的是二叉树,一个深度为n的树最多生成n2n2个叶子。
  • 如果定义了这个参数,GBM会忽略max_depth参数。

5. gamma[默认0]

  • 在节点分裂时,只有分裂后损失函数的值下降了,才会分裂这个节点。Gamma指定了节点分裂所需的最小损失函数下降值。
  • 这个参数的值越大,算法越保守。这个参数的值和损失函数息息相关,所以是需要调整的。

6. max_delta_step[默认0]

  • 这参数限制每棵树权重改变的最大步长。如果这个参数的值为0,那就意味着没有约束。如果它被赋予了某个正值,那么它会让这个算法更加保守。
  • 通常,这个参数不需要设置。但是当各类别的样本十分不平衡时,它对逻辑回归是很有帮助的。
  • 这个参数一般用不到,但是你可以挖掘出来它更多的用处。

7. subsample[默认1]

  • 和GBM中的subsample参数一模一样。这个参数控制对于每棵树,随机采样的比例。
  • 减小这个参数的值,算法会更加保守,避免过拟合。但是,如果这个值设置得过小,它可能会导致欠拟合。
  • 典型值:0.5-1

8. colsample_bytree[默认1]

  • 和GBM里面的max_features参数类似。用来控制每棵随机采样的列数的占比(每一列是一个特征)。
  • 典型值:0.5-1

9. colsample_bylevel[默认1]

  • 用来控制树的每一级的每一次分裂,对列数的采样的占比。
  • 我个人一般不太用这个参数,因为subsample参数和colsample_bytree参数可以起到相同的作用。但是如果感兴趣,可以挖掘这个参数更多的用处。

10. lambda[默认1]

  • 权重的L2正则化项。(和Ridge regression类似)。
  • 这个参数是用来控制XGBoost的正则化部分的。虽然大部分数据科学家很少用到这个参数,但是这个参数在减少过拟合上还是可以挖掘出更多用处的。

11. alpha[默认1]

  • 权重的L1正则化项。(和Lasso regression类似)。
  • 可以应用在很高维度的情况下,使得算法的速度更快。

12. scale_pos_weight[默认1]

  • 在各类别样本十分不平衡时,把这个参数设定为一个正值,可以使算法更快收敛。

学习目标参数

这个参数用来控制理想的优化目标和每一步结果的度量方法

1. objective[默认reg:linear]

这个参数定义需要被最小化的损失函数。最常用的值有:

  • binary:logistic 二分类的逻辑回归,返回预测的概率(不是类别)。
  • multi:softmax 使用softmax的多分类器,返回预测的类别(不是概率)。 在这种情况下,你还需要多设一个参数:num_class(类别数目)。
  • multi:softprob 和multi:softmax参数一样,但是返回的是每个数据属于各个类别的概率。

2. eval_metric[默认值取决于objective参数的取值]

  • 对于有效数据的度量方法。
  • 对于回归问题,默认值是rmse,对于分类问题,默认值是error。
  • 典型值有:
  • rmse 均方根误差
  • mae 平均绝对误差
  • logloss 负对数似然函数值
  • error 二分类错误率(阈值为0.5)
  • merror 多分类错误率
  • mlogloss 多分类logloss损失函数
  • auc 曲线下面积

3. seed(默认0)

  • 随机数的种子
  • 设置它可以复现随机数据的结果,也可以用于调整参数

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK