⑴ 提升树和梯度提升树
提升树和梯度提升树(GBDT)是两种基于决策树的集成学习方法,它们通过迭代优化来构建更强大的预测模型。提升树的基本理念是每轮迭代生成一个弱分类器,其残差作为下一轮训练的基础。GBDT在此基础上引入了更灵活的损失函数,通过负梯度来求解残差。
以回归问题为例,给定目标值30,通过多棵树的预测结果相加(20+6+3+1=30)形成最终预测。决策树加法模型可以表示为:[公式],其中[公式]表示决策树参数,M为树的数量或迭代次数。
GBDT在特征选择上,如CART树,通过平方误差准则选择最佳特征和切分点。在拟合残差时,以均方误差为例,通过计算当前预测值与真实标签的差值,确定下一轮训练的样本。对于分类问题,如决策树生成的标签,损失函数通常用交叉熵,负梯度则对应于残差的拟合。
在多分类问题中,GBDT针对每个类训练一颗树,样本的分类结果用三维向量表示,比如样本属于第二类,对应的向量为[0,1,0]。每轮迭代时,不仅针对样本的类别,还会针对所有类别进行训练。
这些方法背后的原理和实现细节可以在《统计学习方法》等资料中找到更深入的理解,例如参考链接:[统计学习方法](cnblogs.com/bnuvincent/...) 和 [简书文章](jianshu.com/p/405f233ed...)。