-
Bagging(自助聚合)
- 定义:通过并行训练多个同质弱学习器(如决策树),利用自助采样(Bootstrap)生成不同训练子集,最终通过**平均(回归)或投票(分类)**整合预测结果。
- 目标:降低模型方差,提升稳定性。
- 典型应用:随机森林(Random Forest)。
-
Stacking(堆叠法)
- 定义:通过并行训练多个异质弱学习器(如决策树、SVM、神经网络),再通过**元模型(Meta-Model)**学习这些基模型的输出关系,生成最终预测。
- 目标:结合不同模型的优势,降低偏差并提升泛化能力。
- 典型应用:多模型融合(如KNN+逻辑回归+神经网络)。
- 集成思想:均通过组合多个模型提升整体性能,避免单一模型的局限性。
- 降低偏差/方差:
- Bagging通过平均降低方差,Stacking通过元模型优化降低偏差。
- 数据驱动:均依赖数据分布特性,需合理划分训练集与验证集。
| 维度 | Bagging | Stacking |
|---|---|---|
| 模型类型 | 同质模型(如全为决策树) | 异质模型(如决策树+SVM+神经网络) |
| 训练方式 | 并行训练,独立生成子模型 | 分阶段训练:基模型→元模型 |
| 组合策略 | 简单平均或投票 | 元模型学习基模型输出的权重或关系 |
| 数据划分 | 自助采样(Bootstrap)生成子数据集 | 交叉验证生成元模型训练数据 |
| 抗过拟合 | 高(通过并行降低方差) | 低(需防止元模型过拟合) |
| 计算复杂度 | 低(并行计算) | 高(需训练基模型+元模型) |
| 适用场景 | 高方差模型(如深度树)的稳定性提升 | 多模型优势互补的场景(如分类+回归) |
-
Bagging
- 优点:
- 实现简单,计算效率高。
- 适用于高方差模型(如决策树)。
- 缺点:
- 模型同质化可能限制性能上限。
- 对数据分布敏感,需依赖自助采样的代表性。
- 优点:
-
Stacking
- 优点:
- 灵活性强,可结合异质模型优势。
- 通过元模型优化提升泛化能力。
- 缺点:
- 需要大量数据,易过拟合(需正则化)。
- 计算成本高,调参复杂。
- 优点:
- Bagging:
- 随机森林:通过100棵决策树并行训练,每棵树随机选择特征子集,最终投票分类结果。
- Stacking:
- 金融风控:基模型(逻辑回归、XGBoost、神经网络)预测欺诈概率,元模型(线性回归)综合输出最终结果。
- Bagging更适合需要稳定性的场景(如高方差模型),而Stacking适合多模型互补的复杂任务。
- 选择时需权衡数据量、计算资源及模型多样性需求。