Skip to content

Latest commit

 

History

History
66 lines (53 loc) · 3.27 KB

File metadata and controls

66 lines (53 loc) · 3.27 KB

Bagging与Stacking的异同点对比

一、核心概念

  1. Bagging(自助聚合)

    • 定义:通过并行训练多个同质弱学习器(如决策树),利用自助采样(Bootstrap)生成不同训练子集,最终通过**平均(回归)或投票(分类)**整合预测结果。
    • 目标:降低模型方差,提升稳定性。
    • 典型应用:随机森林(Random Forest)。
  2. Stacking(堆叠法)

    • 定义:通过并行训练多个异质弱学习器(如决策树、SVM、神经网络),再通过**元模型(Meta-Model)**学习这些基模型的输出关系,生成最终预测。
    • 目标:结合不同模型的优势,降低偏差并提升泛化能力。
    • 典型应用:多模型融合(如KNN+逻辑回归+神经网络)。

二、相同点

  1. 集成思想:均通过组合多个模型提升整体性能,避免单一模型的局限性。
  2. 降低偏差/方差
    • Bagging通过平均降低方差,Stacking通过元模型优化降低偏差。
  3. 数据驱动:均依赖数据分布特性,需合理划分训练集与验证集。

三、不同点

维度 Bagging Stacking
模型类型 同质模型(如全为决策树) 异质模型(如决策树+SVM+神经网络)
训练方式 并行训练,独立生成子模型 分阶段训练:基模型→元模型
组合策略 简单平均或投票 元模型学习基模型输出的权重或关系
数据划分 自助采样(Bootstrap)生成子数据集 交叉验证生成元模型训练数据
抗过拟合 高(通过并行降低方差) 低(需防止元模型过拟合)
计算复杂度 低(并行计算) 高(需训练基模型+元模型)
适用场景 高方差模型(如深度树)的稳定性提升 多模型优势互补的场景(如分类+回归)

四、优缺点对比

  1. Bagging

    • 优点
      • 实现简单,计算效率高。
      • 适用于高方差模型(如决策树)。
    • 缺点
      • 模型同质化可能限制性能上限。
      • 对数据分布敏感,需依赖自助采样的代表性。
  2. Stacking

    • 优点
      • 灵活性强,可结合异质模型优势。
      • 通过元模型优化提升泛化能力。
    • 缺点
      • 需要大量数据,易过拟合(需正则化)。
      • 计算成本高,调参复杂。

五、实际应用示例

  1. Bagging
    • 随机森林:通过100棵决策树并行训练,每棵树随机选择特征子集,最终投票分类结果。
  2. Stacking
    • 金融风控:基模型(逻辑回归、XGBoost、神经网络)预测欺诈概率,元模型(线性回归)综合输出最终结果。

六、总结

  • Bagging更适合需要稳定性的场景(如高方差模型),而Stacking适合多模型互补的复杂任务。
  • 选择时需权衡数据量、计算资源及模型多样性需求。