woniunote/元宝markdown.md at dev_cpp · cloudQuant/woniunote · GitHub

66 lines (53 loc) · 3.27 KB

Bagging与Stacking的异同点对比

一、核心概念

Bagging（自助聚合）
- 定义：通过并行训练多个同质弱学习器（如决策树），利用自助采样（Bootstrap）生成不同训练子集，最终通过**平均（回归）或投票（分类）**整合预测结果。
- 目标：降低模型方差，提升稳定性。
- 典型应用：随机森林（Random Forest）。
Stacking（堆叠法）
- 定义：通过并行训练多个异质弱学习器（如决策树、SVM、神经网络），再通过**元模型（Meta-Model）**学习这些基模型的输出关系，生成最终预测。
- 目标：结合不同模型的优势，降低偏差并提升泛化能力。
- 典型应用：多模型融合（如KNN+逻辑回归+神经网络）。

二、相同点

集成思想：均通过组合多个模型提升整体性能，避免单一模型的局限性。
降低偏差/方差：
- Bagging通过平均降低方差，Stacking通过元模型优化降低偏差。
数据驱动：均依赖数据分布特性，需合理划分训练集与验证集。

三、不同点

维度	Bagging	Stacking
模型类型	同质模型（如全为决策树）	异质模型（如决策树+SVM+神经网络）
训练方式	并行训练，独立生成子模型	分阶段训练：基模型→元模型
组合策略	简单平均或投票	元模型学习基模型输出的权重或关系
数据划分	自助采样（Bootstrap）生成子数据集	交叉验证生成元模型训练数据
抗过拟合	高（通过并行降低方差）	低（需防止元模型过拟合）
计算复杂度	低（并行计算）	高（需训练基模型+元模型）
适用场景	高方差模型（如深度树）的稳定性提升	多模型优势互补的场景（如分类+回归）

四、优缺点对比

Bagging
- 优点：
  - 实现简单，计算效率高。
  - 适用于高方差模型（如决策树）。
- 缺点：
  - 模型同质化可能限制性能上限。
  - 对数据分布敏感，需依赖自助采样的代表性。
Stacking
- 优点：
  - 灵活性强，可结合异质模型优势。
  - 通过元模型优化提升泛化能力。
- 缺点：
  - 需要大量数据，易过拟合（需正则化）。
  - 计算成本高，调参复杂。

五、实际应用示例

Bagging：
- 随机森林：通过100棵决策树并行训练，每棵树随机选择特征子集，最终投票分类结果。
Stacking：
- 金融风控：基模型（逻辑回归、XGBoost、神经网络）预测欺诈概率，元模型（线性回归）综合输出最终结果。

六、总结

Bagging更适合需要稳定性的场景（如高方差模型），而Stacking适合多模型互补的复杂任务。
选择时需权衡数据量、计算资源及模型多样性需求。