随机森林算法简单实例,简述随机森林算法
今天在实践Kaggle项目的时候,网上很多博客都选择使用RandomForest算法来训练模型。最后是按照他们的写法写的,但是原理不太清楚。我打算在这里深入理解这个算法。
1.随机森林是一种通过集成学习的思想整合多棵树的算法。它的基本单元是决策树,本质属于机器学习的重要分支————集成学习方法。
集成学习中主要有bagging算法和boosting算法,这里的随机森林主要使用bagging算法。换句话说
打包决策树=随机森林
1.1集成学习集成学习通过构建几个模型的组合来解决单一的预测问题。其结构是生成多个分类器/模型,可以独立学习和预测。它优于任何单一的分类预测,因为这些预测最终会合并成一个单一的预测。
本文主要介绍集成学习中的bagging算法:
bagging的名字来源于“Bootstrap AGGregatING”,意为自采样整合。在该方法中,训练集被分成M个新的训练集,并且每个新的训练集被独立地建模。在最终预测中,综合这M个模型的结果得到最终结果。在归并法中,分类问题采用多数表决,回归采用平均值。
Bagging算法流程:
1.采用Bootstraping方法从原始样本集中随机抽取N个训练样本,得到K个训练集。(K个训练组可以彼此独立,并且元素可以重叠)
2.为K个训练集训练K个模型。(这k款可以具体问题来定。例如决策树、knn等。)).
3.关于分类:通过投票得出的分类结果。
Bagging算法的特点:
Bagging通过Bootstrap随机返回样本;装袋采用统一取样,每个样品重量相等;Bagging的所有预测函数权重相等,Bagging的所有预测函数可以并行生成;1.2决策树决策树由一系列决策组成,可用于对数据集的观察值进行分类。
2.为什么随机森林随机森林相当于进化版的装袋,它的机器学习方法中的Leatherman(多功能折叠刀)。你几乎可以扔任何东西。它特别擅长估计映射,并且不需要像SVM那样多的调制参数(这对时间紧迫的朋友来说非常好)。
3.随机森林应用案例网上有很多优秀的案例,这里推荐几个我觉得不错的案例。
收益预测随机森林在随机森林分类中的运用,因其精度优势,受到越来越多人的喜爱,但我的理解还很浅薄。之后如果有新发现,来这里继续补充。感谢博主分享宝贵经验。
[1]随机森林算法(python)简介。
[2]随机森林算法原理
[3]机器学习总结(第十五讲)算法(随机森林(RF)))))))。
[4](机械学习配置随机森林)。
【Python _ sklearn机器学习算法系列的随机森林算法)。