随机森林算法简单实例,简述随机森林算法

　　今天在实践Kaggle项目的时候，网上很多博客都选择使用RandomForest算法来训练模型。最后是按照他们的写法写的，但是原理不太清楚。我打算在这里深入理解这个算法。

　　1.随机森林是一种通过集成学习的思想整合多棵树的算法。它的基本单元是决策树，本质属于机器学习的重要分支————集成学习方法。

　　集成学习中主要有bagging算法和boosting算法，这里的随机森林主要使用bagging算法。换句话说

　　打包决策树=随机森林

　　1.1集成学习集成学习通过构建几个模型的组合来解决单一的预测问题。其结构是生成多个分类器/模型，可以独立学习和预测。它优于任何单一的分类预测，因为这些预测最终会合并成一个单一的预测。

　　本文主要介绍集成学习中的bagging算法：

　　bagging的名字来源于“Bootstrap AGGregatING”，意为自采样整合。在该方法中，训练集被分成M个新的训练集，并且每个新的训练集被独立地建模。在最终预测中，综合这M个模型的结果得到最终结果。在归并法中，分类问题采用多数表决，回归采用平均值。

　　Bagging算法流程：

　　1.采用Bootstraping方法从原始样本集中随机抽取N个训练样本，得到K个训练集。(K个训练组可以彼此独立，并且元素可以重叠)

　　2.为K个训练集训练K个模型。(这k款可以具体问题来定。例如决策树、knn等。)).

　　3.关于分类：通过投票得出的分类结果。

　　Bagging算法的特点：

　　Bagging通过Bootstrap随机返回样本；装袋采用统一取样，每个样品重量相等；Bagging的所有预测函数权重相等，Bagging的所有预测函数可以并行生成；1.2决策树决策树由一系列决策组成，可用于对数据集的观察值进行分类。

　　2.为什么随机森林随机森林相当于进化版的装袋，它的机器学习方法中的Leatherman(多功能折叠刀)。你几乎可以扔任何东西。它特别擅长估计映射，并且不需要像SVM那样多的调制参数(这对时间紧迫的朋友来说非常好)。

　　3.随机森林应用案例网上有很多优秀的案例，这里推荐几个我觉得不错的案例。

　　收益预测随机森林在随机森林分类中的运用，因其精度优势，受到越来越多人的喜爱，但我的理解还很浅薄。之后如果有新发现，来这里继续补充。感谢博主分享宝贵经验。

　　[1]随机森林算法(python)简介。

　　[2]随机森林算法原理

　　[3]机器学习总结(第十五讲)算法(随机森林(RF)))))))。

　　[4](机械学习配置随机森林)。

　　【Python _ sklearn机器学习算法系列的随机森林算法)。

随机森林算法简单实例,简述随机森林算法

万老网