随机森林算法简单实例,简述随机森林算法

  随机森林算法简单实例,简述随机森林算法

  今天在实践Kaggle项目的时候,网上很多博客都选择使用RandomForest算法来训练模型。最后是按照他们的写法写的,但是原理不太清楚。我打算在这里深入理解这个算法。

  1.随机森林是一种通过集成学习的思想整合多棵树的算法。它的基本单元是决策树,本质属于机器学习的重要分支————集成学习方法。

  集成学习中主要有bagging算法和boosting算法,这里的随机森林主要使用bagging算法。换句话说

  打包决策树=随机森林

  1.1集成学习集成学习通过构建几个模型的组合来解决单一的预测问题。其结构是生成多个分类器/模型,可以独立学习和预测。它优于任何单一的分类预测,因为这些预测最终会合并成一个单一的预测。

  本文主要介绍集成学习中的bagging算法:

  bagging的名字来源于“Bootstrap AGGregatING”,意为自采样整合。在该方法中,训练集被分成M个新的训练集,并且每个新的训练集被独立地建模。在最终预测中,综合这M个模型的结果得到最终结果。在归并法中,分类问题采用多数表决,回归采用平均值。

  Bagging算法流程:

  1.采用Bootstraping方法从原始样本集中随机抽取N个训练样本,得到K个训练集。(K个训练组可以彼此独立,并且元素可以重叠)

  2.为K个训练集训练K个模型。(这k款可以具体问题来定。例如决策树、knn等。)).

  3.关于分类:通过投票得出的分类结果。

  Bagging算法的特点:

  Bagging通过Bootstrap随机返回样本;装袋采用统一取样,每个样品重量相等;Bagging的所有预测函数权重相等,Bagging的所有预测函数可以并行生成;1.2决策树决策树由一系列决策组成,可用于对数据集的观察值进行分类。

  2.为什么随机森林随机森林相当于进化版的装袋,它的机器学习方法中的Leatherman(多功能折叠刀)。你几乎可以扔任何东西。它特别擅长估计映射,并且不需要像SVM那样多的调制参数(这对时间紧迫的朋友来说非常好)。

  3.随机森林应用案例网上有很多优秀的案例,这里推荐几个我觉得不错的案例。

  收益预测随机森林在随机森林分类中的运用,因其精度优势,受到越来越多人的喜爱,但我的理解还很浅薄。之后如果有新发现,来这里继续补充。感谢博主分享宝贵经验。

  [1]随机森林算法(python)简介。

  [2]随机森林算法原理

  [3]机器学习总结(第十五讲)算法(随机森林(RF)))))))。

  [4](机械学习配置随机森林)。

  【Python _ sklearn机器学习算法系列的随机森林算法)。

随机森林算法简单实例,简述随机森林算法