在对数据分析时算法库的应用培训课程
来源:CPDA数据分析师网 / 作者:wysjfxssfpt / 时间:2020-01-14
数据分析算法库之随机森林,是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。 而 "Random Forests" 是他们的商标。 Tin Kam Ho所提出的随机决策森林(random decision forests)而来的。这个方法则是结合 Breimans 的 "Bootstrap aggregating" 想法和 Ho 的"random subspace method"以建造决策树的集合。
随机森林的算法可被用于很多不同的领域,如互联网、金融,医疗市场,餐饮和电子商务。在互联网领域,它通常被用来检测那些比普通人更高频率使用互联网服务的客户,并及为他们进行兴趣的推荐。同时,他也会为客户过滤掉一些垃圾信息。在金融领域,它可用于预测未来股票的发展趋势。在医疗保健领域,它可用于药品正确的成分组合,分析医疗行业的发展以及医疗问题。除此之外,在电子商务领域中,随机森林可以被用来确定客户是否真的喜欢某个产品。
二、数据分析师Datahoop平台应用实例
击剑(Fencing)是从古代剑术决斗中发展起来的一项体育项目,它结合优雅的动作和灵活的战术,要求运动员精神的高度集中和身体的良好协调性,体现出运动员良好的动作和敏捷的反应。现代的击剑项目中引入了完善的保护衣具,并采用钝的剑尖,已经大大消除了这项运动的危险性,也极大的促进了这项运动在全世界范围内的传播。
击剑运动员穿戴击剑服装和护具,在击剑场上以一手持剑互相刺击,被先击中身体有效部位的一方,为被击中一方。本实例通过对双方选手年龄、比赛情况进行数据分析,运用随机森林算法预测出比赛结果。