var _hmt = _hmt || []; (function() {   var hm = document.createElement("script");   hm.src = "https://hm.baidu.com/hm.js?8c9c5a8618dc4aea3be27b32962e5871";   var s = document.getElementsByTagName("script")[0];    s.parentNode.insertBefore(hm, s); })();
400 050 6600
数据分析师

手机号

验证码

30天自动登录

适用于您的大数据计划的5种高级分析算法

来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-11-24

线性回归
线性回归是高级分析的基本算法之一,这也使其成为使用广泛的之一,人们可以轻松地查看其工作方式以及输入数据与输出数据的关系,线性回归使用两组连续定量度量之间的关系。组称为预测变量或自变量,另一个是响应或因变量,线性回归的目标是以公式的形式识别关系,该公式根据自变量描述因变量,一旦这种关系被量化,就可以为自变量的任何实例预测因变量,时间是常用的自变量之一,无论您的自变量是收入,成本,客户,使用或生产力,如果您可以定义其与时间的关系,那么可以使用线性回归预测值。

 逻辑回归
回归听起来类似于线性回归,但实际上专注于涉及分类而不是定量预测的问题,在这里,输出变量值是离散且有限的,而不是连续的,并且具有无限值,就像线性回归一样,逻辑回归的目标是对输入变量的实例是否适合类别进行分类,回归的输出为0到1之间的值,结果接近1表示输入变量更清楚地适合类别,结果接近0表示输入变量可能不适合该类别,回归通常用于回答明确定义的是或否问题,客户会再次购买吗?买家信用值得吗?潜在客户会成为客户吗?预测这些问题的答案会在业务流程中产生一系列动作,从而有助于增加未来的收入。

分类和回归树
分类树和回归树使用决策来对数据进行分类,每个决定都是基于与输入变量之一有关的问题。有了每个问题和相应的答案,数据实例就变得更接近以特定方式进行分类了,这组问题和答案以及随后的数据划分创建了一个树状结构,每行问题的末尾都有一个类别,这称为分类树的叶节点,这些分类树可能变得非常大和复杂,控制复杂性的一种方法是通过修剪树或有意删除问题级别以在精确匹配和抽象之间取得平衡,对于输入值的所有实例(在训练中已知的值和在训练中未知的值)都适用的模型至关重要,要防止此模型过度拟合,就需要在精确拟合和抽象之间达到微妙的平衡。

分类树和回归树的一种变体称为随机森林。随机森林不是构建具有多个逻辑分支的单个树,而是由许多小的树和简单树组成的顶点,每个树都评估数据实例并确定分类。一旦所有这些简单的树完成了数据评估,该过程将合并单个结果,以基于较小类别的组合来创建类别的终预测。这通常称为合奏方法。这些随机森林通常在平衡精确匹配和抽象方面做得很好,并且已在许多业务案例中成功实现。

与侧重于是或否分类的逻辑回归相反,分类树和回归树可用于预测多值分类。它们也更容易可视化并查看引导算法进行特定分类的确定路径。

 K近邻居
K近邻居也是一种分类算法。它被称为“懒惰学习者”,因为该过程的培训阶段非常有限。学习过程由存储的训练数据集组成。在评估新实例时,将评估到训练集中每个数据点的距离,并且基于新数据实例与训练实例的接近程度,就新数据属于哪个类别达成共识,根据训练集的大小和范围,此算法在计算上可能会很昂贵。由于必须将每个新实例与训练数据集的所有实例进行比较并得出距离,因此该过程每次运行都可以使用许多计算资源,该分类算法允许对数据进行多值分类。另外,嘈杂的训练数据倾向于使分类倾斜。

通常选择K近邻,因为它易于使用,易于训练并且易于解释结果。当您尝试查找相似的项目时,它通常在搜索应用程序中使用。

K均值聚类
K-均值聚类专注于创建相关属性组。这些组称为群集。一旦创建了这些集群,就可以针对它们评估其他实例,以查看它们适合的位置,此技术通常用作数据探索的一部分,首先,分析人员指定群集的数量,K-means群集过程基于在称为“质心”的公共集线器周围找到具有相似性的数据点,将数据分为多个群集,这些群集与类别不同,因为它们初没有业务意义。它们只是输入变量的紧密相关实例,一旦识别并分析了这些集群,就可以将它们转换为类别,并提供具有业务意义的名称,经常使用K均值聚类是因为它易于使用和解释,并且速度很快,要注意的一个方面是k均值聚类对异常值极为敏感,这些离群值会极大地改变这些聚类的性质和定义,并终改变分析结果。

这些是高级分析计划中使用的一些的算法。每种方法都有优缺点,可以有效地利用它来产生业务价值的方式也不同。实施这些算法的终目标是进一步优化数据,使结果信息可以应用于业务决策。正是此过程为下游流程提供了更精确,价值更高的数据,这对于公司真正利用其数据的价值并实现其所需的结果至关重要。



CPDA企业内训

https://www.cpda.cn/trainning/

 

CPDA项目数据分析师为什么要更名?

https://www.chinacpda.com/question/4504.html

 

海南智企数据分析师事务所

https://www.chinacpda.com/shiwusuo/14202.html

 

王兴海老师 高级经济师

https://www.chinacpda.com/shizi/9433.html

 

用数据改变人生,获得CPDA证书仅是一个开始

https://www.chinacpda.com/shouquanzhongxin/14854.html

 

大数据专业就业前景及就业方向如何?

https://www.chinacpda.com/wenti/11706.html

 

CPDA数据分析师学习方式和课程体系

https://www.chinacpda.com/xuexiarea/18089.html

 

数据分析师的职业进阶之路

https://www.chinacpda.com/zixun/4048.html

 

《大数据人才培养体系标准》正式发布!

https://www.chinacpda.com/dongtai/9669.html

 

CPDA数据说给你带来精彩的视频案例讲解

https://www.chinacpda.com/videocenter/

 

数据分析师职业考核

https://www.chinacpda.com/examine/

 

数据分析师职业规划

https://www.chinacpda.com/career/

 

CPDA数据分析师授权中心

https://www.chinacpda.com/train/

 

数据分析相关动态

https://www.chinacpda.com/data/?page=85

 

数据分析师为您解答更多问题

https://www.chinacpda.com/qa/

 

数据分析案例展示

https://www.chinacpda.com/case/

 

查找您周边省份授权培训中心:

https://www.chinacpda.com/train/

 

2020年CPDA数据分析师线上报名:

https://www.chinacpda.com/baoming.php

 

CPDA数据分析明星导师:

https://www.chinacpda.com/startutor/

 

CPDA数据分析师培训优秀学员:

https://www.chinacpda.com/student/

 

客服热线:400-050-6600

商业联合会数据分析专业委员会



Prev article

随着Spark对大数据的使用不断增长有五个趋势值得您注意

Next article

集成到机器流程中将对ML在业务中的使用方式产生重大影响

数据分析师

报名咨询

数据分析师

报名缴费

数据分析师

客服中心

数据分析师

课程服务

数据分析师

认证服务