400 050 6600
数据分析师

手机号

验证码

30天自动登录
当前位置:首页 - Q&A问答

Q&AQ&A问答

借助无监督的学习算法让计算机可以开始执行相同的操作吗?

来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-10-27

您发现不在这些群集中的实例
并且必须确定是看到真正重要的事物还是凝视噪声天上的追求,利用业务数据,这些类似流星的离群值可能表示欺诈事件,如果发现这些欺诈事件,则尽早可以为您的公司带来真正的节省,他们也可能代表具有技能和经验的独特候选人,这将使您的团队达到一个全新的水平,并且与其余候选人不同,您如何开始识别数据中的含义簇,并找到那些不在这些分组中的点?步是了解可用哪些工具和算法来处理数据,并弄清楚这些模式并隔离离群值,就支持无监督学习聚类的算法的选择而言,有两种创建这些相似性聚类的主要方法:k均值聚类。

K均值聚类或其近亲k中值和k中间体获取数据集和预定义数量的聚类
簇以散布在整个数据分布中的随机质心开始,每次迭代时,都会测量点与质心之间的距离。重新评估聚类边界,以在同一聚类中将类似点的位置更靠在一起,一旦重新评估了这些边界,质心就会移动以反映新组的中心点,在多次迭代中,此定心过程随着质心越来越少而稳定,一旦发生这种情况,将每个聚类定义为一个质心,该质心到外点的距离已定义。

K均值聚类对训练数据中的离群值敏感
并且这些值可能会使聚类的定义倾斜,一旦定义了聚类并将其应用于新的数据集,就可以识别异常值,数据库扫描,另一种流行的聚类算法是具有噪声的应用程序基于密度的空间聚类。k-means集群区别之一是,您不必像使用k-means一样预先知道DBSCAN存在多少个集群,在数据中寻找自然分组的点,这称为数据密度。如果一个点的邻居数量少,则该分组被视为一个群集。

基于密度的聚类之外的点被视为离群值或噪声
不太容易受到训练数据中的异常值的影响,但不适用于稀疏数据,因为它依赖于其中多个实例紧密组合在一起的模式,其他聚类算法,这两种算法在无监督学习项目的聚类过程中占很大比例。但是,它们并不是可用的选项,并且还发明了其他算法,以在k均值不理想的情况下工作,聚集集群是一种自下而上的分层集群方法,它从成对开始,将相似的实例分组在一起,然后继续,将相似的对分组在一起,这将继续进行,直到获得具有足够相似性的配对平衡,从而创建群集,类似于k均值的另一种算法是均值漂移算法。首先在每个数据点周围放置一个圆圈,它计算该圆内所有实例的平均值,然后,它移动圆,使其以该新均值为中心。随着均值和圆的稳定,圆的均值相同或足够接近的那些实例将被分组为一个簇,不需要预定义数量的集群,并且可以根据数据评估集群。

亲和力传播使用投票系统
每个实例都投票支持类似实例作为其代表,投票发生在实例之间的消息传递发生,试图确定哪个实例是集群的表示形式,随着集群定义的发展,理想的代表性实例也随之变化。该算法不需要您事先知道集群的数量。

当今用于识别数据中聚类的可用算法

些人可以有机地识别集群,有些人开始事先使用已知数量的群集,然后努力将数据分组到该预定义数量的群集中,有了集群定义,您就可以将该模型放在其他数据集之上,并开始隔离属于集群之间的实例,通过这些实例,您可以评估它们为何不符合规范,它们是否是有价值的异常值或噪声以及如何处理,正如那些观星者通过查找模式和异常值来努力使7月的夜空变得井井有条一样,您的系统也将能够为您的数据带来井然有序。您将可以在一个充满数据点的广阔天空中代表您的客户,他们的活动或您的员工,并找到真正意义深远的意义来推动业务决策。如果幸运的话,您还将在数据中发现一个有意义的高价值异常值,并能够丢弃分散干扰的实例。


 客服热线:400-050-6600

商业联合会数据分析专业委员会




Prev article

大流行期间自动化如何影响工作?

Next article

我们在现实世界中如何将预测分析付诸实践?

数据分析师

报名咨询

数据分析师

报名缴费

数据分析师

客服中心

数据分析师

课程服务

数据分析师

认证服务