借助无监督的学习算法让计算机可以开始执行相同的操作吗？

Q&AQ&A问答

借助无监督的学习算法让计算机可以开始执行相同的操作吗？

来源：CPDA数据分析师网 / 作者：数据君 / 时间：2020-10-27

您发现不在这些群集中的实例
并且必须确定是看到真正重要的事物还是凝视噪声天上的追求，利用业务数据，这些类似流星的离群值可能表示欺诈事件，如果发现这些欺诈事件，则尽早可以为您的公司带来真正的节省，他们也可能代表具有技能和经验的独特候选人，这将使您的团队达到一个全新的水平，并且与其余候选人不同，您如何开始识别数据中的含义簇，并找到那些不在这些分组中的点？步是了解可用哪些工具和算法来处理数据，并弄清楚这些模式并隔离离群值，就支持无监督学习聚类的算法的选择而言，有两种创建这些相似性聚类的主要方法：k均值聚类。

K均值聚类或其近亲k中值和k中间体获取数据集和预定义数量的聚类
簇以散布在整个数据分布中的随机质心开始，每次迭代时，都会测量点与质心之间的距离。重新评估聚类边界，以在同一聚类中将类似点的位置更靠在一起，一旦重新评估了这些边界，质心就会移动以反映新组的中心点，在多次迭代中，此定心过程随着质心越来越少而稳定，一旦发生这种情况，将每个聚类定义为一个质心，该质心到外点的距离已定义。

K均值聚类对训练数据中的离群值敏感
并且这些值可能会使聚类的定义倾斜，一旦定义了聚类并将其应用于新的数据集，就可以识别异常值，数据库扫描，另一种流行的聚类算法是具有噪声的应用程序基于密度的空间聚类。k-means集群区别之一是，您不必像使用k-means一样预先知道DBSCAN存在多少个集群，在数据中寻找自然分组的点，这称为数据密度。如果一个点的邻居数量少，则该分组被视为一个群集。

基于密度的聚类之外的点被视为离群值或噪声
不太容易受到训练数据中的异常值的影响，但不适用于稀疏数据，因为它依赖于其中多个实例紧密组合在一起的模式，其他聚类算法，这两种算法在无监督学习项目的聚类过程中占很大比例。但是，它们并不是可用的选项，并且还发明了其他算法，以在k均值不理想的情况下工作，聚集集群是一种自下而上的分层集群方法，它从成对开始，将相似的实例分组在一起，然后继续，将相似的对分组在一起，这将继续进行，直到获得具有足够相似性的配对平衡，从而创建群集，类似于k均值的另一种算法是均值漂移算法。首先在每个数据点周围放置一个圆圈，它计算该圆内所有实例的平均值，然后，它移动圆，使其以该新均值为中心。随着均值和圆的稳定，圆的均值相同或足够接近的那些实例将被分组为一个簇，不需要预定义数量的集群，并且可以根据数据评估集群。

亲和力传播使用投票系统
每个实例都投票支持类似实例作为其代表，投票发生在实例之间的消息传递发生，试图确定哪个实例是集群的表示形式，随着集群定义的发展，理想的代表性实例也随之变化。该算法不需要您事先知道集群的数量。

当今用于识别数据中聚类的可用算法

些人可以有机地识别集群，有些人开始事先使用已知数量的群集，然后努力将数据分组到该预定义数量的群集中，有了集群定义，您就可以将该模型放在其他数据集之上，并开始隔离属于集群之间的实例，通过这些实例，您可以评估它们为何不符合规范，它们是否是有价值的异常值或噪声以及如何处理，正如那些观星者通过查找模式和异常值来努力使7月的夜空变得井井有条一样，您的系统也将能够为您的数据带来井然有序。您将可以在一个充满数据点的广阔天空中代表您的客户，他们的活动或您的员工，并找到真正意义深远的意义来推动业务决策。如果幸运的话，您还将在数据中发现一个有意义的高价值异常值，并能够丢弃分散干扰的实例。

客服热线：400-050-6600

商业联合会数据分析专业委员会

Prev article

大流行期间自动化如何影响工作？

返回列表

Next article

我们在现实世界中如何将预测分析付诸实践？