400 050 6600
数据分析师

手机号

验证码

30天自动登录
当前位置:首页 - Q&A问答

Q&AQ&A问答

机器学习适合你的产品吗?

来源:CPDA数据分析师网 / 作者:数据君 / 时间:2021-07-05

数据饥渴或样本效率低下
可接受的模型需要大量的数据,不透明充其量我们可以对幕后真正发生的事情做出一些有根据的猜测比其他方法更适用于强化学习,狭窄的它们可以完成一项特定任务,很容易被破坏,并且无法将知识转移到其他任务或模型中,只有在访问了大量数据后才能很好地泛化到看不见的输入,然而并不是所有的厄运和沮丧,机器学习模型在特定任务集上非常有效。如果应用得当,整个培训过程将非常值得,它们可以带来卓越的效率并带来全新的功能,让您在任何竞争中领先。

机器学习擅长什么?
您可能有过这样的经历:您在街上看到某人的脸并认出他们是熟悉的人,一旦你靠近,你就会意识到——这是一个完全陌生的人,可能发生的事情是你的大脑匹配了许多不同的模式,并根据可用信息分配了一个特定的预测,在这种情况下,这是对朋友或熟人的错误认识,然而这样的预测是可能的,因为你的记忆能够容纳大量信息,大多数企业将处理大部分相同的机器学习模型,它们都是随机的,他们根据(诚然,痛苦的)大量数据和训练做出预测,这些预测要么是分类,要么是随机变量(基于回归)即使对于逻辑、数学或编程领域之外的人来说,分类也是直观的,您有一组 N 个 对象,其中包含 X 个类别(例如,帽子、狗、裤子等),将这些对象移到它们各自的类别中就是分类,但与人类不同的是,机器学习模型仍在进行预测。他们永远无法 100% 确定所提供对象的本质。

回归有点复杂需要一些数学来解释
假设您想衡量员工年龄 (X) 和工资 (Y) 之间的相关性,收集所需的数据意味着您将拥有一组值对 (X:Y),如果是简单的线性回归,可以表示为:Y = a + Xb,其中 a 和 b 是未知系数,基于回归的机器学习模型将找到这些,找到这些系数通常并不那么简单,因为当引入更多数据时它们会发生变化。但是,有一些花哨的统计工具可用于限度地提高准确性:均方误差 (MSE) 和梯度下降。简化它(很多),我们基本上选择两个随机系数并画一条线。然后分别计算每个点及其与线的平方距离,之后该过程会重复多次以小化点与线之间的平均距离(也称为成本函数)。

我不会深入研究统计数据
重要的是,机器学习模型在经过充分训练后,将能够仅从一组变量中提供预测。继续这个例子,它将能够只用几年的时间来预测薪水(反之亦然),这两个是机器学习模型的选项,当然它们可以更加复杂,并可以通过几组工具解决问题。其中一些我在这里避免提及(例如,聚类和降维),因为它们是不太受欢迎的选项。

针对特定问题的特定工具
正如我在上面简要介绍的那样,机器学习并非旨在解决所有问题,它擅长解决两组特定的问题。其他一切都可能是教鱼飞翔的尝试,尽管如此我应该提到,通过机器学习数学的极其巧妙的应用可以解决的问题数量比乍一看的要多,在进入热点之前,我们应该记住一个重要的警告,机器学习不擅长具有很多(潜在)独特变化的任务,简而言之,与学习用英语写小说相比,模特们更容易学会区分帽子和狗,换句话说与抽象的“平均”文本相比将抽象的“平均”帽子和“平均”狗的概念概念化更容易,根据经验,模型不擅长大多数人所说的“创造性”任务(许多潜在的独特变化),而擅长“逻辑”任务(相对较小的独特变化),虽然为这两种类型制作模型都是可能的,但对于大多数企业来说,“创意”模型只会过于耗费资源。因此,我们应该寻求自动化数据点之间差异很小的任务。这是机器学习模型非常擅长的事情。

另一个需要考虑的重要方面是可扩展性
机器学习非常适合需要大规模解决的问题。如果您的企业每天收到数十封电子邮件,您可能可以手动浏览它们,正如关于开发人员的笑话一样,您将花费数百小时来自动化 10 分钟的任务,考虑解决方案是否可以通过基于规则的方法解决,您不需要机器学习模型来阻止来自或访问特定 IP 地址的访问,通过基于规则的方法试水是可行的方法。

业务限制
在开始机器学习之前,需要考虑一些简单的业务考虑因素,不幸的是机器学习是时间和资源密集型的,您将需要有专门的专家,主要负责持续研究模型(从收集数据到测试模型),如果您没有专家,或者维护模型在财务上根本不可行,即使拟合是的,这个想法也必须等待,因此评估开发团队的可用性和专业知识很重要,开发一个高度准确且功能强大的模型对于几个人来说是一项全职工作,即使是一个简单的模型,至少也需要一名开发人员完全投入,此外必须有人采购必要的数据,这可能需要进行一些外包,它总是至少部分是关于权衡潜力 自动化的好处 对抗高成本。

机器学习:如果有的话和在哪里
到目前为止,应该清楚的是,如果您的业务主要涉及艺术任务,那么您不太可能通过机器学习取得成功。然而,这并不意味着它没有 任何 用处,在决定创建个机器学习模型之前,我们在公司所做的是剖析和解构我们的一个解决方案,本质上是我们的客户用于公共数据网络抓取的工具,因为它是我们复杂的工具,因此我们的解决方案让我们的客户有机会做到 网页抓取 无需从头开始编程,网页抓取涉及几个步骤——访问 URL、下载 HTML 格式的内容、将其存储在内存中、解析(在某些情况下)以及将提取的数据传送到目的地。然后,会发生一些代理轮换和 HTTP 标头更改,用户负责 URL内容下载已经过优化,交付过程和内存存储无关紧要,然而解析 (使数据更易于理解和使用)是一项极其艰巨的任务,原因有很多,我不会在这里概述。

幸运的是,互联网上的数据(几乎完全)存储在 HTML 中
它是一种语言,通常保留给浏览器使用,具有一定的变化和创造力,但也依赖于强大的相同基础,从本质上讲编写一种能够解析不同 HTML 源的基于规则的方法几乎是不可能的,但对于人眼来说,所有这些方法看起来都非常相似——这是机器学习的候选者,但我们并没有就此止步,因为潜在的变化仍然太大,我们检查了几件事:常请求解析哪些数据源。我们的团队发现解析特定网页类别中的请求有显着增加,对于我们的项目来说,这似乎是一个足够狭窄的领域。

完成您的决定

我个人认为这是处理机器学习应用程序的正确方法,首先将您的产品或服务分类、剖析和解构成序列或更小的部分,其次从整个过程中取一小部分,思考问题是什么,以及它是如何解决的。第三,使用数据缩小到重要的方面并在那里应用机器学习,以自己的方式解决问题将节省大量时间、资源和麻烦,如果您已经有一个较小的工作模型,您总是可以制作更多模型,你不能用一个没有功能的大模型做任何事情。


免费客服热线:400-050-6600

商业联合会数据分析专业委员会



Prev article

AI/ML 如何改善制造运营?

Next article

为什么您的 AIOps 部署可能会失败?

数据分析师

报名咨询

数据分析师

报名缴费

数据分析师

客服中心

数据分析师

课程服务

数据分析师

认证服务