400 050 6600
数据分析师

手机号

验证码

30天自动登录
当前位置:首页 - Q&A问答

Q&AQ&A问答

今天我们来教您解决机器学习的肮脏小秘密

来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-07-17

由于60%的组织预计将在AI方面的投资增加50%,因此对机器学习和人工智能的投资正在增长

尽管很受欢迎,但是由于组织倾向于忽略的挑战(包括数据质量)而导致项目停滞或被视为未完成,如果组织正在处理不良数据,那么他们的机器学习也将做出不良决策,似乎似乎要解决的一个明显问题是,巨大的障碍也影响了机器学习和自动化所需的准确性。,确保数据质量不仅是一项由IT驱动的举措,而且是所有业务部门都需要既得利益的一项工作,IT和业务用户之间应该建立合作伙伴关系,以确保所有数据对用户而言都是可信赖,准确且安全的在算法中使用,保持数据干净,可信赖和健康是一个永无止境的过程-一旦开始,就永远不会停止,而应该不断发展。

 

错误的开始机器学习的未来在很大程度上取决于数据质量,因为它在决策中越来越普遍

尽管如此,许多组织仍在努力衡量机器学习算法的成功率并确认提供给他们的数据是好的,如果没有确保您可以信任的干净和高质量数据的流程,组织将无权或无力支持数据驱动决策背后的报告和见解,组织开始更频繁地利用机器学习来支持数字化转型,但是很多时候,他们无法意识到用于馈送机器学习的数据是否肮脏或不可信,实际上他们更有可能减慢甚至停止数字化转型计划。

 

当今许多数据生态系统由多个组件和孤岛组成

同时外部可用数据正在全球网络中爆炸,这意味着组织需要灵活,模块化地进行设计,以保持对整个生态系统的看法,如果不首先创建数据孤岛和外部数据资源的概述(强调效率低下),那么整个组织范围内的机器学习问题将一触即发,数据质量程序很难跨功能驱动,因为数据资产经常跨功能使用,这使得很难就数据所有权达成共识。

 

企业尝试将数据质量挑战作为一项技术挑战来解决,但未能将重点放在流程和人员上

数据质量不是一个有开始和结束日期的离散项目,而是一个正在进行的计划,需要对其进行优先级排序和人员配备,以取得长期成功。

 

正确的步骤数据质量只是更大的机器学习难题的一小部分

企业还需要定义其拥有的数据,确定和分配所有权以及解决数据治理问题,为了使机器学习正常工作,该策略需要全面。重要的是要掌握您当前的位置,并开始抓住改进的机会,并制定从那里发展的计划,数据建模是一个很好的起点。这从利益相关者的角度突出了关键的高层概念基础数据,并精确记录了管理数据库中各个列的内容,数据类型和规则。

 

它是机器学习项目计划阶段不可或缺的一部分

从那里开始,解决数据治理问题,现代方法应该能够应对内部和外部数据的速度和多样性,组织需要建立一个框架来供应受信任的数据,否则他们将看不到任何好处,该框架应组织人员,流程和技术,并创建数据管理方式的典范,终为所有数据资产带来清晰度,透明度和可访问性,要获取有关轨道数据质量,组织和业务需要提供的数据为什么是重要的环境中的所有行-例如,如何将数据影响关键业务操作与当前有哪些数据质量的模样。

 

这有助于关键的利益相关者了解数据质量为何如此重要以及组织所面临的挑战范围

利用这些知识可以建立一个跨职能的利益相关者团队,他们致力于数据质量计划,并可以在各自的职能范围内推动该计划,这不是IT程序。这是一项在整个企业中倡导的企业计划,在实施机器学习时,组织应该关注的是技术。商定的数据程序是当务之急,它将帮助每个人理解他们终将输入到机器学习解决方案中的内容,如果做得正确,机器学习将具有不可思议的力量。实施它可以帮助企业识别数据中以前未知的相关性,从而提供竞争优势,例如购买更多商品的倾向或在其发生之前流失的机会。

 

在事件发生之前获得预测性见解可以使组织采取正确的步骤,以确保每个程序的总体成功。

 

 

Prev article

如何通过开源获得可行的解决方案

Next article

数据分析师通过WEB采集数据的优缺点?

数据分析师

报名咨询

数据分析师

报名缴费

数据分析师

客服中心

数据分析师

课程服务

数据分析师

认证服务