加速机器学习之旅的四个步骤
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-09-29
整理数据
在采用机器学习时,数据通常被认为是头号挑战。根据我们与客户的经验,建立机器学习模型的时间有一半以上可用于数据整理,数据清理和预处理阶段。如果您不花钱建立强大的数据策略,那么雇用的任何机器学习人才都将被迫花费大量时间处理数据清理和管理,而不是发明新算法,刚开始时,要问的三个重要的问题是:今天有哪些可用数据?可以提供哪些数据?从现在开始一年后,我们希望今天开始收集什么数据?
为了确定当今可用的数据,您需要克服数据拥抱的问题
这是团队保护与他们紧密合作的数据并且不与组织中其他组共享数据的趋势,打破团队之间的孤岛以获得更广阔的数据前景对于长期成功至关重要。在此过程中,您需要确保您具有正确的访问控制和数据治理,重要的是,您需要知道哪些数据实际上是机器学习方法的一部分,在计划数据策略时,请考虑的存储数据的方法,并在需要时尽早在数据处理工具中进行投资以进行去标识和匿名化,需要应对这一挑战,以有效地利用其数据来进行预测和数字诊断。今天,该公司使用全面托管的服务来大规模构建,部署和管理机器学习模型。
确定正确的业务问题
在评估什么以及如何应用机器学习时,您应该集中精力从三个维度评估问题:数据准备就绪,业务影响和机器学习适用性-基于团队技能的成功机会,速度与商业价值之间的平衡是关键。您应该首先寻找已经有很多未开发数据的地方,接下来,评估该领域是否将从机器学习中受益,或者您是否要修复实际上没有损坏的东西,避免选择一个浮华的但业务价值不明确的问题,因为这终将成为一个一次性的实验,永远不会白日做梦。
倡导机器学习文化
接下来,为了从一些试验人员过渡到扩展机器学习,您需要倡导一种机器学习文化,和开发人员都应该一直在思考如何将机器学习应用于各种业务问题,许多公司犯的一个常见错误是将技术专家放在一个单独的团队中,通过孤岛工作,他们终可能会建立机器学习模型,主要是作为概念证明,但实际上并不能解决实际的业务问题,相反企业需要融合技术和领域专家的才能来解决客户问题,聚集合适的人员也可以帮助企业更快地接受业务,从而消除了采用这种文化障碍。
应该不断寻找使他们的开发人员更容易应用机器学习的方法
建立基础设施以进行大规模机器学习是一个劳动密集型过程,会减慢创新速度,他们应鼓励其团队不要专注于构建机器学习模型的未区分的“繁重”部分。通过使用覆盖整个机器学习工作流程的工具来构建,训练和部署机器学习模型,公司可以以更少的工作量和更低的成本更快地投入生产。
发展你的团队
,要建立成功的机器学习文化,您需要专注于发展团队,这包括为您的工程师建立合适的技能,并确保您的业务也获得了理解机器学习所需的培训,在本来就很有限的领域中招聘经验丰富的人才具有很高的竞争力,而且往往过于昂贵,因此,公司也为发展内部人才提供了良好的服务,您可以通过强大的内部培训计划来培养开发人员的机器学习技能,这也有助于吸引和保留人才。
如果您的企业遵循这些步骤,那么您建立的机器学习文化将为建立长期成功发挥至关重要的作用
痛苦将不断增长,但从根本上讲,机器学习是一种实验,随着时间的流逝,它会变得越来越好,因此您的组织还必须拥抱失败,并从长远角度看待一切,机器学习不再是边缘使用案例的理想技术,它使世界各地的组织都可以进行有意义的转换,并且也可以对您的组织产生切实的影响。