机器学习需要仔细的数据工程?
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-11-18
尽管仍处于采用的早期主流阶段
但是机器学习已在各种用例中部署,包括推荐引擎,欺诈检测,客户流失分析和网络安全,该技术不是新技术-自1990年代以来就已经存在,大数据的出现已经以多种重要方式振兴了机器学习,并增加了使用这些模型来推动洞察力和行动的复杂性,挑战正在从模型构建的“培训”阶段过渡到全面生产,数据工程师必须创建健壮的生产数据管道,以为机器学习模型提供所需的越来越多的不同数据。
支持机器学习的数据工程和管理实践
注于收集,清理,转换和管理“新”和大数据以进行分析,尽管组织过去可能使用过基于启发式的基于规则的AI系统,但现在它们正转向针对大量不同数据的自动发现,实践可带来更好的结果,对于机器学习来说,更好的是更好的-拥有更多的数据可以带来更准确的结果,而拥有各种各样的数据则更好,无论是丰富的,新的数据源是内部的还是企业的外部,两个流行的平台在管理用于模型构建的数据方面都证明了自己的价值:数据湖和云,数据管理平台还需要处理一组新的采购策略,以处理不同的摄取模式(例如流数据)并实现数据丰富(例如元数据或地理编码)。
低质量的数据会导致低质量的机器学习结果
寻找可以确保标准化和准确性的工具,好消息是,现在越来越多的供应商解决方案正在使用人工智能等先进技术来识别(并经常纠正)数据问题,用于模型构建的数据也必须是的,建立初始模型并确保模型不会过时时,币种很重要-就像汽车一样,有时需要调整模型,数据工程师和数据科学家必须能够为模型设计正确的功能,这通常需要访问不同的数据源,新存储的功能需要存储并保存到组织用于分析的任何数据存储中,并且必须跟踪重新创建功能所需的计算。
出色的机器学习模型还需要数据治理
为了使治理正常运行,您的企业将需要在流程和工具上进行投资,两个关键工具领域是元数据管理(包括数据类型和结构的数据描述)和对数据沿袭的关注(描述数据起源于何处以及如何更改和转换),这些将帮助任何大小的企业从机器学习入手,您可以在此处阅读完整的报告,初次接触访问者必须完成一次简短的一次性注册才能访问。
但是机器学习已在各种用例中部署,包括推荐引擎,欺诈检测,客户流失分析和网络安全,该技术不是新技术-自1990年代以来就已经存在,大数据的出现已经以多种重要方式振兴了机器学习,并增加了使用这些模型来推动洞察力和行动的复杂性,挑战正在从模型构建的“培训”阶段过渡到全面生产,数据工程师必须创建健壮的生产数据管道,以为机器学习模型提供所需的越来越多的不同数据。
支持机器学习的数据工程和管理实践
注于收集,清理,转换和管理“新”和大数据以进行分析,尽管组织过去可能使用过基于启发式的基于规则的AI系统,但现在它们正转向针对大量不同数据的自动发现,实践可带来更好的结果,对于机器学习来说,更好的是更好的-拥有更多的数据可以带来更准确的结果,而拥有各种各样的数据则更好,无论是丰富的,新的数据源是内部的还是企业的外部,两个流行的平台在管理用于模型构建的数据方面都证明了自己的价值:数据湖和云,数据管理平台还需要处理一组新的采购策略,以处理不同的摄取模式(例如流数据)并实现数据丰富(例如元数据或地理编码)。
低质量的数据会导致低质量的机器学习结果
寻找可以确保标准化和准确性的工具,好消息是,现在越来越多的供应商解决方案正在使用人工智能等先进技术来识别(并经常纠正)数据问题,用于模型构建的数据也必须是的,建立初始模型并确保模型不会过时时,币种很重要-就像汽车一样,有时需要调整模型,数据工程师和数据科学家必须能够为模型设计正确的功能,这通常需要访问不同的数据源,新存储的功能需要存储并保存到组织用于分析的任何数据存储中,并且必须跟踪重新创建功能所需的计算。
出色的机器学习模型还需要数据治理
为了使治理正常运行,您的企业将需要在流程和工具上进行投资,两个关键工具领域是元数据管理(包括数据类型和结构的数据描述)和对数据沿袭的关注(描述数据起源于何处以及如何更改和转换),这些将帮助任何大小的企业从机器学习入手,您可以在此处阅读完整的报告,初次接触访问者必须完成一次简短的一次性注册才能访问。
商业联合会数据分析专业委员会