为机器学习准备数据
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-11-03
为ML和AI准备好数据涉及将结构化和半结构化数据集组合在一起
以便将数据清理和标准化为可用于机器学习或与BI和数据可视化工具集成的格式。正确准备数据后,您将受益于可以快速,轻松地处理的见解,从而缩短了实现价值的时间,数据转换和标准化可帮助您构建功能强大的模型,报告和即席分析,它们共享的事实来源,实际上数据准备不仅可以帮助您建立AI模型,还可以在ETL流程中使用AI为数据仓库本身准备数据,例如您可以使用AI从客户评论中提取有价值的情感数据,而不必全部阅读它们,无论哪种方式,在数据之旅开始时,公司的问题都不在于分析或模型拟合,而在于数据提取和转换,根据客户的经验,在将数据准备好用于机器学习模型之前,需要进行常见的数据转换。
挑选您特别需要的数据将提高模型训练和整理分析的速度
更改数据类型:使用正确的数据类型会减少内存资源,这也可能是一项要求-例如,使数值数据成为整数以便执行计算或使模型能够识别适合该数据的算法,处理丢失的数据:在某些时候,您会遇到不完整的数据。解决问题的策略可能因数据集而异,例如如果缺失值不会使其关联数据变得无用,则您可能需要考虑插补-基于假设用简单占位符或其他值替换缺失值的过程,否则如果您的数据集足够大,则很可能可以删除数据而不会造成统计能力的重大损失,请谨慎操作,一方面您可能会无意间在模型中造成偏差;另一方面,不处理丢失的数据可能会使结果失真。
删除字符串格式和非字母数字字符
您将要删除字符,例如换行符,回车符以及值的开头和结尾处的空格,货币符号以及其他字符,您可能还需要考虑将词干作为此过程的一部分,尽管删除格式和其他字符会使句子对人类的可读性降低,但是这种方法有助于算法更好地消化数据,将分类数据转换为数值:尽管并非总是必要,但许多机器学习模型要求分类数据采用数字格式。这意味着将诸如yes和no之类的值转换为1和0。
您可能会遇到各种格式的时间戳记
定义一个特定的日期/时间格式,并始终将所有时间戳转换为该格式,将时间戳(使用数据仓库日期维)“分解”成其组成部分通常很有用-自1960年以来,单独的年,月,星期几和小时字段都具有比毫秒更高的预测能力,该列表并不详尽,仅作为入门指南提供,您可能还需要考虑其他因素,例如如何处理异常值,您可能要根据使用的训练模型将它们从数据集中删除。保留异常值可能会使您的训练结果偏斜,或者您可能需要包括异常数据以用于异常检测算法。
为了从数据分析和可视化工具中获得收益
以便将数据清理和标准化为可用于机器学习或与BI和数据可视化工具集成的格式。正确准备数据后,您将受益于可以快速,轻松地处理的见解,从而缩短了实现价值的时间,数据转换和标准化可帮助您构建功能强大的模型,报告和即席分析,它们共享的事实来源,实际上数据准备不仅可以帮助您建立AI模型,还可以在ETL流程中使用AI为数据仓库本身准备数据,例如您可以使用AI从客户评论中提取有价值的情感数据,而不必全部阅读它们,无论哪种方式,在数据之旅开始时,公司的问题都不在于分析或模型拟合,而在于数据提取和转换,根据客户的经验,在将数据准备好用于机器学习模型之前,需要进行常见的数据转换。
挑选您特别需要的数据将提高模型训练和整理分析的速度
更改数据类型:使用正确的数据类型会减少内存资源,这也可能是一项要求-例如,使数值数据成为整数以便执行计算或使模型能够识别适合该数据的算法,处理丢失的数据:在某些时候,您会遇到不完整的数据。解决问题的策略可能因数据集而异,例如如果缺失值不会使其关联数据变得无用,则您可能需要考虑插补-基于假设用简单占位符或其他值替换缺失值的过程,否则如果您的数据集足够大,则很可能可以删除数据而不会造成统计能力的重大损失,请谨慎操作,一方面您可能会无意间在模型中造成偏差;另一方面,不处理丢失的数据可能会使结果失真。
删除字符串格式和非字母数字字符
您将要删除字符,例如换行符,回车符以及值的开头和结尾处的空格,货币符号以及其他字符,您可能还需要考虑将词干作为此过程的一部分,尽管删除格式和其他字符会使句子对人类的可读性降低,但是这种方法有助于算法更好地消化数据,将分类数据转换为数值:尽管并非总是必要,但许多机器学习模型要求分类数据采用数字格式。这意味着将诸如yes和no之类的值转换为1和0。
您可能会遇到各种格式的时间戳记
定义一个特定的日期/时间格式,并始终将所有时间戳转换为该格式,将时间戳(使用数据仓库日期维)“分解”成其组成部分通常很有用-自1960年以来,单独的年,月,星期几和小时字段都具有比毫秒更高的预测能力,该列表并不详尽,仅作为入门指南提供,您可能还需要考虑其他因素,例如如何处理异常值,您可能要根据使用的训练模型将它们从数据集中删除。保留异常值可能会使您的训练结果偏斜,或者您可能需要包括异常数据以用于异常检测算法。
为了从数据分析和可视化工具中获得收益
请通过将所有相关数据以干净且标准化的格式组合在一起以确保数据高质量并值得信赖,使您的数据准备就绪并可供分析使用,将其作为云ETL工具中的一系列操作进行准备意味着,当您需要更新更多数据(可能来自许多不同的外部来源)时,只需再次按“运行”即可刷新所有数据。