从原始数据到洞察的7个步骤
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-06-19
步骤1:多个数据流 –信息来自多种来源和格式。用于分析的数据可能来自数据仓库,数据集市,数据湖,甚至物联网(IoT)传感器,在某些情况下,数据可以是来自生产系统(例如电子商务应用程序)的摘录,如今机器学习项目的数据越来越多地来自各种来源,包括非结构化来源,例如社交媒体。
步骤2:预处理 –通常被认为是早期数据整理阶段的一部分,此步骤涉及将原始数据重新格式化为更适合机器学习的形式。
步骤3:转换 –在项目的早期非常重要,以清理和转换数据并将其转换为对要解决的机器学习问题有意义的形式,给定某些企业数据的状态(脏,不一致,缺少值等),此步骤可能会花费大量时间和精力。
步骤4:分析 -有时称为“探索性数据分析”这是当您使用统计方法和数据可视化来发现数据中有趣的特征和模式时,有时简单的原始数据图可以揭示非常重要的见解,这将有助于指示项目的方向或者至少提供关键的见解,这些见解在解释机器学习项目的结果时很有用。
步骤5:建模 -您应该选择适合要解决的问题的机器学习模型,在此阶段您需要对将要使用的机器学习类型做出承诺,您是要进行定量预测,定性分类还是只是使用聚类技术进行探索?“从原始数据到洞察力的7个步骤-详细的'机器学习'过程” ”信息图提供了详细的工作流程,它足以涵盖几乎所有数据科学项目。”
步骤6:验证 –重要的是评估对于任何给定的数据集哪种方法产生结果,在实践中选择方法可能是机器学习挑战性的部分之一,因此模型的性能评估对于项目的成功至关重要。您需要测量其预测与实际数据的匹配程度。
步骤7:以数据为依据的决策 –这一步是您进行“数据故事讲述”以传达项目的终结果时,通常可以通过精心制作的可视化效果地理解机器学习项目的终结果,这些可视化效果可以捕捉模型告诉您有关数据的本质。