您是否从所收集的数据中获得收益?
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-10-14
数据分析概述
数据分析将原始数据转换为可用于做出更好决策的知识和见解,在分析数据时,数据会经历四个流水线阶段:摄取(数据收集),准备(数据处理),分析(数据建模)和操作(决策),使用机器学习和人工智能(AI)的高级分析是具有成熟分析功能的组织的领域。
对于各种企业和组织而言,将数据转换为可行的情报可能意味着挣扎与繁荣之间的差异
化信息价值需要数据分析:分析原始数据以得出结论的过程,几乎每个企业都在分析某些数据时,现代分析却可以实现的理解和见识水平,您的公司在以数据为主导,以分析为导向的文化方面走了多远?下一步是什么?这一切都始于数据管道。
了解数据管道
建立完善的数据分析方法是一个需要时间和精力的演进过程。对于想要采取下一步行动的组织,了解数据管道和通过该管道的数据生命周期至关重要。
摄取:数据收集
数据管道的阶段是摄取。在此阶段,将从源中收集数据并将其移至可以存储的系统中。数据可以作为连续流或一系列离散事件收集。
对于大多数非结构化数据(IDC估计为80%到90%1),摄取是数据生命周期的开始和结束。该信息被称为“暗数据”,但并未进行分析或用于影响组织的其余部分。
高级数据分析趋势之一就从摄取阶段开始
在这些情况下,流数据的实时分析与摄取过程同时进行,这就是所谓的边缘分析,它需要低功耗的高性能计算,边缘分析通常涉及物联网设备和传感器,这些传感器从设备中收集信息,这些设备包括工厂机器,城市路灯,农业设备或其他已连接的 事物。
准备:数据处理
数据管道的下一阶段准备要使用的数据,并将信息存储在用户和应用程序可访问的系统中。为了程度地提高数据质量,必须将其清除并转换为易于访问和查询的信息。
通常,准备信息并将其存储在数据库中
不同类型的数据库用于理解和分析不同格式和不同目的的数据。SQL *关系数据库管理系统(例如SAP HANA *或Oracle DB *)通常处理结构化数据集,这可能包括财务信息,凭证验证或订单跟踪。非结构化数据工作负载和实时分析更有可能使用NoSQL *数据库。
优化数据流水线的这一阶段需要计算和内存性能以及数据管理,以实现更快的查询
它还要求可伸缩性以容纳大量数据,可以根据紧急性和有用性来存储和分层数据,以便可以以快的速度访问关键的数据。
分析:数据建模
在数据管道的下一阶段,将分析存储的数据,并创建建模算法。数据可以通过SAP,Oracle或SAS等端到端分析平台进行分析,也可以通过Apache Spark *等工具进行大规模处理,加快和降低数据流水线此阶段的成本对于竞争优势至关重要。库和工具包可以减少开发时间和成本,同时,硬件和软件优化可以帮助降低服务器和数据中心的成本,同时缩短响应时间,内存分析等技术可以增强数据分析功能,并使分析投资更具成本效益
行动:决策制定
在摄取,准备和分析数据之后,就可以采取行动了。数据可视化和报告有助于传达分析结果,传统上,需要数据科学家或分析人员进行解释才能将这些结果转换为可以更广泛地采取行动的商业智能,但是企业已经开始使用AI根据分析自动执行操作,例如派遣维护团队或更改房间的温度。