寻找数据可观察性
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2021-06-16
我们是否真的可以信任数据是我们还没有弄清楚的事情
在公司中从小到大,真正可能发生的糟糕的事情是当你开始使用数据时,但它实际上是不可信的,事实上根据不良数据做出决策会积极地伤害公司,考虑到当今人类和算法在业务中消耗数据的所有方式,使用不良数据比什么都不做更糟糕,数据变坏的方式有很多,从数据输入或编码错误到传感器故障和数据漂移,数据污染的来源很多,我们不能保证数据永远不会变坏,所以接下来的事情就是尽快发现坏数据。
这就是数据可观察性背后的想法
数据可观察性在一个关键方面借鉴了 DevOps 和 SRE 的成熟可观察性概念:监控数据系统输出以确定系统内部是否出现问题的重要性,如果你认为 DevOps 或软件工程师团队的任务是什么,他们有许多应用程序和系统基础设施,他们的任务是确保它们始终启动并运行,这是 DevOps 中一种非常容易理解的方法,但它对数据来说是全新的。这就是我们所说的数据可观察性。
的数据可观察性产品围绕可观察性的五个支柱构建
1、新鲜度,或数据的及时性;
2、量,数据的完整性;
3、分布,衡量数据在现场层面的一致性;
4、与字段和表的结构有关;
5、沿袭,或数据的更改日志。
真正解决数据可观察性的方法是以端到端的方式来实现
所以它包括客户的整个数据堆栈。这包括云数据湖、数据仓库、ETL、BI 和机器学习模型,构建从堆栈的每个组件中提取数据的连接器,并以只读方式监控数据,如果输出开始显示问题迹象——例如仪表板报告空值——软件将自动生成警报并通过电子邮件、文本、Slack 或 PagerDuty 发送,这是关于避免数据停机,正如 DevOps 和 SRE 团队已经对他们的系统进行检测以尝试检测可能使生产系统脱机的未决故障的微弱迹象一样,数据可观察性,正如实践的那样,采用整体方法来监控一系列数据特征以找出好的数据何时坏掉,虽然数据基础设施提供商(即构建数据库、数据湖、数据仓库和 ETL、BI 和 ML 工具的供应商)为其产品提供了一些监控功能,但利用第三方可观察性和监控工具将所有将这些组件组合成一个综合视图。
我认为在现代数据堆栈中有一个新层很重要
在公司中从小到大,真正可能发生的糟糕的事情是当你开始使用数据时,但它实际上是不可信的,事实上根据不良数据做出决策会积极地伤害公司,考虑到当今人类和算法在业务中消耗数据的所有方式,使用不良数据比什么都不做更糟糕,数据变坏的方式有很多,从数据输入或编码错误到传感器故障和数据漂移,数据污染的来源很多,我们不能保证数据永远不会变坏,所以接下来的事情就是尽快发现坏数据。
这就是数据可观察性背后的想法
数据可观察性在一个关键方面借鉴了 DevOps 和 SRE 的成熟可观察性概念:监控数据系统输出以确定系统内部是否出现问题的重要性,如果你认为 DevOps 或软件工程师团队的任务是什么,他们有许多应用程序和系统基础设施,他们的任务是确保它们始终启动并运行,这是 DevOps 中一种非常容易理解的方法,但它对数据来说是全新的。这就是我们所说的数据可观察性。
的数据可观察性产品围绕可观察性的五个支柱构建
1、新鲜度,或数据的及时性;
2、量,数据的完整性;
3、分布,衡量数据在现场层面的一致性;
4、与字段和表的结构有关;
5、沿袭,或数据的更改日志。
真正解决数据可观察性的方法是以端到端的方式来实现
所以它包括客户的整个数据堆栈。这包括云数据湖、数据仓库、ETL、BI 和机器学习模型,构建从堆栈的每个组件中提取数据的连接器,并以只读方式监控数据,如果输出开始显示问题迹象——例如仪表板报告空值——软件将自动生成警报并通过电子邮件、文本、Slack 或 PagerDuty 发送,这是关于避免数据停机,正如 DevOps 和 SRE 团队已经对他们的系统进行检测以尝试检测可能使生产系统脱机的未决故障的微弱迹象一样,数据可观察性,正如实践的那样,采用整体方法来监控一系列数据特征以找出好的数据何时坏掉,虽然数据基础设施提供商(即构建数据库、数据湖、数据仓库和 ETL、BI 和 ML 工具的供应商)为其产品提供了一些监控功能,但利用第三方可观察性和监控工具将所有将这些组件组合成一个综合视图。
我认为在现代数据堆栈中有一个新层很重要
新层的一部分是数据可观察性,重要的是它是一个可以与所有这些供应商和解决方案集成的第三方……并且还提供一个可以信任的第三方客观视图,公司宣布与云数据仓库提供商 建立合作伙伴关系,客户提供数据可观察性,只有当你真正信任数据时,数据才是强大的,我们坚信这是构建强大的数据平台和数据架构的关键部分,团队一直非常支持我们的愿景和这种新的数据可观察性类别,我们很乐意与他们合作,将其带给我们的客户。