400 050 6600
数据分析师

手机号

验证码

30天自动登录
当前位置:首页 - Q&A问答

Q&AQ&A问答

我们怎样为企业收集正确的数据?

来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-09-08

收到有意义的,自动的潜在问题警报

快速调查并深入了解性能问题,无论您采用哪种监视数据形式,统一的主题都是收集数据很便宜,但是在需要时没有它会很昂贵,因此您应该对所有数据进行检测,并合理地收集所有有用数据。

 

指标在特定的时间点 捕获与您的系统有关的值

例如,当前登录到Web应用程序的用户数。因此,通常每秒一次,每分钟一次或每隔一个规则的时间间隔收集一次指标,以随时间监视系统。我们的框架中有两个重要的指标类别:工作指标和资源指标。对于属于软件基础结构的每个系统,请考虑哪些工作指标和资源指标是合理可用的,并将它们全部收集。

 

工作指标通过衡量有用的输出来指示系统的顶级运行状况,在考虑工作指标时,将它们分为四个子类型通常是有帮助的

1、吞吐量是系统每单位时间要做的工作量。吞吐量通常记录为数字。

2、成功指标表示成功执行的工作的百分比。

3、错误度量捕获错误结果的数量,通常将错误结果表示为每单位时间的错误率,或者通过吞吐量将其标准化以产生每单位工作的错误。当存在多种潜在的错误源时,错误度量通4、常与成功度量分开捕获,其中某些错误源比其他错误源更严重或更具可操作性。

5、性能指标量化了组件执行工作的效率。常见的性能指标是等待时间,它表示完成一个工作单元所需的时间。延迟可以表示为平均值或百分数,例如“ 99%的请求在0.1秒内返回

 

您的软件基础结构的大多数组件都是其他系统的资源

一些资源是低级的-例如,服务器的资源包括诸如CPU,内存,磁盘和网络接口之类的物理组件。但是,如果另一个系统需要该组件来产生工作,则更高级别的组件(例如数据库或地理位置微服务)也可以被视为资源,资源指标对于调查和诊断问题特别有价值,对于系统中的每个资源,请尝试收集涵盖四个关键领域的指标。

 

1、利用率是资源繁忙的时间百分比,或正在使用的资源容量的百分比。

2、饱和度是对资源尚无法服务(通常是排队)的请求工作量的一种度量。

3、错误表示在资源产生的工作中可能无法观察到的内部错误。

4、可用性表示资源响应请求的时间百分比。该指标仅针对可以主动定期检查可用性的资源进行了明确定义。

 

还有一些其他类型的度量标准既不起作用

也不是资源度量标准,但是在诊断问题原因时可能会派上用场,常见示例包括高速缓存命中次数或数据库锁计数,如有疑问,请捕获数据,除了可以或多或少连续收集的指标之外,某些监视系统还可以捕获事件:离散的,不经常发生的事件,可以为了解系统行为中的变化提供关键的上下文,更改:内部代码发布,构建和构建失败、警报:内部生成的警报或第三方通知、扩展事件:添加或减少主机,事件通常携带足够的信息,可以独立解释,而单个度量标准数据点通常仅在上下文中有意义,事件捕获了某个时间点发生的情况以及可选的附加信息,事件有时用于生成警报-应该通知某人有关事件。

 

好的数据看起来像什么您收集的数据应具有四个特征非常明白

1、您应该能够快速确定如何捕获每个指标或事件及其代表的内容。在中断期间,您将不想花费时间弄清楚数据的含义。保持度量标准和事件尽可能简单,使用上述标准概念,并明确命名它们。

2、粒状。如果您不太频繁地收集指标或在很长一段时间内收集平均值,则可能会丢失有关系统行为的重要信息。例如,如果将平均资源利用率较低的时期与平均资源利用率的100%的时期相混淆。以不会掩盖问题的频率收集每个系统的指标,而不必经常收集以至于监视变得对系统造成负担(观察者效应),或者通过对时间间隔进行采样(太短而无法包含有意义的数据)而在监视数据中产生噪声。

3、由范围标记。每个主机都在多个作用域中同时运行,您可能需要检查这些作用域或其组合的总体运行状况。例如:生产总体如何?美国东北部的生产情况如何?特定的软件/硬件组合如何?保留与数据关联的多个作用域非常重要,这样您就可以警告任何作用域中的问题,并迅速调查中断,而不受固定主机层次结构的限制。

4、长寿的。如果您丢弃数据太早,或者一段时间后您的监视系统汇总了指标以降低存储成本,那么您将丢失有关过去发生的情况的重要信息。将原始数据保留一年或一年以上,可以更轻松地知道正常是什么,尤其是在您的指标具有每月,季节性或每年变化的情况下。

 

警报和诊断数据

本文中描述的不同数据类型映射到随行帖子中概述的不同级别的紧急警报。简而言之,记录是一种低紧急性警报,它不会自动通知任何人,但是会记录在监视系统中,以防它对以后的分析或调查有用。通知是紧急程度中等的警报,通知可以以不间断方式(例如电子邮件或聊天)解决问题的人员。一个页面是中断收件人的工作,睡眠,或个人时间,不管小时的紧急警报。请注意,根据严重性,通知可能比页面更合适,反之亦然。

 

全部收集

1、记录一切,并尽可能收集尽可能多的工作指标,资源指标和事件。

2、以足够的粒度收集指标,以使重要的峰值和下降可见。具体的粒度取决于您要测量的系统,测量成本以及度量标准更改之间的典型持续时间(内存或CPU度量标准为秒,能耗为数分钟,等等)。

3、为了程度地发挥数据的价值,请在多个范围内标记指标和事件,并以完全的粒度保留它们至少一年。

 

Prev article

大多数物联网硬件极易破解吗?

Next article

如何在IT景观被转移到可以承接集装箱?

数据分析师

报名咨询

数据分析师

报名缴费

数据分析师

客服中心

数据分析师

课程服务

数据分析师

认证服务