您正在处理复杂数据的7个迹象有哪些?
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2021-03-02
为什么这很重要?
数据的复杂性很可能表明您在尝试将其转化为业务价值时将面临的困难程度–复杂的数据集通常比简单的数据难于准备和分析,并且通常将需要不同的数据集,BI工具可以做到这一点。复杂的数据需要额外的工作来准备和建模数据,然后再对数据进行“成熟”以进行分析和可视化,因此重要的是要了解您的数据的当前复杂性及其将来的潜在复杂性,以评估您的商业智能项目是否能胜任这项任务。
简单测试:大数据或全异数据
概括地说,有两个基本迹象表明您的数据可能被认为是复杂的,您的数据是“大”的:由于“大数据”一词的含义是无限的,因此我们在引号中加上了“大”一词,然而事实仍然是,处理大量数据对处理大量数据集所需的计算资源以及将小麦与谷壳分离(即在信号和噪声之间进行区分)的难度方面都构成了挑战,大量的原始信息,您的数据来自许多不同的源,多个数据源通常可能意味着混乱的数据,或者仅仅是遵循不同内部逻辑或结构的多个数据集,因此必须将数据转换或合并到中央存储库中,以确保您的所有来源都使用相同的语言,这些可以看作是两个(替代)初始警告信号:如果要处理大数据或不同数据,则应开始将数据视为复杂数据。但是,为了更深入一点,这里有七个更具体的指标来说明组织数据的复杂性,实际上是上述两个指标的更详细的版本。
决定数据复杂性的7个因素是什么使数据复杂?
1.结构
来自不同来源的数据,甚至来自同一来源内的不同表的数据,通常都可以引用相同的信息,但结构完全不同,例如假设您的人力资源部门有三个不同的电子表格,一个用于员工的个人详细信息,另一个用于员工的角色和薪水,第三个用于他们的资格等等,而您的财务部门在同一张表中记录了相同的信息,以及保险,福利和其他费用。此外,在其中一些表中,可能会用全名来提及雇员,在其他表中可能会用名字首字母或两者的某种组合来提及,为了有效地使用所有这些不同表中的数据而不丢失或重复信息,需要进行数据建模和准备工作。这是简单的用例:使用非结构化数据源(例如NoSQL数据库)会使事情进一步复杂化,因为初这些数据没有适当的架构。
2.尺寸
再次回到模糊的“大数据”概念,您收集的数据量可能会影响您分析数据所需的软件或硬件的类型。可以用原始大小(GB,TB或PB)来衡量–数据增长的越大,越有可能“阻塞”依赖于将压缩数据移入服务器RAM的流行内存数据库。其他考虑因素包括高数据-包含许多行的表(Excel,可以说是常用的数据分析工具,限于1048576行),或宽数据-包含许多列的表。您会发现,用于分析100,000行的工具和方法与分析10亿行所需的工具和方法有很大的不同。
3.细节
您希望浏览数据的粒度级别,当创建仪表盘或报表,呈现总结或汇总的数据往往比让终用户能够深入到每一个细节的能力,更容易-但是,这件事是在限制数据分析和发现的可能的深度价格的权衡,创建一个支持细化钻取的BI系统意味着必须临时处理大量数据(不依赖于预定义的查询,聚合或汇总表)。
4.查询语言
不同的数据源使用不同的语言:虽然SQL是从通用源和RDBMS提取数据的主要方法,但在使用第三方平台时,您通常需要通过其自己的API和语法连接到它,并了解内部数据模型以及用于访问此数据的协议,您的BI工具需要足够灵活,以允许通过内置连接器或API访问与数据源进行这种本机连接,否则您将不得不重复将数据导出到电子表格的繁琐过程, \ SQL数据库\数据仓库,然后从那里将其放入您的商务智能软件中,使您的分析麻烦。
5.数据类型
处理以表格形式存储的大多数数字操作数据是一回事,但是处理大量且非结构化的机器数据则完全是另一回事,就像存储在MongoDB中的大量文本数据集一样,更不用说视频和音频记录了,不同类型的数据具有不同的规则,因此找到一种方法来从所有这些数据中构建单一的真相至关重要,这样才能使您的业务决策基于组织中所有数据的集成视图。
6.分散的数据
简而言之,就是将数据存储在多个位置,例如企业内部,内部或云中的不同部门(通过购买的存储或通过云应用程序),来自客户或供应商的外部数据等,这些数据都更难收集(原因是为了及时和有效地接收它而需要参与的利益相关者的数量),并且一旦被收集,通常将需要进行清理或标准化,然后才能交叉引用和分析各种数据集,因为每个本地数据集都将根据相关企业\应用程序自身的实践和重点进行收集。
7.增长率
您不仅需要考虑当前数据,还需要考虑数据增长或更改的速度,如果经常更新数据源或频繁添加新数据源,这可能会增加您的硬件和软件资源负担(因为只要对源进行重大更改,较不先进的系统就需要从头开始重新记录整个数据集、数据),并在结构,类型,大小等方面乘以上述问题,那么您应该从这里去哪里呢?如果您符合上述一个或多个条件,并认为您的数据可能只是复杂的,那就不要失望了解是找到合适解决方案的步,并且分析复杂的数据本身不必太复杂。
如果您看一下右侧的数据复杂性象限
数据的复杂性很可能表明您在尝试将其转化为业务价值时将面临的困难程度–复杂的数据集通常比简单的数据难于准备和分析,并且通常将需要不同的数据集,BI工具可以做到这一点。复杂的数据需要额外的工作来准备和建模数据,然后再对数据进行“成熟”以进行分析和可视化,因此重要的是要了解您的数据的当前复杂性及其将来的潜在复杂性,以评估您的商业智能项目是否能胜任这项任务。
简单测试:大数据或全异数据
概括地说,有两个基本迹象表明您的数据可能被认为是复杂的,您的数据是“大”的:由于“大数据”一词的含义是无限的,因此我们在引号中加上了“大”一词,然而事实仍然是,处理大量数据对处理大量数据集所需的计算资源以及将小麦与谷壳分离(即在信号和噪声之间进行区分)的难度方面都构成了挑战,大量的原始信息,您的数据来自许多不同的源,多个数据源通常可能意味着混乱的数据,或者仅仅是遵循不同内部逻辑或结构的多个数据集,因此必须将数据转换或合并到中央存储库中,以确保您的所有来源都使用相同的语言,这些可以看作是两个(替代)初始警告信号:如果要处理大数据或不同数据,则应开始将数据视为复杂数据。但是,为了更深入一点,这里有七个更具体的指标来说明组织数据的复杂性,实际上是上述两个指标的更详细的版本。
决定数据复杂性的7个因素是什么使数据复杂?
1.结构
来自不同来源的数据,甚至来自同一来源内的不同表的数据,通常都可以引用相同的信息,但结构完全不同,例如假设您的人力资源部门有三个不同的电子表格,一个用于员工的个人详细信息,另一个用于员工的角色和薪水,第三个用于他们的资格等等,而您的财务部门在同一张表中记录了相同的信息,以及保险,福利和其他费用。此外,在其中一些表中,可能会用全名来提及雇员,在其他表中可能会用名字首字母或两者的某种组合来提及,为了有效地使用所有这些不同表中的数据而不丢失或重复信息,需要进行数据建模和准备工作。这是简单的用例:使用非结构化数据源(例如NoSQL数据库)会使事情进一步复杂化,因为初这些数据没有适当的架构。
2.尺寸
再次回到模糊的“大数据”概念,您收集的数据量可能会影响您分析数据所需的软件或硬件的类型。可以用原始大小(GB,TB或PB)来衡量–数据增长的越大,越有可能“阻塞”依赖于将压缩数据移入服务器RAM的流行内存数据库。其他考虑因素包括高数据-包含许多行的表(Excel,可以说是常用的数据分析工具,限于1048576行),或宽数据-包含许多列的表。您会发现,用于分析100,000行的工具和方法与分析10亿行所需的工具和方法有很大的不同。
3.细节
您希望浏览数据的粒度级别,当创建仪表盘或报表,呈现总结或汇总的数据往往比让终用户能够深入到每一个细节的能力,更容易-但是,这件事是在限制数据分析和发现的可能的深度价格的权衡,创建一个支持细化钻取的BI系统意味着必须临时处理大量数据(不依赖于预定义的查询,聚合或汇总表)。
4.查询语言
不同的数据源使用不同的语言:虽然SQL是从通用源和RDBMS提取数据的主要方法,但在使用第三方平台时,您通常需要通过其自己的API和语法连接到它,并了解内部数据模型以及用于访问此数据的协议,您的BI工具需要足够灵活,以允许通过内置连接器或API访问与数据源进行这种本机连接,否则您将不得不重复将数据导出到电子表格的繁琐过程, \ SQL数据库\数据仓库,然后从那里将其放入您的商务智能软件中,使您的分析麻烦。
5.数据类型
处理以表格形式存储的大多数数字操作数据是一回事,但是处理大量且非结构化的机器数据则完全是另一回事,就像存储在MongoDB中的大量文本数据集一样,更不用说视频和音频记录了,不同类型的数据具有不同的规则,因此找到一种方法来从所有这些数据中构建单一的真相至关重要,这样才能使您的业务决策基于组织中所有数据的集成视图。
6.分散的数据
简而言之,就是将数据存储在多个位置,例如企业内部,内部或云中的不同部门(通过购买的存储或通过云应用程序),来自客户或供应商的外部数据等,这些数据都更难收集(原因是为了及时和有效地接收它而需要参与的利益相关者的数量),并且一旦被收集,通常将需要进行清理或标准化,然后才能交叉引用和分析各种数据集,因为每个本地数据集都将根据相关企业\应用程序自身的实践和重点进行收集。
7.增长率
您不仅需要考虑当前数据,还需要考虑数据增长或更改的速度,如果经常更新数据源或频繁添加新数据源,这可能会增加您的硬件和软件资源负担(因为只要对源进行重大更改,较不先进的系统就需要从头开始重新记录整个数据集、数据),并在结构,类型,大小等方面乘以上述问题,那么您应该从这里去哪里呢?如果您符合上述一个或多个条件,并认为您的数据可能只是复杂的,那就不要失望了解是找到合适解决方案的步,并且分析复杂的数据本身不必太复杂。
如果您看一下右侧的数据复杂性象限
则可以根据源/表的数量和数据的大小对数据进行分类,在寻找BI解决方案时,您需要考虑您的数据在当今的哪个象限以及未来的走向,映射数据后就该寻找一种不仅可以为您提供帮助的工具,而且还可以随着您的企业和终用户的需求而增长的工具,寻找一个单一堆栈的工具,它将业务分析过程统一为一个软件解决方案,从而消除了大部分ETL流程,并极大地简化了剩下的工作,从而使您能够完成所需的一切,我们可能会有偏见,通过减少对稀缺的专业IT技能的依赖并增强单个业务用户的权限来简化业务分析,业务分析人员可以在90分钟内使用生产数据从一无所有变成一个功能完善的业务分析程序,从而以快的时间获得对市场的洞察力。
商业联合会数据分析专业委员会