关于大数据的6个神话?
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2021-07-20
您的公司是否还在努力了解什么是大数据以及如何管理大数据?这里有来自专家的关于大数据的6个神话,可帮助您在大数据领域中将事实与虚构分开。
1.大数据意味着“大量”数据
如今大数据已成为流行语。但是其真正含义通常仍然不清楚,有些人将大数据简称为大量数据,但是这不是很正确,比这复杂一点,大数据是指结构化(如Excel工作表)或非结构化(如电子邮件中的元数据)的数据集如何与社交媒体分析或IoT数据之类的数据结合以构成更大的故事,大数据故事显示了组织内部正在发生的事情的趋势-这个故事很难用传统的分析技术来把握,数据量很大就像水放在玻璃杯中时,非常易于管理,但是在洪水中它势不可挡当数据规模增长到100时,用于单台机器的数据的数据分析系统将被冲走,或1000次,因此可以肯定的是原型是小型的,但是大型的建筑师。
2.数据需要干净
的神话是您必须拥有干净的数据才能进行分析,没有人拥有干净的数据,我必须清理它以进行分析的整个疯狂想法是行不通的,您要做的是您进行了足够好的分析,尽管存在所有肮脏的情况,您还是可以获取数据,然后进行分析它显示了您在哪里存在数据质量问题,尽管有数据质量问题,我也可以向您展示一些很好的模式,现在您可以进行有针对性的数据质量工作,只是改善数据以获得更好的见解,通常企业会把这些努力放到后面,因为它们的数据不是干净的,这不是必需的,部署分析应用程序将在视觉上阐明数据的弱点,一旦发现这些不足,就可以制定清理计划,分析应用程序可以利用一种机制来强调清理工作并监视进度。
如果您的数据不干净我认为这就是更多原因
一旦将这些数据绑定在一起,并在应用程序中以可视化的方式将它们变为现实时,就会看到这些关联,并且看到数据汇聚在一起,那么很快就会发现数据不足,您可以查看数据问题所在,并在清理数据时提供基准。
3.等待使您的数据
这是另一个您不希望清理数据的原因,到清理数据的时间,它已经存在了三个月,所以您拥有陈旧的数据, 因此该信息不再相关,如何进行分析,发现问题,更改分析,重新运行分析的,分析相隔仅四到五分钟,因此如果我可以进行分析,请找到问题,解决问题,重新运行分析并在四,五分钟后查看报告,这改变了我进行分析的方式的本质,把所有事情都做对了,然后编写了代码,但是现在每个人都在进行敏捷编码,您编写一些东西对其进行测试,然后看看如何改进它,然后再使其变得更好,世界已经改变了,人们仍在行事,就像它是旧的做事方式。
4.数据湖
数据湖(通常是松散的存储大量原始结构化数据和结构化数据的存储库)在大数据环境中经常被提及,的问题是尽管被引用的频率很高,但它们却不存在,一个企业的数据不会被转储到数据湖中,它是在部门的数据孤岛中精心策划的,以鼓励专注的专业知识,它们还提供了良好的数据治理和合规性所需的问责制和透明度。
5.分析数据很昂贵
您是否由于数据分析工具中涉及的假定费用而害怕开始使用数据?有个好消息对您来说,有了今天可用的免费数据工具,任何人都可以开始分析大数据,当今云计算的低成本意味着您实际上可以做不可能做的事情。
6.机器算法将取代人工分析人员
分析大数据的方法方面看到了一个有趣的二分法,存在分歧一方面有人在说,我将把成千上万的数据科学家扔在这个问题上,然后有人在说,机器学习将做到这一切,它将完全自动化,这些解决方案都不起作用,没有足够的数据科学家,而且成本正在迅速上升,此外业务用户拥有多年的域登录和业务直觉,当您带一名数据科学家说,那家伙会去做并告诉您要做什么时,这实际上会产生完全错误的类型数据科学家经常无法充分了解我们的业务,无法立即真正精通业务,的数据科学家完全了解特定业务的运作方式,其数据的运作方式是一个神话。
实际上大多数数据科学项目实际上都没有实施,因为它是如此困难
1.大数据意味着“大量”数据
如今大数据已成为流行语。但是其真正含义通常仍然不清楚,有些人将大数据简称为大量数据,但是这不是很正确,比这复杂一点,大数据是指结构化(如Excel工作表)或非结构化(如电子邮件中的元数据)的数据集如何与社交媒体分析或IoT数据之类的数据结合以构成更大的故事,大数据故事显示了组织内部正在发生的事情的趋势-这个故事很难用传统的分析技术来把握,数据量很大就像水放在玻璃杯中时,非常易于管理,但是在洪水中它势不可挡当数据规模增长到100时,用于单台机器的数据的数据分析系统将被冲走,或1000次,因此可以肯定的是原型是小型的,但是大型的建筑师。
2.数据需要干净
的神话是您必须拥有干净的数据才能进行分析,没有人拥有干净的数据,我必须清理它以进行分析的整个疯狂想法是行不通的,您要做的是您进行了足够好的分析,尽管存在所有肮脏的情况,您还是可以获取数据,然后进行分析它显示了您在哪里存在数据质量问题,尽管有数据质量问题,我也可以向您展示一些很好的模式,现在您可以进行有针对性的数据质量工作,只是改善数据以获得更好的见解,通常企业会把这些努力放到后面,因为它们的数据不是干净的,这不是必需的,部署分析应用程序将在视觉上阐明数据的弱点,一旦发现这些不足,就可以制定清理计划,分析应用程序可以利用一种机制来强调清理工作并监视进度。
如果您的数据不干净我认为这就是更多原因
一旦将这些数据绑定在一起,并在应用程序中以可视化的方式将它们变为现实时,就会看到这些关联,并且看到数据汇聚在一起,那么很快就会发现数据不足,您可以查看数据问题所在,并在清理数据时提供基准。
3.等待使您的数据
这是另一个您不希望清理数据的原因,到清理数据的时间,它已经存在了三个月,所以您拥有陈旧的数据, 因此该信息不再相关,如何进行分析,发现问题,更改分析,重新运行分析的,分析相隔仅四到五分钟,因此如果我可以进行分析,请找到问题,解决问题,重新运行分析并在四,五分钟后查看报告,这改变了我进行分析的方式的本质,把所有事情都做对了,然后编写了代码,但是现在每个人都在进行敏捷编码,您编写一些东西对其进行测试,然后看看如何改进它,然后再使其变得更好,世界已经改变了,人们仍在行事,就像它是旧的做事方式。
4.数据湖
数据湖(通常是松散的存储大量原始结构化数据和结构化数据的存储库)在大数据环境中经常被提及,的问题是尽管被引用的频率很高,但它们却不存在,一个企业的数据不会被转储到数据湖中,它是在部门的数据孤岛中精心策划的,以鼓励专注的专业知识,它们还提供了良好的数据治理和合规性所需的问责制和透明度。
5.分析数据很昂贵
您是否由于数据分析工具中涉及的假定费用而害怕开始使用数据?有个好消息对您来说,有了今天可用的免费数据工具,任何人都可以开始分析大数据,当今云计算的低成本意味着您实际上可以做不可能做的事情。
6.机器算法将取代人工分析人员
分析大数据的方法方面看到了一个有趣的二分法,存在分歧一方面有人在说,我将把成千上万的数据科学家扔在这个问题上,然后有人在说,机器学习将做到这一切,它将完全自动化,这些解决方案都不起作用,没有足够的数据科学家,而且成本正在迅速上升,此外业务用户拥有多年的域登录和业务直觉,当您带一名数据科学家说,那家伙会去做并告诉您要做什么时,这实际上会产生完全错误的类型数据科学家经常无法充分了解我们的业务,无法立即真正精通业务,的数据科学家完全了解特定业务的运作方式,其数据的运作方式是一个神话。
实际上大多数数据科学项目实际上都没有实施,因为它是如此困难
它需要几个月的时间才能完成,而到完成时您关心的问题已经太老了,但是过度依赖机器学习也存在一些问题,这给了我答案但没有解释,这是在告诉我该怎么做,而不是为什么我应该这样做,人们不喜欢被告知该怎么做,特别是被神奇的机器告知,关键不只是答案,而是解释和建议,一方面数据科学家将越来越专注于真正棘手的问题,考虑每个部门和公司成立数据处理部门和数字处理部门的时间,数据处理部门”和“数字处理部门”,他们基本上变成了Excel,Word和PowerPoint,尽管如此人们还是数据和数字处理方面的专家,仍然有一些数据处理和数字处理方面的专家,他们仍然存在,他们有不同的头衔和不同的工作,但在真正高级的情况下,这些人仍然存在,但是80 -90%的人将迁移到Excel,就大数据而言这就是世界应该发展的方式。