如何避免大数据分析的 10 个错误?
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2021-06-30
错误#1:没有迁移到云端
如果您的企业不打算成为云专属,您可能会支持失去技术。从长远来看,云比您的内部解决方案更具弹性,并且更具成本效益,云将为您的组织节省大量资金,让您的企业能够 利用 具有弹性计算的新技术,并使您的组织向新的地域开放。所以现在就采取行动,看看云提供了什么。
错误# 2:不打算让 AI/ML 具有破坏性
毫无疑问:人工智能将取代您的一些工人,并有可能颠覆您处理运营的方式。但只有一种选择:你可以成为颠覆者,也可以被颠覆,如果你想领导,你必须愿意为人才付出代价并迅速采取行动,因为秀的人才正在迅速被抢购一空,当然HR 不会喜欢你需要为机器学习 (ML) 专家支付的费用,但从长远来看,现在花钱购买专家会给你带来更大的回报。并且不要犯将这项基本技能外包的错误。
错误 #3:没有解决你真正的数据科学问题:脏数据
你聘请了数据科学家,所以你认为你已经涵盖了大数据分析,然而首先重要的是要了解他们如何度过自己的时间,不幸的是他们的大部分时间都花在分析和清理数据以及将其与其他来源集成上,将 90% 的时间用于数据发现、集成和清理,在剩下的 10% 的时间中,花了 90% 的时间来修复数据清理错误——这将大约 1% 的时间留给了应聘的工作,没有干净的数据,您的数据科学就毫无价值,因此应对数据清理和集成制定明确的策略,并在员工中配备一名CPDA数据分析师。
错误 #4:相信传统的数据集成技术将解决问题 #3
使用传统技术和技术几乎不可能实现大规模的清洁、集成数据, 提取、转换、加载 (ETL) 流程 需要大量的人力并花费大量时间,此外每次添加新数据源时,人类管理额外信息的能力都会减弱,根据我的经验,我从未见过这种以人为本的技术适用于 20 多个数据源。大多数企业需要集成的远不止这些,一旦您运行了 ETL 流程,您需要匹配记录以确定哪些记录放在一起并删除重复项,传统上使用基于规则的 主数据管理系统,该系统也不能扩展。规则可以用于生成训练数据,但不能用于解决大问题。
错误 #5:相信数据仓库会解决你所有的问题
数据仓库非常适合来自大约 10 个数据源的结构化数据,但它们不适用于文本、图像和视频等内容,许多公司已经购买了每年成本高达七位数的传统数据仓库技术。但它们仅以有限的方式有用,如果您有数据仓库,请不要尝试将非结构化数据硬塞进去。
错误 #6:相信 Hadoop/Spark 会解决你所有的问题
许多公司都投资了 Hadoop(或 Spark(该公司用于大数据处理的分析引擎),他们有自己的位置,但他们不是一切的答案。那么,您会为贵公司的“秘方”使用“公分母”解决方案,还是行业必须提供的解决方案?此外,请记住,Hadoop 和 Spark 不会解决您的数据集成问题,数据科学家将大部分时间都花在这些问题上。
错误 #7:相信数据湖会解决你所有的问题
许多人认为,如果一家公司将所有数据加载到数据湖中——所有数据的集中存储库——他们将能够关联所有数据集。但它们终往往是数据沼泽,而不是数据湖,这是垃圾进垃圾出的问题,例如假设 HR 数据库需要考虑在两个不同地点工作的员工,如果将两条记录简单地加在一起,员工将被重复的数量多计,终结果是您的分析将是垃圾,您的机器学习模型将失败。公司需要使用能够解决这些问题的数据管理系统来清理他们的湖泊数据。
错误 8:将您的新东西外包给大数据分析服务公司
典型的企业将大约 95% 的 IT 预算用于运行遗留代码,而且他们通常让秀的人来做维护等工作,令人兴奋的事情被外包了,通常是因为内部没有合适的人才,或者因为秀的人坚持保持现有系统运行,这是一个失败的策略。“新事物”将推动业务向前发展,并让您秀、有创造力的人参与进来,相反公司应该外包诸如维护、电子邮件系统等平凡的事情,而不是有前途的新技术。
错误 9:屈服于创新者的困境
当技术发生变化并且您是销售“旧产品”的供应商时,很难在不失去重要市场份额的情况下转向新产品,作为一家企业,您必须愿意在需要时改变和发展,重新发明有可能——甚至可能——在短期内损害您的业务,但从长远来看,保持业务发展至关重要。实践中有很多这样的例子,大多数人都熟悉等拼车公司的出现以及对传统出租车公司的负面影响。如今,剑桥市的出租车牌照已从 70 万元降至 1 万元。
错误#10:没有为一些“火箭科学家”付钱
公司需要投资一些高技能员工来解决上述所有问题以及您将不可避免地面临的数百个其他问题,新员工不会穿西装,但他们会成为你的指路明灯。
错误 #11:为一家不想为“过去的罪孽”做些什么的公司工作
如果您的企业不打算成为云专属,您可能会支持失去技术。从长远来看,云比您的内部解决方案更具弹性,并且更具成本效益,云将为您的组织节省大量资金,让您的企业能够 利用 具有弹性计算的新技术,并使您的组织向新的地域开放。所以现在就采取行动,看看云提供了什么。
错误# 2:不打算让 AI/ML 具有破坏性
毫无疑问:人工智能将取代您的一些工人,并有可能颠覆您处理运营的方式。但只有一种选择:你可以成为颠覆者,也可以被颠覆,如果你想领导,你必须愿意为人才付出代价并迅速采取行动,因为秀的人才正在迅速被抢购一空,当然HR 不会喜欢你需要为机器学习 (ML) 专家支付的费用,但从长远来看,现在花钱购买专家会给你带来更大的回报。并且不要犯将这项基本技能外包的错误。
错误 #3:没有解决你真正的数据科学问题:脏数据
你聘请了数据科学家,所以你认为你已经涵盖了大数据分析,然而首先重要的是要了解他们如何度过自己的时间,不幸的是他们的大部分时间都花在分析和清理数据以及将其与其他来源集成上,将 90% 的时间用于数据发现、集成和清理,在剩下的 10% 的时间中,花了 90% 的时间来修复数据清理错误——这将大约 1% 的时间留给了应聘的工作,没有干净的数据,您的数据科学就毫无价值,因此应对数据清理和集成制定明确的策略,并在员工中配备一名CPDA数据分析师。
错误 #4:相信传统的数据集成技术将解决问题 #3
使用传统技术和技术几乎不可能实现大规模的清洁、集成数据, 提取、转换、加载 (ETL) 流程 需要大量的人力并花费大量时间,此外每次添加新数据源时,人类管理额外信息的能力都会减弱,根据我的经验,我从未见过这种以人为本的技术适用于 20 多个数据源。大多数企业需要集成的远不止这些,一旦您运行了 ETL 流程,您需要匹配记录以确定哪些记录放在一起并删除重复项,传统上使用基于规则的 主数据管理系统,该系统也不能扩展。规则可以用于生成训练数据,但不能用于解决大问题。
错误 #5:相信数据仓库会解决你所有的问题
数据仓库非常适合来自大约 10 个数据源的结构化数据,但它们不适用于文本、图像和视频等内容,许多公司已经购买了每年成本高达七位数的传统数据仓库技术。但它们仅以有限的方式有用,如果您有数据仓库,请不要尝试将非结构化数据硬塞进去。
错误 #6:相信 Hadoop/Spark 会解决你所有的问题
许多公司都投资了 Hadoop(或 Spark(该公司用于大数据处理的分析引擎),他们有自己的位置,但他们不是一切的答案。那么,您会为贵公司的“秘方”使用“公分母”解决方案,还是行业必须提供的解决方案?此外,请记住,Hadoop 和 Spark 不会解决您的数据集成问题,数据科学家将大部分时间都花在这些问题上。
错误 #7:相信数据湖会解决你所有的问题
许多人认为,如果一家公司将所有数据加载到数据湖中——所有数据的集中存储库——他们将能够关联所有数据集。但它们终往往是数据沼泽,而不是数据湖,这是垃圾进垃圾出的问题,例如假设 HR 数据库需要考虑在两个不同地点工作的员工,如果将两条记录简单地加在一起,员工将被重复的数量多计,终结果是您的分析将是垃圾,您的机器学习模型将失败。公司需要使用能够解决这些问题的数据管理系统来清理他们的湖泊数据。
错误 8:将您的新东西外包给大数据分析服务公司
典型的企业将大约 95% 的 IT 预算用于运行遗留代码,而且他们通常让秀的人来做维护等工作,令人兴奋的事情被外包了,通常是因为内部没有合适的人才,或者因为秀的人坚持保持现有系统运行,这是一个失败的策略。“新事物”将推动业务向前发展,并让您秀、有创造力的人参与进来,相反公司应该外包诸如维护、电子邮件系统等平凡的事情,而不是有前途的新技术。
错误 9:屈服于创新者的困境
当技术发生变化并且您是销售“旧产品”的供应商时,很难在不失去重要市场份额的情况下转向新产品,作为一家企业,您必须愿意在需要时改变和发展,重新发明有可能——甚至可能——在短期内损害您的业务,但从长远来看,保持业务发展至关重要。实践中有很多这样的例子,大多数人都熟悉等拼车公司的出现以及对传统出租车公司的负面影响。如今,剑桥市的出租车牌照已从 70 万元降至 1 万元。
错误#10:没有为一些“火箭科学家”付钱
公司需要投资一些高技能员工来解决上述所有问题以及您将不可避免地面临的数百个其他问题,新员工不会穿西装,但他们会成为你的指路明灯。
错误 #11:为一家不想为“过去的罪孽”做些什么的公司工作
如果你为一家陷入上述任何错误的公司工作,想办法解决它——或者开始寻找一份新工作。
商业联合会数据分析专业委员会