数据发现只是个流行词吗?
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2021-03-03
希望利用更好的业务数据分析所带来的巨大商机
什么是数据发现?让我们从一个简单的定义开始,从本质上讲数据发现是一个过程,用于挖掘相关的数据见解并将这些见解提供给需要它们的业务用户,这是一个很好的主张,因为越来越多的业务用户希望访问和分析自己的数据,在BI的早期,数据分析只保留给技术和IT部门,营销经理,研发负责人和任何其他类型的业务用户都必须依靠手动报告或模板,就像您可以想象的那样,这些报告或模板并不总是能够为他们提供所需的答案。
数据发现的成名之路
预测数据发现工具将取得巨大的增长,事实上到2012年,数据发现将在BI的更大保护下构成一个价值数十亿元的行业,随着越来越多的业务用户要求进行数据可视化,他们可以快速访问和消化数据,因此对数据发现系统的需求激增,突然企业中的业务用户能够以易于理解和采取行动的格式获得所需的答案(和内部批准),但是这是有代价的。
传统数据发现需要昂贵的数据准备
大多数数据发现工具都依赖大量资源的数据准备,这迫使您在可视化数据之前先对其进行聚合,这需要在单独的数据仓库之上进行清理的其他工具,并且通常至少需要对IT部门进行一次沮丧的电话会议。该过程不仅冗长且昂贵,而且还留下了很多错误的余地。不幸的是,这种高成本,高度分散的设置问题也适用于数据发现可视化工具。
大多数数据发现可视化工具无法为您提供全部信息
如果您像大多数组织一样,则可能正在使用多个系统,例搜索引擎(分析),SQL和Excel,您想要的是数据的单一视图,以帮助您证明观点或做出正确的选择,实际上许多可视化工具都可以将多个源组合到一个表中,但是要做到这一点,必须有人首先对数据建模以进行正确的分析,就像数据准备一样,数据建模需要时间和资源,这将诱使许多用户简单地跳过耗时的数据建模步骤,但这将是一个很大的错误,如果没有正确的数据建模,您将看到不准确的数据并破坏目的。
尽管存在所有成本和生产力障碍,为什么数据发现工具仍然如此受欢迎?
更重要的是有什么选择?由于大多数可视化分析平台仅提供一半的解决方案(即没有或没有完整的数据准备和建模的可视化),因此数据发现工具仍然是填补空白的受欢迎的工具(更不用说提高服务提供商的收入了),过去对这些工具进行投资是有意义的,这是企业使整个企业中的数据可用的方法,值得庆幸的是,BI格局已经发生了变化,现在借助大量的全栈解决方案和基于列的工具,您可以直接连接到原始数据,并可以为单个数据模型加入数据源,或如我们所说的那样,是事实的单一版本。
真正的数据发现是对所有用户的复杂数据的全面探索
出色的BI工具是将多个不同的数据源组合在一起的一种用户友好,易于阅读的工具,更重要的是,它通过逻辑联接实现了准确的数据可视化,换句话说,您可以在不弄乱分析的情况下合并多个数据源,这还可以解决绝大多数建模难题,甚至还可以解决这些难题,借助全栈解决方案,无需花时间或金钱进行维护,因为无需摆弄多个模型,也无需担心手动清理,结构化和更新集中式数据仓库中的数据,现在您可以直观地完成所有这些操作,而无需编写代码,一个专注于预测分析的系统甚至可以记住过去的更新并将其自动化,以节省您将来的时间。
您不需要数据发现来获得更大的协作
投资各种数据发现工具实际上会在组织内部造成更大的差距,并在IT和技术团队尝试支持多个系统和用户时给他们带来更大的负担,将其与全栈解决方案进行比较,毫无疑问,哪个实际上可以使数据民主化,例如基于列的解决方案结合了不同的数据集,并从原始数据中获取见解,业务用户可以随时根据需要插入数据源。
真正的数据发现使非技术的终用户拥有数据的每一步
使用更现代的全栈解决方案,每个业务用户都可以控制其数据管理,甚至非技术用户也可以输入简单的命令来对数据运行逻辑,并根据需要将其简化为简单或复杂的操作,所有这些都在一个环境中完成,就像许多数据发现工具一样,多个人可以访问数据,而不必将文件下载到他们的PC,更新数据,然后重新加载服务器,这个长期存在且难以置信的繁琐过程不仅耗时,而且每个用户的计算机上都需要大量的RAM和CPU,这可能会非常迅速且非常昂贵,另一方带有中央服务器的全栈解决方案使您可以轻松地从自己的计算机添加文件,然后直接在远程服务器上进行更改,从而可以在使用更少资源的情况下实现更快的数据同步,您甚至可以处理数十亿行数据,具有中央服务器的全栈解决方案还解决了由于多个人同时访问同一数据而引起的错误和差异的问题,因为所有内容都是实时同步的。
全栈可视化工具为您提供全貌
您希望在一个查询或分析中看到多少个计算?大多数可视化工具可让您在两个级别上汇总数据,但是有时需要多次计算,例如如果您要比较每月销售的产品单元数与每天的平均销售额,则需要额外的计算,首先是每个月的总和,然后除以该月的天数,而且在大多数情况下,您只会看到每月概览或每日明细,使用基于列的工具,您可以在数据上创建复杂的自定义公式,从而可以同时查看多个计算,与大多数数据发现工具一样,您不仅限于两个,您还可以创建自己的仪表板,并使用现场或基于云的基础架构在任何浏览器或移动设备上访问它们,随着小型公司旨在提高其BI的重要性,这将变得越来越重要。
数据发现工具无法跟上日益增长的复杂性
规模需求不可忽视,除了数据的大小外,当今的数据本质上通常非常多样化,不再局限于电子表格,各种自动化系统会生成大量结构化或半结构化数据,例如机器数据就是这种情况,社交网络数据或物联网(IoT)生成的数据,您需要一个可以随着更多需要数据分析的业务用户而发展的解决方案,没有一个将需要更多解决方案,随着数据复杂性的增加,硬件成本将成为数据发现工具的问题,使用大多数数据发现解决方案,所有数据都将加载到RAM中,您需要大量的RAM和CPU来支持此功能。能力的提高很快变得非常昂贵,将其与内存中的列式数据库进行比较,该数据库将数据存储在磁盘上,并且仅在运行查询且成本效益很明显时才使用RAM。
那么,数据发现是个流行词吗?
什么是数据发现?让我们从一个简单的定义开始,从本质上讲数据发现是一个过程,用于挖掘相关的数据见解并将这些见解提供给需要它们的业务用户,这是一个很好的主张,因为越来越多的业务用户希望访问和分析自己的数据,在BI的早期,数据分析只保留给技术和IT部门,营销经理,研发负责人和任何其他类型的业务用户都必须依靠手动报告或模板,就像您可以想象的那样,这些报告或模板并不总是能够为他们提供所需的答案。
数据发现的成名之路
预测数据发现工具将取得巨大的增长,事实上到2012年,数据发现将在BI的更大保护下构成一个价值数十亿元的行业,随着越来越多的业务用户要求进行数据可视化,他们可以快速访问和消化数据,因此对数据发现系统的需求激增,突然企业中的业务用户能够以易于理解和采取行动的格式获得所需的答案(和内部批准),但是这是有代价的。
传统数据发现需要昂贵的数据准备
大多数数据发现工具都依赖大量资源的数据准备,这迫使您在可视化数据之前先对其进行聚合,这需要在单独的数据仓库之上进行清理的其他工具,并且通常至少需要对IT部门进行一次沮丧的电话会议。该过程不仅冗长且昂贵,而且还留下了很多错误的余地。不幸的是,这种高成本,高度分散的设置问题也适用于数据发现可视化工具。
大多数数据发现可视化工具无法为您提供全部信息
如果您像大多数组织一样,则可能正在使用多个系统,例搜索引擎(分析),SQL和Excel,您想要的是数据的单一视图,以帮助您证明观点或做出正确的选择,实际上许多可视化工具都可以将多个源组合到一个表中,但是要做到这一点,必须有人首先对数据建模以进行正确的分析,就像数据准备一样,数据建模需要时间和资源,这将诱使许多用户简单地跳过耗时的数据建模步骤,但这将是一个很大的错误,如果没有正确的数据建模,您将看到不准确的数据并破坏目的。
尽管存在所有成本和生产力障碍,为什么数据发现工具仍然如此受欢迎?
更重要的是有什么选择?由于大多数可视化分析平台仅提供一半的解决方案(即没有或没有完整的数据准备和建模的可视化),因此数据发现工具仍然是填补空白的受欢迎的工具(更不用说提高服务提供商的收入了),过去对这些工具进行投资是有意义的,这是企业使整个企业中的数据可用的方法,值得庆幸的是,BI格局已经发生了变化,现在借助大量的全栈解决方案和基于列的工具,您可以直接连接到原始数据,并可以为单个数据模型加入数据源,或如我们所说的那样,是事实的单一版本。
真正的数据发现是对所有用户的复杂数据的全面探索
出色的BI工具是将多个不同的数据源组合在一起的一种用户友好,易于阅读的工具,更重要的是,它通过逻辑联接实现了准确的数据可视化,换句话说,您可以在不弄乱分析的情况下合并多个数据源,这还可以解决绝大多数建模难题,甚至还可以解决这些难题,借助全栈解决方案,无需花时间或金钱进行维护,因为无需摆弄多个模型,也无需担心手动清理,结构化和更新集中式数据仓库中的数据,现在您可以直观地完成所有这些操作,而无需编写代码,一个专注于预测分析的系统甚至可以记住过去的更新并将其自动化,以节省您将来的时间。
您不需要数据发现来获得更大的协作
投资各种数据发现工具实际上会在组织内部造成更大的差距,并在IT和技术团队尝试支持多个系统和用户时给他们带来更大的负担,将其与全栈解决方案进行比较,毫无疑问,哪个实际上可以使数据民主化,例如基于列的解决方案结合了不同的数据集,并从原始数据中获取见解,业务用户可以随时根据需要插入数据源。
真正的数据发现使非技术的终用户拥有数据的每一步
使用更现代的全栈解决方案,每个业务用户都可以控制其数据管理,甚至非技术用户也可以输入简单的命令来对数据运行逻辑,并根据需要将其简化为简单或复杂的操作,所有这些都在一个环境中完成,就像许多数据发现工具一样,多个人可以访问数据,而不必将文件下载到他们的PC,更新数据,然后重新加载服务器,这个长期存在且难以置信的繁琐过程不仅耗时,而且每个用户的计算机上都需要大量的RAM和CPU,这可能会非常迅速且非常昂贵,另一方带有中央服务器的全栈解决方案使您可以轻松地从自己的计算机添加文件,然后直接在远程服务器上进行更改,从而可以在使用更少资源的情况下实现更快的数据同步,您甚至可以处理数十亿行数据,具有中央服务器的全栈解决方案还解决了由于多个人同时访问同一数据而引起的错误和差异的问题,因为所有内容都是实时同步的。
全栈可视化工具为您提供全貌
您希望在一个查询或分析中看到多少个计算?大多数可视化工具可让您在两个级别上汇总数据,但是有时需要多次计算,例如如果您要比较每月销售的产品单元数与每天的平均销售额,则需要额外的计算,首先是每个月的总和,然后除以该月的天数,而且在大多数情况下,您只会看到每月概览或每日明细,使用基于列的工具,您可以在数据上创建复杂的自定义公式,从而可以同时查看多个计算,与大多数数据发现工具一样,您不仅限于两个,您还可以创建自己的仪表板,并使用现场或基于云的基础架构在任何浏览器或移动设备上访问它们,随着小型公司旨在提高其BI的重要性,这将变得越来越重要。
数据发现工具无法跟上日益增长的复杂性
规模需求不可忽视,除了数据的大小外,当今的数据本质上通常非常多样化,不再局限于电子表格,各种自动化系统会生成大量结构化或半结构化数据,例如机器数据就是这种情况,社交网络数据或物联网(IoT)生成的数据,您需要一个可以随着更多需要数据分析的业务用户而发展的解决方案,没有一个将需要更多解决方案,随着数据复杂性的增加,硬件成本将成为数据发现工具的问题,使用大多数数据发现解决方案,所有数据都将加载到RAM中,您需要大量的RAM和CPU来支持此功能。能力的提高很快变得非常昂贵,将其与内存中的列式数据库进行比较,该数据库将数据存储在磁盘上,并且仅在运行查询且成本效益很明显时才使用RAM。
那么,数据发现是个流行词吗?
我们是这样认为的,一种“真实的”数据发现架构是一种使非技术的终用户(例如,营销经理,业务分析师)拥有掌握数据分析过程的每一步的能力,从准备要分析的数据到可视化结果,甚至是在工作时来自多个来源的复杂数据。
商业联合会数据分析专业委员会