使数据仓库数据湖和数据市场神秘化的方法?
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2021-03-04
由于数据和分析已成为组织业务流程中不可或缺的一部分
因此我们中间的非DBA可能会开始迷失在技术术语中,而这些术语经常被技术团队抛弃。在这个空间中存在的供应商噪音过大,进一步产生了行话,炒作和混乱(只需尝试直接回答“什么是大数据”)以指导您的数据可能驻留在各种类型的存储库中:数据库,数据集市,数据仓库和数据湖,以便您对每种存储库都有基本的了解这些概念及其在您实际工作中扮演的角色–来自数据的真实,见解。
数据库是基本的数据存储机制
无论采用哪种形式,数据库都是大多数数据存储和管理系统的核心,与许多应用程序和系统一起使用的关系数据库将数据保存在行和列的表中,在表中一行对应于具有一组数据字段序列的记录,而一列则列出了所有记录的一个给定数据字段,数据的结构在于,在给定的字段中只能使用“正确”种类的数据:例如,在客户关系数据库中,不能在交货地址的字段中使用装运日期,依此类推。
在开始记录数据之前定义关系数据库的结构或“模式”
此后通常保持不变,但是通过将数据库企业为独立的表并在它们之间定义关系,可以用许多不同的方式访问或重组结构化数据,相比之下处理非结构化数据的需求导致了其他类型数据库的创建,例如为了有效处理电子邮件中或可变长度视频剪辑中的自由格式文本,这样的非关系数据库可能具有很少的字段或用于不同记录的字段数量不同,并且可以允许“在数据存储操作开始后“飞行”。
事务数据库(面向写)
对于销售会计和生产等关键业务系统,至关重要的是,将交易数据输入数据库是快速而可靠的,而又不会中断业务流程。通过小化数据库表之间数据字段的重复(对数据进行规范化),可以针对这些“写入”操作优化数据库,交易系统在检索有关单个交易的特定信息(例如发给客户的日期)方面也可能很有效,另一方面“面向写入”的设计使其不太适合整理数据以提供信息,例如过去两年中的整体出货量数据,当查询生产数据库时,这种“面向读取”操作可能需要对数据记录进行大规模操作或对大型表进行重组,这两种操作均可能对交易系统的性能产生重大的负面影响。
分析数据库(面向读取)
分析数据库系统针对“读取”操作进行了优化,并且通常与事务操作系统分开运行。他们有时会从事务系统和可能的其他数据源中获取数据,但否则它们执行的写操作相对较少。分析系统用于合并数据(汇总),切片数据(例如,给定产品一年以上的所有出货量),骰子数据(例如,给定客户的特定产品组的特定产品的出货量)给定的四分之一),然后向下钻取以显示高层统计信息的连续细节层。
一版真相的数据仓库
企业中的数据在各种来源中以不同的格式存在,并且在一个来源与另一个来源之间不一定是一致的。为了解决差异和潜在的冲突,数据仓库整合了来自不同来源的数据,并以一种统一的,统一的形式提供了数据。对于企业或组织来说,获得“事实的一个版本”的过程分为三个主要步骤。
提炼:数据是从不同的数据源上传的(也许每天,每周甚至每月)上传的。它可能先进入登台服务器,然后再进入数据仓库。
转换:通过调整格式和解决冲突,使不同的数据集相互兼容。
数据市场为各个部门提供洞察力
数据集市为有限的数据区域提供分析功能,例如,仅针对企业中的一个功能域或部门。数据集市可以帮助避免一个部门干扰另一部门的数据。在尝试为整个组织解决数据仓库之前,他们还可以简化数据分析或满足较小,更具体的要求。因此,关于如何实现数据仓库和数据集市有两种观点。一种是从数据仓库开始,这是一个总体构建。从属数据集市则是数据仓库的限制或子集。另一种是从源数据中创建独立的数据集市,然后将它们组合在一起以形成一个整体或更大的数据仓库。
大容量存储的数据湖改变了规则
可以通过分析非结构化数据和大数据以获取业务洞察力的认识导致了数据湖的概念,相对于数据仓库,数据湖以较低的成本提供了海量数据存储,高可用性,并具有更高的敏捷性和使用灵活性,数据湖可帮助提高数据民主度,使用户有更多的机会在提出新问题时提出新的问题,它支持来自所有来源的所有数据,包括关系数据库,Hadoop文件系统和社交媒体数据,它还保留原始数据以及转换后的版本,以实现数据可追溯性,但是仍然需要进行数据治理和理解实际的业务用途,否则不加选择的数据转储可能会使潜在有用的数据湖变成不健康的数据沼泽。
与使用“写入时架构”方法来保存结构化
已处理数据的数据仓库架构相比,数据湖使用“读取时架构”方法,其中仅当从数据库中读取数据时才应用结构和架构,数据湖以回答商业智能问题或用于其他分析目的,换句话说,尽管数据仓库通过ETL过程(提取,转换,加载)起作用,但数据湖却使用ELT(提取,加载然后转换)代替。
您的企业需要数据仓库吗?数据湖?或两者?
因此我们中间的非DBA可能会开始迷失在技术术语中,而这些术语经常被技术团队抛弃。在这个空间中存在的供应商噪音过大,进一步产生了行话,炒作和混乱(只需尝试直接回答“什么是大数据”)以指导您的数据可能驻留在各种类型的存储库中:数据库,数据集市,数据仓库和数据湖,以便您对每种存储库都有基本的了解这些概念及其在您实际工作中扮演的角色–来自数据的真实,见解。
数据库是基本的数据存储机制
无论采用哪种形式,数据库都是大多数数据存储和管理系统的核心,与许多应用程序和系统一起使用的关系数据库将数据保存在行和列的表中,在表中一行对应于具有一组数据字段序列的记录,而一列则列出了所有记录的一个给定数据字段,数据的结构在于,在给定的字段中只能使用“正确”种类的数据:例如,在客户关系数据库中,不能在交货地址的字段中使用装运日期,依此类推。
在开始记录数据之前定义关系数据库的结构或“模式”
此后通常保持不变,但是通过将数据库企业为独立的表并在它们之间定义关系,可以用许多不同的方式访问或重组结构化数据,相比之下处理非结构化数据的需求导致了其他类型数据库的创建,例如为了有效处理电子邮件中或可变长度视频剪辑中的自由格式文本,这样的非关系数据库可能具有很少的字段或用于不同记录的字段数量不同,并且可以允许“在数据存储操作开始后“飞行”。
事务数据库(面向写)
对于销售会计和生产等关键业务系统,至关重要的是,将交易数据输入数据库是快速而可靠的,而又不会中断业务流程。通过小化数据库表之间数据字段的重复(对数据进行规范化),可以针对这些“写入”操作优化数据库,交易系统在检索有关单个交易的特定信息(例如发给客户的日期)方面也可能很有效,另一方面“面向写入”的设计使其不太适合整理数据以提供信息,例如过去两年中的整体出货量数据,当查询生产数据库时,这种“面向读取”操作可能需要对数据记录进行大规模操作或对大型表进行重组,这两种操作均可能对交易系统的性能产生重大的负面影响。
分析数据库(面向读取)
分析数据库系统针对“读取”操作进行了优化,并且通常与事务操作系统分开运行。他们有时会从事务系统和可能的其他数据源中获取数据,但否则它们执行的写操作相对较少。分析系统用于合并数据(汇总),切片数据(例如,给定产品一年以上的所有出货量),骰子数据(例如,给定客户的特定产品组的特定产品的出货量)给定的四分之一),然后向下钻取以显示高层统计信息的连续细节层。
一版真相的数据仓库
企业中的数据在各种来源中以不同的格式存在,并且在一个来源与另一个来源之间不一定是一致的。为了解决差异和潜在的冲突,数据仓库整合了来自不同来源的数据,并以一种统一的,统一的形式提供了数据。对于企业或组织来说,获得“事实的一个版本”的过程分为三个主要步骤。
提炼:数据是从不同的数据源上传的(也许每天,每周甚至每月)上传的。它可能先进入登台服务器,然后再进入数据仓库。
转换:通过调整格式和解决冲突,使不同的数据集相互兼容。
加载:转换后的数据将加载到分析存储库中,以进行后续计算,趋势分析,报告和其他商业智能功能。
数据市场为各个部门提供洞察力
数据集市为有限的数据区域提供分析功能,例如,仅针对企业中的一个功能域或部门。数据集市可以帮助避免一个部门干扰另一部门的数据。在尝试为整个组织解决数据仓库之前,他们还可以简化数据分析或满足较小,更具体的要求。因此,关于如何实现数据仓库和数据集市有两种观点。一种是从数据仓库开始,这是一个总体构建。从属数据集市则是数据仓库的限制或子集。另一种是从源数据中创建独立的数据集市,然后将它们组合在一起以形成一个整体或更大的数据仓库。
大容量存储的数据湖改变了规则
可以通过分析非结构化数据和大数据以获取业务洞察力的认识导致了数据湖的概念,相对于数据仓库,数据湖以较低的成本提供了海量数据存储,高可用性,并具有更高的敏捷性和使用灵活性,数据湖可帮助提高数据民主度,使用户有更多的机会在提出新问题时提出新的问题,它支持来自所有来源的所有数据,包括关系数据库,Hadoop文件系统和社交媒体数据,它还保留原始数据以及转换后的版本,以实现数据可追溯性,但是仍然需要进行数据治理和理解实际的业务用途,否则不加选择的数据转储可能会使潜在有用的数据湖变成不健康的数据沼泽。
与使用“写入时架构”方法来保存结构化
已处理数据的数据仓库架构相比,数据湖使用“读取时架构”方法,其中仅当从数据库中读取数据时才应用结构和架构,数据湖以回答商业智能问题或用于其他分析目的,换句话说,尽管数据仓库通过ETL过程(提取,转换,加载)起作用,但数据湖却使用ELT(提取,加载然后转换)代替。
您的企业需要数据仓库吗?数据湖?或两者?
当今企业越来越多地访问或生成数据复杂性和大量不同的数据集,这都是在收集,存储和分析数据的解决方案之间进行选择时要考虑的因素,数据湖可用于处理大量非结构化数据,但也需要可轻松与之交互的工具,数据仓库使组织可以创建单一的事实来源,但是当它们需要IT专业人员介入以设置新的查询或报告时,却以敏捷分析为代价,但是也可以同时使用两者。数据湖可用于沙箱,允许用户在数据仓库中设置新架构之前尝试不同的数据模型和转换,它也可以用作暂存区域,从该暂存区域可以将数据提供给数据仓库,然后生成具有已知价值的清理后的数据,通过适当地使用每种可能性,企业和企业可以充分利用这两种解决方案。
商业联合会数据分析专业委员会