400 050 6600
数据分析师

手机号

验证码

30天自动登录
当前位置:首页 - Q&A问答

Q&AQ&A问答

如何克服数据湖和仓库策略中的障碍?

来源:CPDA数据分析师网 / 作者:数据君 / 时间:2021-05-07

多云计划(利用公共云和私有云的服务)可以帮助组织保持领先地位
但是在寻求创建可靠的数据仓库策略时,经常会遇到挑战,其中重要的是激进的预算限制(由在整个组织范围内减少资本和运营费用的强制性要求驱动)以及避免供应商锁定的需要,以停滞的工具或多年期许可证的形式,为了支持多云的业务案例,企业架构师可以通过解决三个主要考虑因素而受益。

1.做出适当的工具选择
以合适的价格获得合适的工具始终是一个挑战,如果当前的选择无法奏效或业务需求发生变化,那么在预算压力下的公司可能无法在几年内更换工具,权衡预算和功能的挑战适用于一系列工具和云服务,包括用于商业智能(BI),数据科学,数据仓库和数据湖的工具和云服务,明确的要求列表和评估方案的评分方法将有助于确定适合您情况的工具,购买工具的考虑超出了价格和功能,人员是否需要接受新的培训,与其他工具的集成程度如何,是否存在其他许可要求,以及是否会在未来三年内帮助或阻碍体系结构决策?

选择过程中的关键步骤是确定您正在考虑的工具是否可以满足当前以及可预见的将来的业务需求。诚然,随着新工具频繁进入市场,这可能很难确定,从这个角度看待购买将有助于超越当前的预算限制,多云战略“到2024年将减少三分之二的组织对供应商的依赖”,确保您选择的工具是灵活的,并且能够满足当今的业务需求,此外由于数据是业务决策的核心,因此需要仔细定义和检查数据策略,需要以小的延迟访问数据,以便及时制定业务决策,业务分析师和数据科学可以访问的良好数据是转向预测性(而不是被动性)决策的关键。确保从本地或任何一个或多个云上访问数据是必不可少的,但这应该在不将数据移动或复制到多个位置的情况下实现,数据的多个副本意味着没有事实的来源,大多数时间将花费在复制或迁移数据上,而不是利用数据来实现业务策略。

2.评估构建与购买决策
任何工具选择的一部分都围绕一个决定,即自己构建一个或购买一个现有的工具,一些企业可能具有明确的授权,将一种选择优先于另一种选择,一个常见的任务是避免供应商锁定,这可以阻止从某些供应商那里购买产品,但可以为支持多云计划的更加灵活的方法提供支持,您是否可以使用内部可用的开发资源来构建解决方案?还是需要依靠承包商?无论是依靠内部开发人员还是依靠承包商,请确保记录和共享参考体系结构,建立防护栏,定义频繁的检查点和代码演练以及对源存储库进行检查和审核,在这里敏捷方法学是关键,仔细检查所有文档,并确保在整个生命周期内将其有效地传达给支持和运营团队,以确保有效的交接而不会出现意外,虽然当然可以构建数据湖或整个数据仓库,但这项任务可能非常艰巨,尤其是与许多数据仓库供应商提供的产品相比时。

您的每个利益相关者有什么要求?
收集这些信息,然后根据经验评分框架对它们进行评估,将使您的团队能够在没有偏见的情况下评估工具,拥有数百个连接器和出色的性能,购买一些工具更有意义,它们提供了使用公共云服务的具有成本效益的机会,通常导致资本支出,支持和维护的同比减少,BI工具就是这样一个例子,在过去的几年中,数据仓库发生了巨大的变化。有大量的并行处理数据库引擎(创建用于通过多处理单元同时管理多个操作),为数据仓库提供了出色的性能,存储技术的进步还使数据仓库(结构化和半结构化)可以使用各种数据类型。数据仓库可以应用业务逻辑,提供熟悉的查询功能,并执行ETL(提取,转换,加载)和ELT提取,加载。

3.信任并验证数据
无论企业架构师对解决方案和工具做出何种选择,都必须始终将重点放在数据质量上,特别是对于数据仓库,数据必须是干净的,以近实时/实时频率提供;组织查询,报告和分析,和信任,为确保数据受信任和认证,标识所有数据,以便可以搜索和找到它们,识别分类和标记每条数据,确保保留数据沿袭详细信息,并确保已定义分类法,自动化数据发现过程,保持,标记可以自动执行(通过自动标记,通过随时间推移而改进的机器学习功能)或由数据管理员手动执行,建立安全策略,可以使用特定规则(包括安全策略)配置大多数数据湖和数据仓库,这些规则指定如何处理每种类型的数据,例如必须在您的湖泊或仓库上对个人身份信息数据进行保护和正确标记。

审核并记录整个系统对数据的所有访问
一旦数据目录存在并且为各种数据类型,标签和沿袭定义了安全策略,则“对数据的信任”组件将基本完成,显示时间变体,您的数据湖,仓库和报告必须全部显示时间变化,以确保数据的准确性和及时性,数据治理,没有数据治理,解决方案将失败,数据治理定义了流程,策略和过程,并定义了所有数据资产的管理方,数据治理的组成部分包括数据质量,数据管理,主数据管理,数据及时性和数据准确性,数据经过标记和认证后,即可用于报告,报告可以由业务主题专家或数据管理员进行认证,然后加水印为“已认证”,还必须保护数据和报告的安全-静态和动态加密,并使用基于角色的安全性,掩蔽和混淆来满足各种报告或合规性需求。

从障碍到机遇

与本地或DIY解决方案相比,基于云的数据仓库可以提高成本效益,轻松扩展并减少组织的人工需求,寻找适合您企业的云(或多云)策略的选项,以避免数据重复,数据出口费用和供应商锁定,通过程度地减少当前的挑战,您将能够创造性地应对有助于您的组织蓬勃发展的业务计划。



免费客服热线:400-050-6600

商业联合会数据分析专业委员会



Prev article

大型技术中的无代码,为何关键参与者在2020年开始接受它?

Next article

强化学习挑战以突破嵌入式AI的界限的目地?

数据分析师

报名咨询

数据分析师

报名缴费

数据分析师

客服中心

数据分析师

课程服务

数据分析师

认证服务