释放数据湖功能的5种实践
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-07-30
从“为什么”而不是“什么”开始:为什么需要数据湖?
所有工业公司无论是否喜欢,都从事信息业务,能够通过不断发展自己的业务模式和专注于市场来保持与时俱进的重要性,以与市场保持同步,他们可以通过数据仓库获得360度全方位的企业信息可视性,但是大数据的出现使这些系统陷入困境,将它们推向容量,并提高了存储成本,结果一些公司已开始将其一些数据(通常是利用率较低的数据)移至一组新的系统中。
那么什么是数据湖?
数据湖已作为企业范围的数据管理平台销售,用于分析其本机格式的不同数据源。这个想法很简单:您无需将数据放置在专用数据存储中,而是将其以原始格式移入数据湖,这消除了数据摄取(如转换)的前期成本。一旦将数据放入湖泊中,组织中的每个人都可以进行分析。
之所以出现数据湖的隐喻,是因为“湖”是解释大数据基本原理之一的好概念
也就是说,需要 使用分析和机器学习来收集 所有数据并检测异常,趋势和模式,这是因为数据科学的基本原理之一是,您获取的数据越多,终数据模型就越好,通过访问所有数据,您可以使用整个数据集而不是样本集进行建模,从而减少了可能出现的误报次数。
数据仓库和数据湖之间有什么区别?
数据湖提供了存储任何内容的灵活性,而不必担心预先格式化数据。但是,这种灵活性也带来了一系列新的挑战:由于结构要少得多,因此在读取数据时需要弄清楚数据结构。
随着当今流入组织的大量数据,员工担心哪些数据可以访问,哪些数据不应该共享。由于缺乏工具,在什么数据位于何处以及对数据来自何处或迄今对该数据进行了哪些操作的理解上也存在困惑。
结果,到现在为止,只有少数人能够访问公司数据湖中的信息。这些人往往是那些知道如何使用数据科学工具来处理数据量和复杂性的人。该组织的其余部分只是淹没在数据湖中。
那些可以利用企业数据湖的人与那些无法导致僵局的人之间的差距,导致大多数数据湖无法兑现其真正的诺言-业务投资回报率。
因此,这里有五个实践,可以成功释放数据湖的功能。
1)加快数据摄取
大多数组织终都采用了脱节的体系结构,来自点解决方案的众多企业数据孤岛,再加上来自云,大数据,IoT等应用程序的新数据。因此,创建可靠的数据吸收平台的先决条件应为:
1 、 广泛的连接性 –在内部,混合和云中连接所有大小的数据。
2 、 批处理和流式传输无处不在 –确保它具有处理历史数据和实时数据提取的能力,并能够处理传入的数据管道,包括用于高级分析的数据管道。
3、 随数量和种类变化而扩展–它应具有快速加入新数据源的能力,例如来自Web点击流,社交或智能设备的数据。
要注意的陷阱:
手动编码 –这将阻止系统及时扩展和交付业务需求的能力。
零散的工具 –使用过多的工具将创建更多的孤岛。
2)了解并管理您的数据
缺乏数据治理正在阻止许多组织完全开放所有员工使用的数据湖,因为数据湖经常包含敏感数据,例如社会保险号,出生日期,信用卡号等,这些数据需要被保护。因此,如果没有完善的信息治理策略,这些组织将无法获得全部收益,也无法从数据湖投资中获得全部回报。因此,这里有一些需要考虑的事情:
1、为数据添加上下文(出处,语义……) –数据来自哪里,各种数据集之间的关系是什么?
2、通过策展,管理和准备来优化数据 –让合适的人员参与以帮助清理和验证数据。
3、使用协作式数据治理流程 -使IT与业务部门协同工作,以确保企业信息可信任。
要注意的陷阱:
权威的治理 –自上而下的数据治理方法永远无法真正有效地吸引用户。相反,您需要一种自下而上的方法,用户可以随意对数据进行建模,但是中央IT部门仍然可以对数据进行认证,保护和管理。
零散的工具 -使用零散的工具会导致不一致的治理框架。
3)消除数据孤岛并统一数据管理
为了获得事实的单一版本,您需要一个统一的框架来处理所有数据管理任务,并具有:
1、普遍的数据质量,数据屏蔽 -这些必须成为数据平台的一部分。
2、 一致的操作性 –提高数据信任度和敏捷性。
3、 适用于所有用例和角色的单一平台 –提高团队之间的生产力和协作。
要注意的陷阱:
零散的工具 –使用零散的工具会导致不可预测的指数成本。
手动编码 –将阻止您的系统可扩展和易于部署。
影子IT –员工将找到解决方法来访问数据湖,这将造成混乱并使企业信息处于危险之中。
4)将数据传递给广泛的受众
仅当您将数据交到更多员工的手中时,您的数据湖才能发挥其全部功能。
1、 使数据可访问性 – IT需要部署易于使用的工具,以减少对技术精通的业务用户的业务,他们正在使用Lake的数据来制定业务决策。
2、 受控的自助服务 –更一般地访问公司信息,而不会造成混乱或风险。
3、 可扩展的运营化 –允许您对项目进行工业化。
要注意的陷阱:
非托管自主权 –使用隔离的非托管工具。
精通技术的自助工具 –仅向少数精通数据的用户提供对数据湖的访问。
5) 为改变做好准备
变化的步伐不断加快,数据量呈指数增长,因此您需要一个可以为实时,更明智的决策提供数据的现代化数据平台,该决策可以使您的组织完成数字化转型并取得成功。