NEWS前沿动态

通过数据虚拟化将机器学习的复杂性降

来源：CPDA数据分析师网 / 作者：数据君 / 时间：2020-11-19

数据湖可负担得起地存储大量数据
它可以潜在地将数据科学家感兴趣的所有数据存储在单个物理存储库中，从而使发现更加容易，通过以原始格式存储数据，避免了为特定任务而设计的转换，数据湖可以减少数据科学家在数据选择和数据集成上花费的时间，数据湖还提供了强大的计算能力，因此可以有效地转换和合并数据以满足每个流程的需求，但是在企业中应用机器学习（ML）时，大多数数据科学家仍在努力应对数据发现和集成的复杂性。

为什么挑战依然存在
就像在拥挤的体育场内找到特定人物并不容易，将所有数据都放在同一个物理位置并不一定会使发现变得容易，另外由于来自原始系统的数据复制缓慢且成本高昂，因此相关数据中只有一小部分倾向于存储在湖泊中，更为复杂的是，许多公司可能拥有数百个分布在多个本地数据中心和云提供商之间的数据存储库，当涉及数据集成时，以原始格式存储数据并不会消除使数据适应每个机器学习过程的需求，相反它只是将执行该过程的负担转移给了数据科学家，尽管湖中可能具有所需的处理能力，但数据科学家通常不具备集成数据所需的技能。

过去几年中出现了一些数据准备工具，以使数据科学家可以访问简单的集成任务
更复杂的任务仍然需要高级技能。IT部门通常需要通过在数据湖中为特定的ML流程创建新的数据集来进行救援，从而大大减慢了进度，数据虚拟化的好处为了应对这些挑战，组织已开始应用新流程，例如数据虚拟化，可以提供对任何数据的单一访问点-无论位于何处，也无论其本机格式如何-都无需先将其复制到中央存储库中，提供相同物理数据的不同逻辑视图，而无需创建其他副本。这提供了一种快速而廉价的方式来提供数据的不同视图，以满足每种类型的用户和应用程序的独特需求，这些逻辑视图可以通过使用复杂的优化技术在物理数据之上应用复杂的数据转换和组合功能来创建，以实现性能。

Prev article

大数据对业务过去和未来的影响

返回列表

Next article

建立数据科学团队的六个神话