数据表：开发人员数据启发的时刻

NEWS前沿动态

数据表：开发人员数据启发的时刻

来源：CPDA数据分析师网 / 作者：数据君 / 时间：2020-08-05

开源并不一定需要拯救世界。如果它可以保存单个开发人员的理智，那就足够了

当然，其他许多人也确实从开源贡献中受益，但是即使他们没有这样做，促使他编写更好的软件，尽管它可以帮助他保持与他所贡献的各种各样的项目285个存储库和计数保持同步。这是一种极其有效的构建方式，喜欢开放源代码的地方在于，对于他解决的每个问题，他都无需再次解决。

使用数据块和机器学习构建

当涉及到机器学习（ML）应用程序的数据时，通常数据库系统只是不削减数据。您需要更大的东西，例如数据仓库或数据湖。还有一类新兴的专业AI和大数据平台正在开发平台和数据仓库之间进行宣传，数据和AI的统一平台，它提供大规模数据处理、分析、数据科学和其他服务，为了了解有关AI时代策略的更多信息，我采访了该公司产品管理，数据科学和机器学习，在AI数据方面有着特别有趣的背景。

数据库不可知的

公司专门从事大规模数据处理，但是其方法的真正关键是数据湖理论，数据湖是以各种格式存储的原始数据的存储库，从电子邮件和PDF等非结构化数据到关系数据库中的结构化数据，应有尽有。该术语创建于2011年，是1980年代后期数据仓库概念的现代变体。主要区别在于：数据湖旨在处理互联网及其大量的非结构化数据。

一种结合了数据湖和数据仓库的元素的新范例

应该注意的是，与数据仓库不同，数据湖的概念尚未在业界得到普遍接受，CPDA商业智能数据分析师回应虽然通常被称为架构，但数据湖从未真正超出营销概念而成熟，确保大规模跨数据湖的数据的可靠性。

它基本上为您提供了在数据湖之上的数据仓库的类似功能

为您提供这种优化的格式，优化的查询引擎，以及为各种用例和应用程序查询数据的事务保证，从数据准备到模型培训和部署，大规模地简化了ML开发，发布的一个开放源代码框架，以帮助实现这一目标，看到机器学习的所有应用程序。

开发人员的经验只会变得更加复杂

在开发人员的盘子里增加机器学习只会增加他们必须处理的复杂性。因此，当我问到将ML集成到他们的应用程序中时，对开发人员有何建议？首先指出机器学习确实是我们思考开发方式的一种范式转变，在软件中，您编写代码，编写单元测试，并且每次运行时其行为都相同，在机器学习中，您编写代码，并且存在这种数据依赖性，每次训练机器学习模型时，它的行为都会有所不同，因为它固有地是随机的并且数据会发生变化。

许多开发人员正在使用旧的软件工程工具

其中一些是在“几十年前”创建的）用于ML，因此他建议开发人员应对今天的ML选择现代开发人员工具，一个问题是投机性问题。机器学习似乎还很早，特别是从应用程序角度来看，那么他认为随着机器学习的成熟，未来几年的主要挑战是什么？机器学习是10年前的数据工程领域，就像十年前，如果您要求某人编写一个程序来处理TB级数据，那是很大的事情–地球上只有少数人可以做到这一点。

但是ML仍然处于尴尬的阶段，需要大量的手工工作，并且需要专业知识

在大多数情况下，当我们今天建立机器学习模型时，这是一次性的，这就像缝合在一起的东西，也许它起作用了，他们可以把它拿到生产线上，然后就完成了，但这是无法维护和不可重复的，因此就像过渡数据工程经历过的一样，ML必须变得对更多人更容易访问，为此工具需要变得更易于使用，也许到了这一点，任何可以编写SQL查询的人都可以进行机器学习。

Prev article

数据仓库设计与价值随时代而变

返回列表

Next article

图形数据库的作用不仅仅在于社交媒体