数据表:开发人员数据启发的时刻
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-08-05
开源并不一定需要拯救世界。如果它可以保存单个开发人员的理智,那就足够了
当然,其他许多人也确实从开源贡献中受益,但是即使他们没有这样做,促使他编写更好的软件,尽管它可以帮助他保持与他所贡献的各种各样的项目285个存储库和计数保持同步。这是一种极其有效的构建方式,喜欢开放源代码的地方在于,对于他解决的每个问题,他都无需再次解决。
使用数据块和机器学习构建
当涉及到机器学习(ML)应用程序的数据时,通常数据库系统只是不削减数据。您需要更大的东西,例如数据仓库或数据湖。还有一类新兴的专业AI和大数据平台正在开发平台和数据仓库之间进行宣传,数据和AI的统一平台,它提供大规模数据处理、分析、数据科学和其他服务,为了了解有关AI时代策略的更多信息,我采访了该公司产品管理,数据科学和机器学习,在AI数据方面有着特别有趣的背景。
数据库不可知的
公司专门从事大规模数据处理,但是其方法的真正关键是数据湖理论,数据湖是以各种格式存储的原始数据的存储库,从电子邮件和PDF等非结构化数据到关系数据库中的结构化数据,应有尽有。该术语创建于2011年,是1980年代后期数据仓库概念的现代变体。主要区别在于:数据湖旨在处理互联网及其大量的非结构化数据。
一种结合了数据湖和数据仓库的元素的新范例
应该注意的是,与数据仓库不同,数据湖的概念尚未在业界得到普遍接受,CPDA商业智能数据分析师回应虽然通常被称为架构,但数据湖从未真正超出营销概念而成熟,确保大规模跨数据湖的数据的可靠性。
它基本上为您提供了在数据湖之上的数据仓库的类似功能
为您提供这种优化的格式,优化的查询引擎,以及为各种用例和应用程序查询数据的事务保证,从数据准备到模型培训和部署,大规模地简化了ML开发,发布的一个开放源代码框架,以帮助实现这一目标,看到机器学习的所有应用程序。
开发人员的经验只会变得更加复杂
在开发人员的盘子里增加机器学习只会增加他们必须处理的复杂性。因此,当我问到将ML集成到他们的应用程序中时,对开发人员有何建议?首先指出机器学习确实是我们思考开发方式的一种范式转变,在软件中,您编写代码,编写单元测试,并且每次运行时其行为都相同,在机器学习中,您编写代码,并且存在这种数据依赖性,每次训练机器学习模型时,它的行为都会有所不同,因为它固有地是随机的并且数据会发生变化。
许多开发人员正在使用旧的软件工程工具
其中一些是在“几十年前”创建的)用于ML,因此他建议开发人员应对今天的ML选择现代开发人员工具,一个问题是投机性问题。机器学习似乎还很早,特别是从应用程序角度来看,那么他认为随着机器学习的成熟,未来几年的主要挑战是什么?机器学习是10年前的数据工程领域,就像十年前,如果您要求某人编写一个程序来处理TB级数据,那是很大的事情–地球上只有少数人可以做到这一点。
但是ML仍然处于尴尬的阶段,需要大量的手工工作,并且需要专业知识
在大多数情况下,当我们今天建立机器学习模型时,这是一次性的,这就像缝合在一起的东西,也许它起作用了,他们可以把它拿到生产线上,然后就完成了,但这是无法维护和不可重复的,因此就像过渡数据工程经历过的一样,ML必须变得对更多人更容易访问,为此工具需要变得更易于使用,也许到了这一点,任何可以编写SQL查询的人都可以进行机器学习。