机器学习在开发中令人惊讶地广泛普及
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-12-11
这是专门研究面向开发人员的研究的进行的一项新调查的结果
大数据和高级分析调查发现,超过三分之一(36%)的开发人员表示,他们在大数据和高级分析项目中使用了ML技术,机器学习包括许多目前正在迅速采用的技术,已经在使用大数据和高级分析的工作中处于领先地位的开发人员非常有优势。
广泛的机器学习资源
ML曾经是学者和研究人员的省。但是,机器学习技术越来越商品化分析技术中内置了机器学习算法和功能,从开发人员的角度来看,机器学习资源-库,算法和源代码-基本上是无处不在的,尤其是在开源软件方面,使用Hadoop其他大数据平台的开发人员和其他人员可以访问成千上万个免费和/或开源库,代码段等,有大量的ML库,数据库内机器学习算法的库,集群计算框架的ML库,这是一个庞大的机器学习库在线存储库。
我们正处在ML技术广泛使用且日渐易于使用的复兴之中
可供人们使用和共享的数据集,案例研究和库过多,Python库可用于统计,机器学习和其他高级分析,机器学习技术在某种程度上也已经商品化,可用的许多库也将在Windows中运行,SQL Server内置了对数据库内ML算法的支持,机器学习服务通过Web服务API公开了ML功能,我们正处在ML技术广泛使用且日渐易于使用的复兴之中,因此开发人员基本上可以从大量的ML资源中进行选择。
机器学习技术的用途
编码人员实际上对ML做什么样的工作?主要利用决策树,这是预测模型的核心组成部分之一,决策树也与人工智能一起使用,其他常见的机器学习模型包括线性回归和物流回归,有可能使用ML和其他高级分析技术的内部部门是物流,分销和运营,开发人员不仅对ML技术的有用性(由于其广泛的可用性和易用性)感到欣喜,他们也了解许多其他前沿分析领域,并且在许多情况下都在其中工作,我们看到开发人员对包括形式识别,自然语言识别和神经网络在内的各种形式的认知计算越来越感兴趣,我们完全希望明天的程序将基于当今的这些新兴技术。
更智能的数据集成案例
为了支持物联网和工业物联网用例,数据集成必须变得更加自动化和更明确地进行分析,换句话说它需要更智能,到目前为止,您已经听说过物联网(IoT),物联网是互联现实的简写形式,其中我们许多人越来越多地生活和工作,从熟悉的(笔记本电脑和移动电话)到仍然很奇怪的各种联网设备(连接恒温器和冰箱或“智能”咖啡机和烤面包机),这真是一个现实,在消费级物联网出现之前,一些行业已经在使用与制造业相当的产品:工业物联网(IIoT),如果您认为“联网房屋”中充满了智能设备,那么您什么也看不到,工厂车间里有数百台(有时是数千台)机器,每台机器都可能装有传感器。
换句话说制造工厂可能是成千上万个信号器的所在地,每个信号器以不同的间隔传输信息
一些信号发送器以恒定流的形式发送数据,其他信号发送器则只是间歇性地或不可预测地发送,数据泛滥,多样性挑战是数据泛滥和多样性的问题。简而言之:大规模地提取,配置,转换分析和持久保留IIoT数据的复杂性远远超过了传统数据集成(DI)技术的能力。这不仅是庞大的IIoT数据-尽管具有IIoT功能的石油钻机每天会产生7-8 TB的运营数据-还是数据倾向于以非传统的方式流,脉动或滴流的事实不利于批量摄取。
正是由于海量数据量和可变数据周期性的结合而造成了的数据管理问题
此外如果很难在规模上管理数据,那么在规模上集成数据就困难得多,在某些情况下,您需要应用于IIoT传感器数据的转换是微不足道的-例如,解析事件消息以提取键值对。但是,在其他情况下,解析和转换IIoT数据可能要复杂得多。提取键值对很容易;不能基于键(或隐藏在事件消息中的值的组合和其他类型的数据)链接不同的事件类型。
考虑一下用于准备和转换数据以进行时间序列分析的并集
大数据和高级分析调查发现,超过三分之一(36%)的开发人员表示,他们在大数据和高级分析项目中使用了ML技术,机器学习包括许多目前正在迅速采用的技术,已经在使用大数据和高级分析的工作中处于领先地位的开发人员非常有优势。
广泛的机器学习资源
ML曾经是学者和研究人员的省。但是,机器学习技术越来越商品化分析技术中内置了机器学习算法和功能,从开发人员的角度来看,机器学习资源-库,算法和源代码-基本上是无处不在的,尤其是在开源软件方面,使用Hadoop其他大数据平台的开发人员和其他人员可以访问成千上万个免费和/或开源库,代码段等,有大量的ML库,数据库内机器学习算法的库,集群计算框架的ML库,这是一个庞大的机器学习库在线存储库。
我们正处在ML技术广泛使用且日渐易于使用的复兴之中
可供人们使用和共享的数据集,案例研究和库过多,Python库可用于统计,机器学习和其他高级分析,机器学习技术在某种程度上也已经商品化,可用的许多库也将在Windows中运行,SQL Server内置了对数据库内ML算法的支持,机器学习服务通过Web服务API公开了ML功能,我们正处在ML技术广泛使用且日渐易于使用的复兴之中,因此开发人员基本上可以从大量的ML资源中进行选择。
机器学习技术的用途
编码人员实际上对ML做什么样的工作?主要利用决策树,这是预测模型的核心组成部分之一,决策树也与人工智能一起使用,其他常见的机器学习模型包括线性回归和物流回归,有可能使用ML和其他高级分析技术的内部部门是物流,分销和运营,开发人员不仅对ML技术的有用性(由于其广泛的可用性和易用性)感到欣喜,他们也了解许多其他前沿分析领域,并且在许多情况下都在其中工作,我们看到开发人员对包括形式识别,自然语言识别和神经网络在内的各种形式的认知计算越来越感兴趣,我们完全希望明天的程序将基于当今的这些新兴技术。
更智能的数据集成案例
为了支持物联网和工业物联网用例,数据集成必须变得更加自动化和更明确地进行分析,换句话说它需要更智能,到目前为止,您已经听说过物联网(IoT),物联网是互联现实的简写形式,其中我们许多人越来越多地生活和工作,从熟悉的(笔记本电脑和移动电话)到仍然很奇怪的各种联网设备(连接恒温器和冰箱或“智能”咖啡机和烤面包机),这真是一个现实,在消费级物联网出现之前,一些行业已经在使用与制造业相当的产品:工业物联网(IIoT),如果您认为“联网房屋”中充满了智能设备,那么您什么也看不到,工厂车间里有数百台(有时是数千台)机器,每台机器都可能装有传感器。
换句话说制造工厂可能是成千上万个信号器的所在地,每个信号器以不同的间隔传输信息
一些信号发送器以恒定流的形式发送数据,其他信号发送器则只是间歇性地或不可预测地发送,数据泛滥,多样性挑战是数据泛滥和多样性的问题。简而言之:大规模地提取,配置,转换分析和持久保留IIoT数据的复杂性远远超过了传统数据集成(DI)技术的能力。这不仅是庞大的IIoT数据-尽管具有IIoT功能的石油钻机每天会产生7-8 TB的运营数据-还是数据倾向于以非传统的方式流,脉动或滴流的事实不利于批量摄取。
正是由于海量数据量和可变数据周期性的结合而造成了的数据管理问题
此外如果很难在规模上管理数据,那么在规模上集成数据就困难得多,在某些情况下,您需要应用于IIoT传感器数据的转换是微不足道的-例如,解析事件消息以提取键值对。但是,在其他情况下,解析和转换IIoT数据可能要复杂得多。提取键值对很容易;不能基于键(或隐藏在事件消息中的值的组合和其他类型的数据)链接不同的事件类型。
考虑一下用于准备和转换数据以进行时间序列分析的并集
相交和分割(以及其他众多转换),时间序列数据库可以加快这些工作量,但是将每个石油钻机,工厂或变电站一起放置在一个地方是不实际的或不希望的,此外在将数据加载之前,仍必须对其进行转换(剖析,准备,设计),这种转换比简单地为时间戳解析消息要涉及得多,在物联网和物联网时代,必须在DI软件中内置更多功能。