数据科学中的三大价值途径
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-12-02
开放源代码和商业软件选项,数据仓库以及Hadoop以及更高级分析的使用。它确实是一个不断发展的生态系统,在企业方面,公司正在使用多种策略来获得所需的技能,寻求业务分析师来补充数据科学技能,并尝试使用不同的组织和领导力模型,在撰写和研究报告时,有几个趋势对我很突出。
价值#1的路径:开源
开源模型是一种协作开发模型,其中的代码是免费的,许多人认为,它以低成本培育了创新社区,开源已经变得非常流行,特别是对于大数据和数据科学,在针对我们的报告进行的调查中,受访者认为对大数据和数据科学至关重要的前三大技术中的两项是Hadoop和R-都是开源技术,更为惊人的是,将近50%的受访者认为开源技术可以在生产中部署。不到20%的人认为开源对实验有益,但对生产不利,就是说有60%的受访者更喜欢开源软件,并添加了使其可靠和可扩展的创新技术(即商业化开源软件)。
这并不意味着商业软件将不复存在-大多数受访者表示
他们将在大数据分析项目中交付的一种方式是通过商业化软件,但是它的确说明了开源的普及以及当今许多组织将其用作实现价值的途径这一事实。
价值之路2:卓越中心
大约三分之一的受访者拥有卓越中心-有时称为能力中心-在大数据分析和数据科学领域发挥领导作用,另有25%的人计划在来年实施一项,某些公司范围内,并且可能在中心内设有服务于不同业务领域的团队,其他组织在整个组织的业务范围内分布分析专业知识-有时会报告,但更经常地是报告给业务部门,组织结构仍在争论中,该研究中值得注意的是,部署卓越中心与衡量数据科学工作对顶线和底线的影响之间存在相关性,尽管相关性并不意味着因果关系,但是有一些证据表明,拥有提供数据科学和分析专业知识的组织职能有助于推动可衡量的价值,当然每个企业的文化决定了员工如何接受如何建立信任。
值3的路径:分析不同的数据类型
我一直支持使用完全不同的“新”数据进行分析,这些数据包括内部和外部文本数据以及地理空间数据和流数据,绝大多数受访者使用其数据存储中的结构化数据进行大数据分析,本报告就是这种情况,当然分析结构化数据功能强大,但是在分析非结构化数据方面也具有重要价值,例如使用NLP和文本挖掘软件的文本数据,实际上在这项研究中,我们发现,衡量顶线或底线影响的企业比没有选择的企业更有可能收集/分析不同的数据类型,我在其他研究中也看到了这一点,这说明了一个事实,即越来越成熟的组织倾向于在新旧技术上运行的,跨不同数据类型的更高级分析,企业开始进行大数据和数据科学之旅时,需要考虑和规划这些方法,以实现价值。