为什么您的公司需要提出有关大数据的正确问题?
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2021-01-29
我们可以解决大数据应用程序中的这些自然语言处理限制
但是例如,当针对制药分析中的大数据运行算法和查询时,风险就更大了,并且它们也面临着人类语言的歧义,网站的目的是向消费者提供有关药物副作用和相互作用的信息,网站使用了各种不同格式的数据,这些数据是从各种不同的来源中挑选出来的,然后汇总到一个大数据存储库中,然后由内部开发的分析算法进行探测,不幸的是由于在不同的数据源(例如,睡意,嗜睡,嗜睡)中以不同的方式描述了相同药物的副作用,因此出现了这些语言含糊不清的复杂性,从而损害了算法的有效性和终准确性,因此必须不断增加额外的工作来完善算法。
在这样的问题的技术分析工程以计算机科学研究员
匹配的数据算法和查询的复杂性对数据类型的重要性他们正在评估,例如我们通常假设您针对数据算法运行的数据越多,您将获得的分析结果就越准确,情况并非总是如此,在某些情况下,对数据的算法或基本数据查询过于简单,以至于无法从任何更多数据中受益,在其他情况下,我们针对大数据使用的问题和算法过于复杂,他们需要分析每个数据元素的许多不同特性,以至于无法得出任何结论,预测因流感样疾病而去看医生的人数是疾病控制与预防中心的两倍,后者根据各实验室的监测报告进行估算,取而代之的是,搜索引擎不仅基于CDC正在使用的信息,而且还基于来自各种来源的报告(如“发烧”或“咳嗽”)的分析和算法,不用说搜索引擎对当年流感的预测被夸大了,差异不仅取决于数据的选择,而且还取决于开发用于查询数据的算法公式的解释方式。
公司可以从这些经验中学到什么?
仅考虑您的数据以及可以汇总数据的所有来源是不够的,分析的准确性可能取决于您提出问题的程度,每个公司可以使用的三个关键策略来实现数据科学突破,如果数据科学团队的建立正确,那么投资智囊团的公司就可以推动发现和创新,“科学家”可能会让人联想起一个人的定型形象,穿着在科学实验室中孤立的白色实验室外套,专心地盯着烧杯中一些五颜六色的液体,但是“数据科学家”一词确实不适合这种模式,对吗?数据科学家没有理由穿白大褂或玩烧杯,在实践中它们应该成为企业战略不可或缺的一部分,以推动下一步创新的发展,将数据科学家藏在数据实验室中以仅专注于研发的想法是一个有趣的概念,但是将所有这些钱花在数据智囊团上并不是一个伟大的公司举动,根据经验,这是正确的;但是,有一个非常重要的例外,要实施突破性战略。
创建数据科学产品开发功能
您的公司战略是否突破取决于您,公司战略分为三个总体级别:竞争性,独特性和突破性,采用突破性策略意味着您打算与下一个产品或服务一起前进,如果您从事预测业务,并且市场上有竞争力的产品的准确度大约为70%,那么突破性的策略将涉及产品的准确度接近90%或95%。为此,您需要一种世界尚未见到的预测算法,为此您让一些聪明的数据科学家不受业务上其他压力的困扰,因此如果他们不考虑业务谁是?
欢迎使用我的个关键策略
永远不要让您的所有数据科学家都具有研发职能。为了支持数据科学研发功能的公司战略,您还必须具有互补的数据科学产品开发功能,如果您不知道如何将所有这些未经训练的天才变成一种有效的产品,并且公司中可以做到这一点的人就是其他数据科学家,那么您将很快破产,如果您不是数据科学家,则很难理解某些数据科学概念,尤其是突破性战略所需的概念,确保这些数据科学家已准备就绪,可以将您的产品或服务变为现实。
平衡定性和定量研究
接下来您必须考虑数据科学家将进行哪种类型的研究,在研究领域,有两种基本方法,定性和定量,定性研究是关于探索和数据科学的,至少部分地转化为探索性数据分析,定性研究数据科学家正在海量数据中寻找主题,该数据可能是结构化的,非结构化的或不可用的(尚未捕获的数据),如果他们成功了,他们将在您从未发现过的数据中发现概念和模式。
另一种研究方法是定量的
主题确定后,定量研究数据科学家将开发并检验假设,定量研究验证了定性研究所孵化的内容,定量研究比其更具探索性的同行更为严格和关键-达到两极分化的程度,定性数据科学家和定量数据科学家的哲学差异可能会造成破坏,如果您的企业中有两种类型的数据科学家(称为混合方法研究团队),则必须将他们分开或在结构化团队建设上投入一些资金。
制定备份计划,以防万无一失
对您的研发团队保持较低的期望,并制定备份计划,作为,这可能并不适合您,但这是您必须学会接受的东西,研究与开发是一项非常不可预测的功能,没有人知道什么时候,甚至什么时候会出现您的重大突破,您在这个团队中的投资更多地是为了招募秀,聪明的人才,无论您做什么,都不要强迫他们生产;他们只会关机,相反奖励他们的努力,重要的是即使他们的想法行不通,他们也要因尝试而获得奖励,它们为您的公司提供的明确价值并非以结果的形式出现,它以努力的形式出现,当然如果突破确实出现了,也要给他们赞美不是一个坏主意,但是无论输赢都必须让他们有动力继续他们的研究和实验,不要以为他们不知道不确定的突破对业务的重要性,即使不提示,也可能导致内部冲突,请注意这一点。
为了减轻这种有效的顾虑,请与您的产品开发数据科学家一起制定备份计划
但是例如,当针对制药分析中的大数据运行算法和查询时,风险就更大了,并且它们也面临着人类语言的歧义,网站的目的是向消费者提供有关药物副作用和相互作用的信息,网站使用了各种不同格式的数据,这些数据是从各种不同的来源中挑选出来的,然后汇总到一个大数据存储库中,然后由内部开发的分析算法进行探测,不幸的是由于在不同的数据源(例如,睡意,嗜睡,嗜睡)中以不同的方式描述了相同药物的副作用,因此出现了这些语言含糊不清的复杂性,从而损害了算法的有效性和终准确性,因此必须不断增加额外的工作来完善算法。
在这样的问题的技术分析工程以计算机科学研究员
匹配的数据算法和查询的复杂性对数据类型的重要性他们正在评估,例如我们通常假设您针对数据算法运行的数据越多,您将获得的分析结果就越准确,情况并非总是如此,在某些情况下,对数据的算法或基本数据查询过于简单,以至于无法从任何更多数据中受益,在其他情况下,我们针对大数据使用的问题和算法过于复杂,他们需要分析每个数据元素的许多不同特性,以至于无法得出任何结论,预测因流感样疾病而去看医生的人数是疾病控制与预防中心的两倍,后者根据各实验室的监测报告进行估算,取而代之的是,搜索引擎不仅基于CDC正在使用的信息,而且还基于来自各种来源的报告(如“发烧”或“咳嗽”)的分析和算法,不用说搜索引擎对当年流感的预测被夸大了,差异不仅取决于数据的选择,而且还取决于开发用于查询数据的算法公式的解释方式。
公司可以从这些经验中学到什么?
仅考虑您的数据以及可以汇总数据的所有来源是不够的,分析的准确性可能取决于您提出问题的程度,每个公司可以使用的三个关键策略来实现数据科学突破,如果数据科学团队的建立正确,那么投资智囊团的公司就可以推动发现和创新,“科学家”可能会让人联想起一个人的定型形象,穿着在科学实验室中孤立的白色实验室外套,专心地盯着烧杯中一些五颜六色的液体,但是“数据科学家”一词确实不适合这种模式,对吗?数据科学家没有理由穿白大褂或玩烧杯,在实践中它们应该成为企业战略不可或缺的一部分,以推动下一步创新的发展,将数据科学家藏在数据实验室中以仅专注于研发的想法是一个有趣的概念,但是将所有这些钱花在数据智囊团上并不是一个伟大的公司举动,根据经验,这是正确的;但是,有一个非常重要的例外,要实施突破性战略。
创建数据科学产品开发功能
您的公司战略是否突破取决于您,公司战略分为三个总体级别:竞争性,独特性和突破性,采用突破性策略意味着您打算与下一个产品或服务一起前进,如果您从事预测业务,并且市场上有竞争力的产品的准确度大约为70%,那么突破性的策略将涉及产品的准确度接近90%或95%。为此,您需要一种世界尚未见到的预测算法,为此您让一些聪明的数据科学家不受业务上其他压力的困扰,因此如果他们不考虑业务谁是?
欢迎使用我的个关键策略
永远不要让您的所有数据科学家都具有研发职能。为了支持数据科学研发功能的公司战略,您还必须具有互补的数据科学产品开发功能,如果您不知道如何将所有这些未经训练的天才变成一种有效的产品,并且公司中可以做到这一点的人就是其他数据科学家,那么您将很快破产,如果您不是数据科学家,则很难理解某些数据科学概念,尤其是突破性战略所需的概念,确保这些数据科学家已准备就绪,可以将您的产品或服务变为现实。
平衡定性和定量研究
接下来您必须考虑数据科学家将进行哪种类型的研究,在研究领域,有两种基本方法,定性和定量,定性研究是关于探索和数据科学的,至少部分地转化为探索性数据分析,定性研究数据科学家正在海量数据中寻找主题,该数据可能是结构化的,非结构化的或不可用的(尚未捕获的数据),如果他们成功了,他们将在您从未发现过的数据中发现概念和模式。
另一种研究方法是定量的
主题确定后,定量研究数据科学家将开发并检验假设,定量研究验证了定性研究所孵化的内容,定量研究比其更具探索性的同行更为严格和关键-达到两极分化的程度,定性数据科学家和定量数据科学家的哲学差异可能会造成破坏,如果您的企业中有两种类型的数据科学家(称为混合方法研究团队),则必须将他们分开或在结构化团队建设上投入一些资金。
制定备份计划,以防万无一失
对您的研发团队保持较低的期望,并制定备份计划,作为,这可能并不适合您,但这是您必须学会接受的东西,研究与开发是一项非常不可预测的功能,没有人知道什么时候,甚至什么时候会出现您的重大突破,您在这个团队中的投资更多地是为了招募秀,聪明的人才,无论您做什么,都不要强迫他们生产;他们只会关机,相反奖励他们的努力,重要的是即使他们的想法行不通,他们也要因尝试而获得奖励,它们为您的公司提供的明确价值并非以结果的形式出现,它以努力的形式出现,当然如果突破确实出现了,也要给他们赞美不是一个坏主意,但是无论输赢都必须让他们有动力继续他们的研究和实验,不要以为他们不知道不确定的突破对业务的重要性,即使不提示,也可能导致内部冲突,请注意这一点。
为了减轻这种有效的顾虑,请与您的产品开发数据科学家一起制定备份计划
他们应该采用较低等级的解决方案,以防无法取得突破,例如当智囊团使用深度学习神经网络时,他们可能会使用竞争性统计算法对您的预测引擎进行测试,无论哪种方式,您的基地都被掩盖了,但是当然每个人都为智囊团扎根,突破性的公司战略需要一支先进的数据科学团队,无论是在大脑还是组织结构上,为了实现您的下一个伟大构想,请考虑将您的一些数据科学家隔离到他们自己的数据科学实验室中,并开始让他们从事秘密工作,这将使您的公司更上一层楼,但是在您的方法上要谨慎谨慎,确保您拥有一支由优秀的数据科学家组成的产品开发团队,确保定量研究部门与定量研究部门之间的划分是有目的的,并确保您有一个备份计划,以防突破一段时间后仍未显现出来,当智囊团通过时,庆祝一下!感到幸运的是,您的赌博取得了很大的回报。
商业联合会数据分析专业委员会