var _hmt = _hmt || []; (function() {   var hm = document.createElement("script");   hm.src = "https://hm.baidu.com/hm.js?8c9c5a8618dc4aea3be27b32962e5871";   var s = document.getElementsByTagName("script")[0];    s.parentNode.insertBefore(hm, s); })();
400 050 6600
数据分析师

手机号

验证码

30天自动登录

通过出色的数据讲故事实现更深入的了解

来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-11-30

人们从事数据科学的很大一部分是交流或说服
试图[传达]分析结果,有时情况就变得不一样了,如果您在第二季度末查看获胜几率图表,将是压倒性的夺冠热门,到比赛结束时,在某一时刻,获胜几率估计获胜的几率为99%,但是获胜概率不是预测,99%的获胜率并不是将要获胜的预测,它是基于当时的游戏模拟,基本上如果我们可以玩剩下的游戏1000次,那么猎鹰将赢得990次,我们在教育人们如何解释这些工具方面做得很差,所以它们变成了人们只是看似的炼金术,他们认为“这太难了-我永远听不懂, 我们不仅可以做得更好,而且必须做得更好。

引导观众的理解
您必须引导听众对分析进行某种直观的理解,从根本上讲,这是一个沟通问题,一旦完成了整理数据,分析和修改数据的所有艰苦工作,那么您就必须进行沟通您如何以人们能够塑造的方式来传达定量故事?数百万年的进化磨练了人类对确定性思维和理解的能力。因果关系就是一个很好的例子,我们倾向于假设因果关系,当你讲一个定量的故事并且正在建立一个叙述时,风险是在因果关系方面建立的-因为那是因为,您是在指出因果关系可能不正确,这是我们所拥有的自然偏见之一,我们看到了一种影响,然后就说发生这种情况是因为,使用因为确实很危险,因为数据并不能真正告诉您“因为”。

归根结底,学会讲一个好的定量故事就像学习一种新语言,这需要练习
要学习一门新语言,您必须提高流利度,如果您不练习,那么您的流利程度就会降低,算术或数学素养也是如此:如果您不练习那种肌肉记忆,那么很容易退回自然的思维模式,增强肌肉记忆力的部分原因是警惕所有人为的偏见-例如虚假的因果关系-这些使我们成为我们的人,这些偏见已经为我们服务了数十万年,这些偏见已融入到我们人类建立或创造的任何事物中,这不仅包括算法,模型或(更高级别的)传感器和信号器,还包括数据本身。

数据来自传感器,但是您的传感器可能有偏差
您的收集机制可能有偏差,仅仅因为它是一个定量的故事,并不意味着它是一个客观的故事,由于所有人类手指都在触摸,所以总会有一个主观的故事。

预测分析的缺点
为什么我们必须在道德,负责任和谨慎的前提下使用机器学习和预测技术,我是这项技术的忠实拥护者。我热爱自己所做的事,并且已经从事这项工作将近20年。在那段时间里,我对为什么事情不起作用有深刻的理解,通常与经典原因无关的令人惊讶的原因,真的对何时以及为什么事情会失败很感兴趣,我们必须认识到,预测模型体现了创建它们的人们公认的和未公认的偏见。

如果您使用机器学习系统自动筛选求职者,则您的预测模型可能会传播历史偏见
如果模型基于过去发生的事情进行预测,则受选择标准的限制过去,我们所有积极建立这些模型的人都需要建立一种道德责任感……关于如何以及何时使用它们,模型完全满足您的要求

这种“道德”意义不仅限于消除模型中的偏差
在某些情况下,优化了预测模型以预测字母,但不能预测建模者期望的精神,我已经看到了广告中的确切类比效果当我们讨论预测谁将点击广告的模型,并尝试选择[点击率]的机会时,您正在尝试找到对产品感兴趣的人-实际会购买产品的人,这忽略了人们容易意外点击广告的事实,一个人有视力问题,一个人将设备借给了他们三岁的孩子,一个人分心了,如果您的模型基于所有点击数据 ,您将终得到技术上正确的东西,但实际上并没有按照您的意愿去做。

数据科学家不仅要对严格的要求负责(例如,预测成功的求职者或点击机会)
而且要对他们要建模和衡量的精神负责,这个模型做的工作,它会找到你由[候选人筛选]模型推荐的点击率,申请人一组的机会将是非常容易成功,但你被卡住这种不相容性就是您说想要一件事情,而您的模型却在给您另外一些东西,随着您更有能力(确实)确定更高的点击率或成功的求职者,做一件事这两个目标之间的差异会越来越大。

您永远不应该有任何单一的技术标准

您绝不应该只关注点击率,您绝不应对自己的[个体]模型做过多的事情,建立针对[同时看到很多东西,将关于数据挖掘和数据科学的社会争论的零和特征视为一种干扰,从原则上讲,针对数据挖掘和数据科学提出的批评通常是正确的,但与此同时,数据科学的批评者与其实际从业者之间的对抗却被夸大了,没有产生效果,从隐私的角度告诉我们,我们所做的一切都是邪恶的,我们需要进行协作的是更好的选择,以正确的方式来做这些事情。



Prev article

为了使用高级分析见解,我们必须识别和控制偏差

Next article

只有利用大量数据使您的公司具有竞争优势,这是五个入门步骤

数据分析师

报名咨询

数据分析师

报名缴费

数据分析师

客服中心

数据分析师

课程服务

数据分析师

认证服务