var _hmt = _hmt || []; (function() {   var hm = document.createElement("script");   hm.src = "https://hm.baidu.com/hm.js?8c9c5a8618dc4aea3be27b32962e5871";   var s = document.getElementsByTagName("script")[0];    s.parentNode.insertBefore(hm, s); })();
400 050 6600
数据分析师

手机号

验证码

30天自动登录

要避免的12个数据科学错误

来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-07-14

1.假设您的数据已准备就绪,可以使用并且您所需要的一切

您需要检查已收集并计划使用的数据的质量和数量,您的大部分时间(通常是80%的时间)将花费在获取和清理数据上,这是假设您甚至正在跟踪对数据科学家进行工作所需的跟踪,如果要跟踪正确的数据,则可能是记录不正确,或者记录的方式可能会随着时间而改变,或者收集数据的系统可能会在收集数据时发生变化,如果每个月都有增量变化,那么在执行分析或建立模型时就无法使用整个月的数据,因为系统本身已经发生了变化,即使您正在收集正确的数据,但由于数据量少且自变量众多,因此很难为B2B营销和销售等业务领域创建预测模型,您拥有的数据越多,数据科学就会越来越好;您拥有的数据越多,预测模型就越强大。由于交易率低且影响交易的自变量很多,因此您的数据集较小且交互复杂,这削弱了预测模型的功能。

 

一种选择是购买诸如购买意愿数据之类的数据集,只要您找到适用于您的业务部门的数据集即可,另一种方法是模拟数据,但必须谨慎进行实际上,数据可能无法按照您一开始所做的假设行事。

 

管理完善的分析计划可以收获组织的黄金。但是屈服于这些常见错误之一,您的数据科学操作就会迅速出错。

 

2.在开始工作之前不探索数据集

您可能对数据集将显示的内容有一些理论和直觉,但是数据团队应该花时间仔细研究数据,然后再使用它来训练数据模型,如果您发现有悖常理的东西,则可能是您的假设不正确或数据正确,我要做的重要的事情就是简单地查看数据,将其绘制并进行探索性分析,很多人过得太快或完全绕过它,但是您需要了解数据的外观,您可以通过事先进行一些探索,更快地根据主题专业知识和业务敏锐度来确定数据是否在告诉您正确的故事。

 

3.期望过高

围绕AI的炒作让很多人相信,如果我们将数据投递到计算机算法上,它将自行解决所有问题,尽管公司拥有大量数据,但仍需要人工才能将数据转换为可用格式,仅查看您公司之前所做的工作不会发现新的机会,而只是在已经完成的相同工作中提高效率的方法,您越是将过去作为未来的预测因素,那么寻找新途径的机会就越少, 即使您引入第三方数据来查找对产品或服务的需求,也不能保证您能够进行这些销售,数据模型可以告诉您一家公司与您所提供的产品非常匹配,但无法告诉您该公司现在是否有需求。

 

人们开始以以前从未在不同领域获得信任的方式对数据科学家进行投资和信任,他们正在向他们投入资源,并期望获得解决所有问题的灵丹妙药,现在数据科学家正以这种浪漫的眼光来看待,并使用数据来回答问题和做出决策,他们可以通过从小型项目开始并迅速取得成功来交付数据,以向组织展示价值,摘下那低垂的果实,不要一开始就陷入技术困境,而花一个月时间去做一个您认为将具有巨大价值的大型项目。

 

4.不使用对照组来测试您的新数据模型

如果您花了很多时间和金钱来建立数据模型,则想在所有可能的地方使用它,以充分利用您的投资,如果这样做您将无法衡量模型的实际效果,另一方面如果用户不信任该模型,他们可能不会使用该模型,那么您将无法对其进行测试,解决方案?有一个变更管理程序来确保采用该模型,而控制组则不使用该模型,有一个随机的小组来追求模型确定的机会,而对照组则是以经验,自我授权的方式来完成事情。

 

5.从目标而不是假设开始

试图寻找一种可以提供特定改进的数据模型很诱人,例如在48小时内关闭80%的客户支持案例或在一个季度内赢得10%的业务增长,但这些指标还不足以使工作。

 

从一个假设开始,通常您正在查看一条曲线或一条线作为整体指标,并且您希望将其移动,这可能是一个伟大的业务目标,但很难想象您需要采取哪些手段来做到这一点, 与对照组或通过探索数据来检验您的假设有关可以改善哪些方面的假设,如果您可以在与对照组进行分组测试的情况下进行测试,并且两者都是代表性样本,那么您实际上可以确定您所使用的方法是否确实影响了您想要的影响,如果您只是在事后查看数据,那么从假设开始可以帮助缩小范围,我需要将该指标提高10%,对可能会影响什么的假设是什么,然后就可以做探索性数据分析,仅跟踪数据中的那些,清楚地了解您所提出的问题和所测试的假设可以帮助您减少花在该问题上的时间。

 

6.让您的数据模型过时

如果您的数据模型可以很好地解决您的问题,您可能会认为您可以永远使用它,但是模型需要更新,并且随着时间的流逝您可能需要构建其他模型,功能会随着时间而改变,您将不断需要了解有效性并更新模型,模型过时有很多原因。世界在变化,您的公司也在变化(尤其是在模型证明有用的情况下),模型不应被视为静态的,市场当然不是一成不变的,如果市场偏好从您的历史演变而来,那么您的历史将使您走上一条歧途,模型性能会下降,或者竞争是从您公司在市场中的活动中学到的,保留一组实验随着时间的推移,我将如何添加到模型中? 您必须进行一系列的实验,这将浮出新的差异化机会。

 

7.自动化而不监视终结果

使用对照组的另一半是评估模型输出的质量,您需要在整个过程中一直跟踪该模型,否则终会针对错误的目标进行优化,公司做的事情就像在您的电话服务中使用机器人,而您并没有不断检查该机器人是否能够提高客户满意度,您只是在庆贺自己减少了人工,如果客户由于机器人无法给他们正确的答案而不是因为它解决了问题而关闭了支持案例,那么客户满意度将急剧下降。

 

8.忘记业务专家

认为您需要的所有答案都在数据中并且开发人员或数据科学家可以自己找到它们是错误的,确保有人了解业务问题,尽管知识渊博的专家数据科学家终将能够找出手头的问题,但如果业务和数据科学家在同一页面上,将容易得多,任何数据科学算法的成功都取决于成功的特征工程,为了获得更好的功能,主题专家总是比花哨的算法增加更多的价值,即使在查看数据之前,也要通过数据团队与业务利益相关者之间的对话来开始项目,以确保每个人都清楚该项目要实现的目标,然后您可以进行探索性数据分析以查看是否可以实现否则您可能必须回过头来以新的方式重新表述问题或获得其他数据源,但是应该由领域专家来帮助确定目标是什么,以及项目是否实现了目标。

 

9.选择过于复杂的工具

机器学习的前沿是令人兴奋的,新技术可能非常强大,但它们也可能会过时,事实证明诸如逻辑回归或决策树之类的简单方法将可以完成这项工作,很容易将大量的计算机资源和复杂的模型资源投入到问题中,也许我对项目的某个方面感到好奇,我想测试一种全新的算法,该算法可以完成超出要求的范围,或者我只是想尝试一下,工作是找到一种可以回答问题的简单方法,简单的方法应先精疲力尽,然后再进行更复杂的选择,并指出深度拟合更可能发生于深度学习等复杂算法中,您可以根据当前拥有的数据获得极其精确的模型,在新信息的帮助下表现出色。

 

与业务专家一起确定需要回答的问题应指导您选择技术,很多数据科学家专注于机器学习,很多机器学习都专注于预测,但并非您回答的每个问题都是预测问题,我们需要看看上一季度的销售额可能意味着很多不同的事情,我们需要预测新客户的销售额,还是只需要知道为什么在上个季度的一个特定星期内销售似乎停滞不前。

 

10.重用不适合您的问题的实现

您可以学习和适应大量的数据科学和机器学习示例,数据科学呈指数增长的原因之一是几乎所有算法的开源实现的可用性,这使得开发快速原型变得容易,但是这些实现通常是针对特定用例开发的,如果您对系统的需求不同,则构建自己的版本,实施自己的数据清理和功能构建例程,它给您更多的控制权。

 

11.误解诸如因果关系和交叉验证之类的基础知识

当您没有足够的数据用于单独的训练集时,交叉验证可帮助您估计预测模型的准确性,为了进行交叉验证,您将数据集拆分了几次,分别使用不同的零件进行训练,然后每次测试模型,以查看无论使用哪种数据子集,都可以获得相同的准确性,但是您不能用它来证明您的模型始终像其交叉验证得分一样准确,通用模型可以对新的传入数据做出准确的反应,但是交叉验证永远无法证明这一点, 因为它仅使用您已有的数据,所以仅表明您的模型对于该数据而言尽可能准确。

 

从根本上说,相关不是因果关系看到两个相关的事物并不意味着一个事物会影响另一个事物,了解未连接数据的一些有趣的相关性,对数据集进行的探索性绘图将使您对可以预测的内容以及哪些数据值是相关的信息一无所知,如果您要跟踪电子商务网站上的客户行为以预测哪些客户将返回以及何时返回,则记录他们登录后并不会告诉您任何信息,因为他们已经回到您的网站上了,登录将与返回高度相关,但是将其合并到模型中将是一个错误。

 

12.低估用户可以理解的内容

业务用户可能无法自己执行统计分析,但这并不意味着他们不了解误差范围或统计显着性和有效性,通常将分析提交给业务团队时,它终只会是一张幻灯片而只有一个数字,无论是准确度数字还是估计数字,还是预测还是预测,但是提供该值时,误差幅度非常重要,如果要根据数据分析制定业务决策,请弄清楚要对结果施加多大的信心,否则决策者会发现很难信任该系统-并不要认为他们的技术不够成熟,无法理解那。

 



 

Prev article

克服数据集成和治理挑战

Next article

智能网络导致数据云的兴起

数据分析师

报名咨询

数据分析师

报名缴费

数据分析师

客服中心

数据分析师

课程服务

数据分析师

认证服务