400 050 6600
数据分析师

手机号

验证码

30天自动登录
当前位置:首页 - Q&A问答

Q&AQ&A问答

新方法的风险何时值得回报?

来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-12-08

全球服务部雇用了一个新人
敏捷方法需要敏捷工具,从头开始往往是成本过高的-尤其是在基于瀑布的软件开发中,需求是预先编码的,基于敏捷的方法是不同的,因为敏捷将项目术语称为“计划”分解为迭代的可交付成果,所以它容忍错误的步调,错误的计算或接近完全的重新启动,敏捷方法必须辅之以敏捷软件开发工具,例如数据仓库自动化工具,面向市场的敏捷数据仓库自动化工具。

以报告为中心的商业智能(BI)实践转变为下一代分析实践
将BI置于新业务的主导地位,分析开发本身具有风险,它要求分析师,数据科学家和开发人员在构建时进行实验-进行假设,测试和分析,敏捷数据仓库开发将这一要素与另一个变量结合在一起:与业务部门的持续协作以设计和构建运营应用程序,敏捷数据仓库开发的关键是正确无误-终,您失败的速度越快-即找出不可行的方法-您尝试其他事情的速度就越快。

数据泄露的教训,数据科学家的历史,当前的数据科学道路
企业应该从近的数据泄露,数据分析师如何成为数据科学家以及今天成为数据科学家所需的技能和知识中吸取教训,在过去的一年中,大型企业遭受了重大网络攻击,这表明没有一家企业能够完全免受伤害,本文介绍了您的企业应该从这些重大漏洞中学到什么。

成为数据科学家的之处是什么?数据科学家要取得成功需要什么个性特征?
我的工作主要不是数学或统计学。是的,了解数学和统计信息对于构建预测模型和高级分析解决方案非常有帮助,但是我大部分时间都花在创造性地思考所构建的模型及其对组织的意义上,对于数据科学家(至少是数据科学中的机器学习部分),数据为王我们关心数据及其含义,我不太关心算法背后的数学运算,而并不关心算法告诉我有关数据的信息。

作为数据科学家,您喜欢的部分是什么?您不喜欢的部分?
我们将从不喜欢的部分开始。我不喜欢数据准备工作中的数据清理部分。,它非常详细,乏味且永无止境。并不是说它不是至关重要,而是。预测建模的其他部分更加有趣,喜欢的部分是迭代地构建预测模型,找到在每次迭代中提高模型准确性和效率的方法,锦上添花的是,何时可以从预测模型中获得对模型为何准确的见解;获得,哇我从来不知道!。

如果您可以回到过去,那么作为新数据科学家您会告诉自己的一件事是什么?
我现在处于职业生涯的末尾,因此该领域的新数据科学家经常问我这种问题,我告诉他们的(只是略微地回避了这个问题)是:找到一份可以应用数据科学的工作,并将这些技术应用到实际问题上已有数年,算法和程序设计在本科和研究生院都很好地讲授,但是在实际问题中的应用却很难讲授,权衡算法优势和推出实用解决方案的压力的经验对我们所有人都是不错的练习。

我建议的第二件事是寻找并跟随人们,向他们学习和指导
如果他们在您的组织内,那就更好了,如果不是请阅读他们的博客,然后提出问题,从他人的经验中学习可以加快您学习如何地完成数据科学任务的能力,再次:阅读,阅读和阅读,提出问题并倾听,与他人的经验一起增进您的经验。

您认为人们需要在工作中取得成功的个性特征是什么?
聘请预测建模人员时,我想要的是求知欲,他们需要查看解决方案,并想知道模型为何以这种方式运行,挖掘数据并发现业务流程中的知识,这是数据科学中难学的部分,但对企业来说可能是有价值的。

您的典型日子如何?您主要是与团队一起工作还是独自工作?
当我是一名顾问时,也许有75%的时间我或多或少地独自一人花在处理数据,建立模型和评估模型上,剩下的25%用于更广泛的业务团队-定义问题,重新了解模型告诉我们的数据或建立模型部署流程。

您的生气是什么(被滥用的流行语,夸大其词的想法等),为什么?
有太多选择,很难选择,我实际上将其分解为两个小问题:一个关于炒作,另一个关于误导性方法,目前夸张的技术是深度学习,现在我喜欢深度学习可以为我们行业提供的服务,并且在许多问题上它非常准确,我遇到的问题是一些深度学习倡导者的观点,即深度学习始终是的方法,我们去过那里并且做到了,如果深度学习始终始终是的技术,那么我们只会看到深度学习网络赢得了比赛,但是事实并非如此。

另一个烦恼是我们应该如何在几个有偏差的目标变量总体上建立分类模型
如果99%的目标变量等于0,而1%等于1,则通常的想法是对数据进行重新采样,以使总体相等,这样我们就不会“总是将记录归为0”,事实证明,对于大多数算法而言,您无需重新采样,算法无需重新采样即可正常工作,分类器“将所有内容都称为0”的原因纯粹是由于软件对概率的解释,而不是与分类器的概率本身有关,我已经广泛介绍并撰写了这种现象。

未来几年,数据分析/数据科学将走向何方?

数据科学正在迁移到可以使用更大数据的云中,大数据与云计算相结合意味着即使在五年前仍然难以解决的问题现在也可以解决,速度和规模的提高不仅使新问题成为可能。他们还使分析人员有更多的时间去思考要解决的问题,而不必考虑如何将问题简化为可以解决的简单形式,因此我们可以比以往尝试更多的排列,构建更多版本的模型,甚至尝试更多的目标变量。


免费客服热线:400-050-6600

商业联合会数据分析专业委员会



Prev article

如何做招聘分析像销售分析一样对待?

Next article

大数据滥用如此众多的选举预测出了错,企业使用大数据的教训是什么?

数据分析师

报名咨询

数据分析师

报名缴费

数据分析师

客服中心

数据分析师

课程服务

数据分析师

认证服务