400 050 6600
数据分析师

手机号

验证码

30天自动登录

如何选择数据科学软件?

来源:CPDA数据分析师网 / 作者:数据君 / 时间:2021-07-07

谁将是主要用户?数据科学团队、应用程序开发人员,还是 BI 和分析团队?
主要用户的技能水平和数据科学专业知识是什么?他们是具有多年经验的专家数据科学家还是刚刚起步?
目标用户常用和哪种编程语言——Python、Scala、R 或其他语言?
选择特定 DSML 平台的基本原理取决于目标用户。如果目标用户是经验丰富的数据科学家,并且主要环境是 Python,则您需要一个提供大量自定义和灵活性的平台。经验丰富的数据科学家通常更喜欢手动构建、测试和调整模型。这些数据科学家将对自动发现和生成新特征以更快地构建准确模型并探索更广泛特征空间的平台产生兴趣。

无代码或代码优先,何种程度的自动化将加速数据科学工作流程?
一个重要的考虑因素是选择无代码(或低代码)与代码优先的数据科学方法,传统的平台(代码优先)需要数据科学团队手动生成特征,这是一个非常耗时的过程,涉及大量领域知识,一旦构建了特征,AutoML 平台就可以通过自动选择算法和构建 ML 模型来加速工作,作为分析和数据科学的,您需要决定需要自动化多少这个过程,另一方面,无代码环境意味着使用可视化工具、拖放功能,BI 和分析团队或缺乏经验的数据科学家将更喜欢具有 AutoML 2.0 功能的企业平台,例如端到端数据科学自动化,包括数据准备、自动化特征工程、ML 和一键模型部署。

以下是评估 DSML 平台时需要考虑的五个重要属性的简要概述:
数据摄取和准备,在准备好被平台摄取之前,必须对数据进行多少操作?可以不用写额外的SQL代码就可以上传数据到平台吗?

特征工程自动化
特征工程涉及多少手工工作?平台是否支持自动化特征工程,AI引擎能否自动探索所有可用的数据库实体关系,并根据可用的列和关系发现和评估特征?

机器学习
系统是否支持自动化机器学习、的机器学习算法,如 scikit-learn、XGBoost、LightGBM、TensorFlow 和 PyTorch?用户能否对机器学习算法执行自动超参数搜索?

机器学习操作
在生产环境中部署机器学习模型有多容易?如果生产数据随时间发生变化,您能否监控模型、发现模型漂移并快速重新训练模型?

平台集成、易用性和部署灵活性
数据科学流程的所有步骤能否在单个平台内无缝执行,而无需在系统和应用程序之间移动?

不管您对供应商的偏好如何,要记住的重要的事情是用户,非数据科学家是否容易理解应用程序的工作流程、概念和继续进行所需的步骤?     



Prev article

数字化转型:如何建立更紧密的业务合作伙伴关系

Next article

4 项技能将使明天的数据科学家与众不同

数据分析师

报名咨询

数据分析师

报名缴费

数据分析师

客服中心

数据分析师

课程服务

数据分析师

认证服务