如何使用R增强您的业务分析?
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2021-03-03
还记得过去建立统计分析模型的感觉吗?
伙计那东西很难,数周甚至数月的时间,像C ++一样处理复杂的C代码,精心构建庞大的程序,而且如果有一个小问题是错误的,那令人沮丧的认识是,您必须将整个事情拆散,甚至可能重新开始,值得庆幸的是,此后事情一直在发展,现在可以创建一个用于分析不断适应,发展和改进的数据的系统,而不是创建一个棘手的静态组件,疣和所有其他组件,的方法之一是使用R。
但是R究竟是什么?
一种功能丰富的(如果是俗称的)编程语言,用于各种数据科学,统计和可视化项目,R的受欢迎程度– 200万用户,而且还在增加!–部分原因是成为一个开放源代码程序,该程序具有广泛的论坛和免费教程支持网络,允许对数据感兴趣的人进行自我训练。但是进入市场的门槛很低,远非的吸引力,R功能强大且用途广泛,如此之多每个人都使用它-前者用于分析供稿,而后者则用于评估其广告的效果。
这与BI有什么关系?
R的一大优点是它可以与BI平台集成,以帮助开发人员和分析师充分利用关键业务数据,这创造了越来越聪明的方法来调查当前运营和策略中正在起作用的内容,并评估将来的业务决策如何实现。范围从统计功能(例如K均值聚类)到预测模型(例如线性回归),对于BI平台它还允许您使用数据构建和运行统计模型,并在新信息流入模型时自动更新这些模型。
如何做到项目的四个阶段
让我们看一下如何使用R和真实数据运行真实的项目。对于此演示,假设您正在分析公司的销售策略,您想确保销售人员在客户业务中定位到合适的人,以程度地提高他们的转化率,使用这些信息,您还希望查看他们的潜在客户并预测他们完成交易的机会,为此我们将重点关注合同的授权级别,交易的价值以及交易是否通过。
此过程分为四个步骤:
探索性数据分析:评估您应该使用哪些预测变量。
数据准备:工程特征和数据整理。
构建和训练模型:迭代地构建和改进模型以进行分析。
评分:使用新数据运行模型以预测未来交易的结果。
步骤1:探索性数据分析
个问题是:哪个变量对确定未来的成功有用?与您在企业中与之交谈的对象相比,左侧图表没有太大变化,表明交易规模不受与您交谈的人的影响,有很大的变化,从这些数据可以明显看出,如果您正在与高层管理人员或高管进行交谈,那么完成交易的可能性就更大。
步骤2:资料准备
接下来要考虑的是:您需要做什么来“整理”数据,即准备数据进行分析?
探索性数据分析,在这种情况下,存在一个明显的问题,我们正在运行的变量(高级)是一个类别变量,它是文本,而不是数值。在线性回归模型中并没有太多用处,您不能将“雇员”或“经理”一词加或乘!这意味着您需要找到一种数字表示的方法,解决方案是将文本数据转换为指示符变量或伪变量,而不是列出列表中每个条目的职务,而是引入一列,例如“这是雇员,是还是不是?” 然后将1表示是,或将0表示否。
注意:在您当中,一些眼神敏锐的人可能已经注意到,尽管对于资历而言,有四种类型的预测变量(员工,经理,高管,高层管理人员),但我们在回归中仅使用了三种,此处无需赘述,这与线性代数定律有关……我们需要这样做以避免多重共线性,因此在这种情况下,只需使用一个变量作为基线,并实际上使其他三个变量的系数值相对于该基线,对于此演示,我们已经预先准备了虚拟变量,但您可以自己完成此操作,方法是在平台内的数据中添加其他字段,然后应用所需的任何逻辑,功能或工具,这样做的好处是,一旦完成(并设置为显示为1或0),它将自动应用于馈入平台的任何新数据,它会自动更新,刷新和丰富您的模型,而您无需执行任何其他准备工作。
步骤3:建立并训练模型
探索性数据分析,使用R的令人满意的事情之一是创建线性模型或广义线性模型非常容易,实际上如果要调用线性函数,称为广义线性模型,这些函数不仅易于调用,而且还可以在C例程中运行,也使它们闪电般快速,好的现在该定义您的结果变量或响应变量了,在我们的案例中,这就是“转换”(例如,销售是否转换了?),它是一个二进制变量-简单的是或否,使用我们创建的模型,我们现在将根据与您交谈的人的资历级别来预测销售是否会带来转化。
回顾一下:我们的响应变量是转化,我们的预测变量是资历的指标/虚拟变量,由于我们的响应变量是二进制的,因此我们将使用二进制回归-更常见的称为逻辑回归,这将使我们用0或1之间的数字对结果进行建模,表明转换的可能性,换句话说我们正在建立一个模型,该模型可以帮助我们根据历史结果来预测成功的机会,并且由于您可以将其保存到存储库中并在新数据到达时重新应用,因此它是完全可重用的,并且将适应您提供的数据和见解。
步骤4:计分
万岁!您已经建立了用于统计分析的工作模型。现在,如何有效地利用它对新数据进行预测?幸运的是,在R中进行预测非常容易。一旦使用LM或GLM建立了模型,并且有了模型对象,就可以使用该模型对象对新数据进行评分。这涉及使用预测函数将两个向量相乘。预测函数使用两个参数:个是您先前创建的模型对象。第二个参数是您的新数据。随着新数据的流入,您所需要做的就是获取有关客户的信息,并将其输入到预测功能中,这将通过模型运行信息,并根据您对该客户在公司中的资历的了解,为您提供一个介于1到0之间的数字,该分数根据您的权限级别告诉您完成交易的可能性你在说话,在那里您就可以使用一个有效的预测模型,该模型会自动使用新数据进行更新,从而确保您始终掌握的商业智能。
伙计那东西很难,数周甚至数月的时间,像C ++一样处理复杂的C代码,精心构建庞大的程序,而且如果有一个小问题是错误的,那令人沮丧的认识是,您必须将整个事情拆散,甚至可能重新开始,值得庆幸的是,此后事情一直在发展,现在可以创建一个用于分析不断适应,发展和改进的数据的系统,而不是创建一个棘手的静态组件,疣和所有其他组件,的方法之一是使用R。
但是R究竟是什么?
一种功能丰富的(如果是俗称的)编程语言,用于各种数据科学,统计和可视化项目,R的受欢迎程度– 200万用户,而且还在增加!–部分原因是成为一个开放源代码程序,该程序具有广泛的论坛和免费教程支持网络,允许对数据感兴趣的人进行自我训练。但是进入市场的门槛很低,远非的吸引力,R功能强大且用途广泛,如此之多每个人都使用它-前者用于分析供稿,而后者则用于评估其广告的效果。
这与BI有什么关系?
R的一大优点是它可以与BI平台集成,以帮助开发人员和分析师充分利用关键业务数据,这创造了越来越聪明的方法来调查当前运营和策略中正在起作用的内容,并评估将来的业务决策如何实现。范围从统计功能(例如K均值聚类)到预测模型(例如线性回归),对于BI平台它还允许您使用数据构建和运行统计模型,并在新信息流入模型时自动更新这些模型。
如何做到项目的四个阶段
让我们看一下如何使用R和真实数据运行真实的项目。对于此演示,假设您正在分析公司的销售策略,您想确保销售人员在客户业务中定位到合适的人,以程度地提高他们的转化率,使用这些信息,您还希望查看他们的潜在客户并预测他们完成交易的机会,为此我们将重点关注合同的授权级别,交易的价值以及交易是否通过。
此过程分为四个步骤:
探索性数据分析:评估您应该使用哪些预测变量。
数据准备:工程特征和数据整理。
构建和训练模型:迭代地构建和改进模型以进行分析。
评分:使用新数据运行模型以预测未来交易的结果。
步骤1:探索性数据分析
个问题是:哪个变量对确定未来的成功有用?与您在企业中与之交谈的对象相比,左侧图表没有太大变化,表明交易规模不受与您交谈的人的影响,有很大的变化,从这些数据可以明显看出,如果您正在与高层管理人员或高管进行交谈,那么完成交易的可能性就更大。
步骤2:资料准备
接下来要考虑的是:您需要做什么来“整理”数据,即准备数据进行分析?
探索性数据分析,在这种情况下,存在一个明显的问题,我们正在运行的变量(高级)是一个类别变量,它是文本,而不是数值。在线性回归模型中并没有太多用处,您不能将“雇员”或“经理”一词加或乘!这意味着您需要找到一种数字表示的方法,解决方案是将文本数据转换为指示符变量或伪变量,而不是列出列表中每个条目的职务,而是引入一列,例如“这是雇员,是还是不是?” 然后将1表示是,或将0表示否。
注意:在您当中,一些眼神敏锐的人可能已经注意到,尽管对于资历而言,有四种类型的预测变量(员工,经理,高管,高层管理人员),但我们在回归中仅使用了三种,此处无需赘述,这与线性代数定律有关……我们需要这样做以避免多重共线性,因此在这种情况下,只需使用一个变量作为基线,并实际上使其他三个变量的系数值相对于该基线,对于此演示,我们已经预先准备了虚拟变量,但您可以自己完成此操作,方法是在平台内的数据中添加其他字段,然后应用所需的任何逻辑,功能或工具,这样做的好处是,一旦完成(并设置为显示为1或0),它将自动应用于馈入平台的任何新数据,它会自动更新,刷新和丰富您的模型,而您无需执行任何其他准备工作。
步骤3:建立并训练模型
探索性数据分析,使用R的令人满意的事情之一是创建线性模型或广义线性模型非常容易,实际上如果要调用线性函数,称为广义线性模型,这些函数不仅易于调用,而且还可以在C例程中运行,也使它们闪电般快速,好的现在该定义您的结果变量或响应变量了,在我们的案例中,这就是“转换”(例如,销售是否转换了?),它是一个二进制变量-简单的是或否,使用我们创建的模型,我们现在将根据与您交谈的人的资历级别来预测销售是否会带来转化。
回顾一下:我们的响应变量是转化,我们的预测变量是资历的指标/虚拟变量,由于我们的响应变量是二进制的,因此我们将使用二进制回归-更常见的称为逻辑回归,这将使我们用0或1之间的数字对结果进行建模,表明转换的可能性,换句话说我们正在建立一个模型,该模型可以帮助我们根据历史结果来预测成功的机会,并且由于您可以将其保存到存储库中并在新数据到达时重新应用,因此它是完全可重用的,并且将适应您提供的数据和见解。
步骤4:计分
万岁!您已经建立了用于统计分析的工作模型。现在,如何有效地利用它对新数据进行预测?幸运的是,在R中进行预测非常容易。一旦使用LM或GLM建立了模型,并且有了模型对象,就可以使用该模型对象对新数据进行评分。这涉及使用预测函数将两个向量相乘。预测函数使用两个参数:个是您先前创建的模型对象。第二个参数是您的新数据。随着新数据的流入,您所需要做的就是获取有关客户的信息,并将其输入到预测功能中,这将通过模型运行信息,并根据您对该客户在公司中的资历的了解,为您提供一个介于1到0之间的数字,该分数根据您的权限级别告诉您完成交易的可能性你在说话,在那里您就可以使用一个有效的预测模型,该模型会自动使用新数据进行更新,从而确保您始终掌握的商业智能。
商业联合会数据分析专业委员会