一项数据分析中遇到回归中的虚拟变量怎样进行处理
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-03-04
在CPDA数据分析师培训课程中,我们在变量一节中将重点讲述回归中的虚拟变量,当一个或多个自变量为分类变量时如何分析回归方程,CPDA数据分析的关键是将分类变量表示为虚拟变量。
在数据分析时到底什么叫做虚拟变量
在数据分析领域对虚拟变量是这样定义的:虚拟变量(又名指标变量)是使用一个数字变量代表类别数据,例如性别,种族,政治背景等。
从专业的CPDA数据分析角度来看的话,虚拟变量是二分定量变量,它们的值范围很小;他们只能采用两个定量值,实际上,当虚拟变量限制为两个特定值1或0时,回归结果容易解释。通常,1表示存在定性属性,0表示不存在。
我们在做一项数据分析中到底存在多少虚拟变量?
表示特定类别变量所需的伪变量的数量取决于类别变量可以采用的值的数量。为了表示可以假设k个不同值的分类变量,研究人员需要定义k-1个 虚拟变量。
在数据分析中如何避免虚拟变量的陷阱
我们在数据分析时定义伪变量,会遇到一个常见的错误就是在数据分析时定义了太多变量,如果分类变量可以采用k个值,则很容易定义k个虚拟变量。抵制这种冲动。请记住,您只需要k-1个虚拟变量。
第k 个虚拟变量是多余的;它没有任何新信息。这 为分析带来了严重的多重共线性问题。当仅需要k-1个虚拟变量时使用k个虚拟变量称为虚拟变量陷阱。避免这种陷阱!
CPDA数据分析师为你讲解如何解释虚拟变量
一旦将类别变量重新编码为虚拟变量,就可以像其他任何定量变量一样将虚拟变量用于回归分析。
我们的学员在进行数据分析中,关系的收入高于参考群体的收入;回归系数为负表示收入较低。如果回归系数具有统计学意义,则与参考人群的收入差异也具有统计学意义。
数据分析平台更多免费视频教程技巧:
http://www.chinacpda.com/videocenter/
为您带来不一样的课堂,一样的精彩:
http://www.chinacpda.com/data/detail/?id=614
Datahoop数据分析专用平台:
http://www.chinacpda.com/datahoop/
查找您周边省份授权培训中心:
http://www.chinacpda.com/train/
2020年CPDA数据分析师线上报名:
http://www.chinacpda.com/baoming.php
免费客服热线:400-050-6600
商业联合会数据分析专业委员会