在数据分析时怎样对多重共线性测量的测量方法
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-03-04
今天CPDA数据分析师就教给你两种常用的测量多重共线性的方法:
1、我们在侧量时为每个自变量计算多重确定的系数。
2、还可以为每个自变量计算方差膨胀因子。
我们的课程中会着重讲到多重确定系数
我们在之前讲过怎样实现多重共线性和回归分析中,CPDA数据分析师教给大家怎样描述多重确定系数(R 2)怎样测量因变量中由所有自变量解释的方差比例。
教给我们怎样忽略因变量,则可以为k个独立变量中的每一个计算多重确定系数(R 2 k)。CPDA数据分析通过在所有其他自变量上回归第k 个自变量来做到这一点。也就是说,我们将X k视为因变量,并使用其他自变量来预测X k。
CPDA数据分析师如何解释R 2 k?如果R 2 k等于零,则变量k不与任何其他自变量相关;对于变量k,多重共线性不是问题。根据经验,大多数分析师认为,当R 2 k大于0.75 时,多重共线性是一个潜在的问题。当R 2 k大于0.9 时,是一个严重的问题。
CPDA数据分析师告诉你什么叫做方差膨胀因子
在我们做数据分析时经常会碰到方差因子,方差膨胀因子是表达与多重相关系数完全相同的信息的另一种方法。通过以下公式为每个自变量计算方差膨胀因子:
在公事中VIF k是变量k的方差膨胀因子,R 2 k是变量k的多次确定系数。
数据分析师会栽在很多统计数据包(例如SAS,SPSS,Minitab)中,我们利用方差膨胀因子可用作可选的回归输出,方差膨胀因子可以显示为回归系数表的一部分。
方差膨胀因子的解释与多重确定系数的解释相似
我们在做数据分析师遇到如果VIF k = 1,则变量k不与任何其他自变量相关,根据CPDA数据分析师的经验来看,当VIF k大于4 时,多重共线性是一个潜在的问题。大于10时,这是一个严重的问题。上面的输出显示VIF为2.466,这表明有些共线性,但不足以担心。
我们在做数据分析师的底线:如果R 2 k大于0.9或VIF k大于10,则回归系数估计可能很差。对这些系数的显着性检验可能会产生误导。