一些数据点对回归方程的斜率产生不成比例的影响
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-03-02
数据分析统计中什么叫做离群值
与总体模式差异很大的数据点称为 离群值。有四种方法可以将数据点视为异常值。
与其他数据点相比,它可能具有极限X值。
与其他数据点相比,它可能具有极高的Y值。
它可能具有极高的X和Y值。
即使没有极高的X或Y值,也可能与其余数据相距甚远。
下面的散点图中以图形方式描绘了每种异常值。
数据统计中影响点的重要性
影响点是 离群值 ,会极大地影响回归线的斜率。测试异常值影响的一种方法是在有或没有异常值的情况下计算回归方程。
此类分析如下所示。散点图是相同的,只是一个地块包含一个异常值。当存在离群值时,斜率更平坦(-4.10对-3.32);因此该异常值将被视为影响力点。
CPDA数据分析师温馨提示,有时影响力会导致 确定系数变大;有时会更小 在上面的个示例中,当存在影响点时,确定系数较小(0.94对0.55)。在第二个示例中,它更大(0.46对0.52)。
如果CPDA学员在做数据分析时数据集包含影响点,则需要考虑以下事项。
影响点可能表示不良数据,可能是测量误差的结果。如果可能,请检查数据点的有效性。
比较根据有无影响点定义的回归方程式做出的决策。如果方程式导致相反的决定,请谨慎使用。
CPDA数据分析师在线学习班正式启动:
http://www.chinacpda.com/data/detail/?id=623
为您带来不一样的课堂,一样的精彩:
http://www.chinacpda.com/data/detail/?id=614
查找您周边省份授权培训中心:
http://www.chinacpda.com/train/
2020年CPDA数据分析师线上报名:
http://www.chinacpda.com/baoming.php
免费客服热线:400-050-6600
商业联合会数据分析专业委员会