数据分析师统计学中线性回归有哪些先决条件

当前位置：首页 - Q&A问答

来源：CPDA数据分析师网 / 作者：数据君 / 时间：2020-03-02

数据分析师在做统计时满足以下条件，简单的线性回归是合适的

因变量Y与自变量X具有线性关系。要检查这一点，请确保XY 散点图是线性的，并且残差图显示随机图案。

对于X的每个值，Y的概率分布具有相同的标准偏差σ。当满足此条件时，残差的变异性将在所有X值上相对恒定，可以在残差图中轻松检查，对于任何给定的X值，Y值是独立的，如残差图上的随机模式所示。

Y值大致呈正态分布（即对称和单峰）。如果样本量较大，则可以稍稍偏斜。甲直方图或点阵图将显示分布的形状。

什么是小二乘回归线

线性回归可找到能代表双变量数据集中观测值的直线，即小二乘回归线或LSRL 。假设Y是因变量，而X是自变量。人口回归线是：

Y =Β 0 +Β 1 X

其中Β 0为常数，Β 1是回归系数，X为独立变量的值，以及Y为因变量的值。

CPDA数据分析师给定随机观察值样本，通过以下方式估算总体回归线：

ŷ= b 0 + b 1 x

其中b 0是常数，b 1是回归系数，x是自变量的值，ŷ是因变量的预测值。

在数据分析师培训时我们会教到学员如何定义回归线

通常，学员将使用计算工具-软件包（例如Excel）或图形计算器 -查找b 0和b 1。您将 X和Y值输入到程序或计算器中，该工具将求解每个参数。

如果您在没有计算机或图形计算器的情况下发现自己在荒岛上，这极有可能发生，您可以“手动” 求解b 0和b 1。这是方程式。

b 1 =Σ[（x i - x）（y i - y）] /Σ[（x i - x）2 ]

b 1 = r *（y / s x）

b 0 = y -b 1 * x

其中b 0是回归方程中的常数，B 1是回归系数，r是x和y之间的相关性，X 我是X的观测值我，Y 我是ÿ的观测值我， X是平均X， ÿ是平均的ÿ，S X是的标准偏差X和S ÿ是的标准偏差ÿ。

回归线的性质解释

当如上所述定义回归参数（b 0和b 1）时，回归线具有以下特性。

这条线使观测值（y值）和预测值（根据回归方程计算的ŷ值）之间的平方差之和小。

回归线穿过X 值（x）的平均值和Y值（y）的平均值。

回归常数（b 0）等于回归线的 y截距。

回归系数（b 1）是自变量（X）单位变化1时因变量（Y）的平均变化。它是回归线的斜率。

小二乘回归线是具有所有这些属性的直线

决定系数所述确定的系数（用R表示2）是回归分析的密钥输出。它被解释为因变量中方差的比例，该比例可以从自变量中预测。

确定系数的范围是0到1。

R 2为0意味着不能从自变量预测因变量。

R 2为1意味着可以从自变量中正确预测因变量。

0和1之间的R 2表示因变量可预测的程度。R 2为0.10意味着可以从X预测Y的 10％的方差；R 2为0.20意味着20％是可预测的；等等。

用于计算具有一个自变量的线性回归模型的确定系数的公式。

确定系数。具有一个自变量的线性回归模型的确定系数（R 2）为：

[R 2 = {（1 / N）*Σ[（X 我 - X）*（Y 我 - Ý）]

/（σ X *σ Ý）} 2

其中N是用于拟合模型的观测值的数量，Σ是求和符号，x i是观测值的x值i， x是平均值x值，y i是观测值y 的y值， y是平均值y值，σx 是x的标准偏差，σy 是y的标准偏差。

如果知道两个变量之间的线性相关性（r），则可以使用以下公式轻松确定确定系数（R 2）：R 2 = r 2。

在对于回归的标准误差

有关回归线的标准误差（通常用SE表示）是对回归方程过高或过低预测的平均量的度量。测定系数越高，标准误差越低；而且更准确的预测很可能是。

数据分析师课程中对于回归的残差的数据分析方法

大数据统计相关系数测量两个变量之间的关联强度