400 050 6600
数据分析师

手机号

验证码

30天自动登录
当前位置:首页 - Q&A问答

Q&AQ&A问答

数据分析师统计学中线性回归有哪些先决条件

来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-03-02

数据分析师在做统计时满足以下条件,简单的线性回归是合适的

因变量Y与自变量X具有线性关系。要检查这一点,请确保XY 散点图是线性的,并且 残差图显示随机图案。

对于X的每个值,Y的概率分布具有相同的标准偏差σ。当满足此条件时,残差的变异性将在所有X值上相对恒定,可以在残差图中轻松检查,对于任何给定的X值,Y值是独立的,如残差图上的随机模式所示。

Y值大致呈正态分布(即 对称和 单峰)。 如果样本量较大,则可以稍稍 偏斜。甲 直方图或 点阵图将显示分布的形状。

 

什么是小二乘回归线

线性回归可找到能代表 双变量数据集中观测值的直线,即 小二乘回归线或LSRL 。假设Y是因变量,而X是自变量。人口回归线是:

Y =Β 0 +Β 1 X

其中Β 0为常数,Β 1是回归系数,X为独立变量的值,以及Y为因变量的值。

CPDA数据分析师给定随机观察值样本,通过以下方式估算总体回归线:

ŷ= b 0 + b 1 x

其中b 0是常数,b 1是回归系数,x是自变量的值,ŷ是因变量的 预测值。

 

在数据分析师培训时我们会教到学员如何定义回归线

通常,学员将使用计算工具-软件包(例如Excel)或 图形计算器 -查找b 0b 1。您将 XY值输入到程序或计算器中,该工具将求解每个参数。

如果您在没有计算机或图形计算器的情况下发现自己在荒岛上,这极有可能发生,您可以“手动” 求解b 0b 1。这是方程式。

b 1 =Σ[x i - x)(y i - y] /Σ[x i - x2 ]

b 1 = r *y / s x

b 0 = y -b 1 * x

其中b 0是回归方程中的常数,B 1是回归系数,rxy之间的相关性,X 我是X的观测值我,Y 我是ÿ的观测值我, X是平均X ÿ是平均的ÿS X是的标准偏差XS ÿ是的标准偏差ÿ

 

回归线的性质解释

当如上所述定义回归参数(b 0b 1)时,回归线具有以下特性。

这条线使观测值(y值)和预测值(根据回归方程计算的ŷ值)之间的平方差之和小。

回归线穿过X 值(x)的平均值和Y值(y)的平均值 。

回归常数(b 0)等于 回归线的 y截距。

回归系数(b 1)是自变量(X)单位变化1时因变量(Y)的平均变化。它是 回归线的 斜率。

 

小二乘回归线是具有所有这些属性的直线

决定系数所述确定的系数(用R表示2)是回归分析的密钥输出。它被解释为因变量中方差的比例,该比例可以从自变量中预测。

确定系数的范围是01

R 20意味着不能从自变量预测因变量。

R 21意味着可以从自变量中正确预测因变量。

01之间的R 2表示因变量可预测的程度。R 20.10意味着可以从X预测Y 10%的方差;R 20.20意味着20%是可预测的;等等。

 

用于计算具有一个自变量的线性回归模型的确定系数的公式。

确定系数。具有一个自变量的线性回归模型 的确定系数(R 2)为:

[R 2 = {1 / N*Σ[X - X*Y - Ý]

/(σ X *σ Ý} 2

其中N是用于拟合模型的观测值的数量,Σ是求和符号,x i是观测值的xi x是平均值x值,y i是观测值y y值, y是平均值y值,σx x的标准偏差,σy y的标准偏差。

如果知道两个变量之间的线性相关性(r),则可以使用以下公式轻松确定确定系数(R 2):R 2 = r 2

 

在对于回归的标准误差

有关回归线的标准误差(通常用SE表示)是对回归方程过高或过低预测的平均量的度量。测定系数越高,标准误差越低;而且更准确的预测很可能是。

 


Prev article

数据分析师课程中对于回归的残差的数据分析方法

Next article

大数据统计相关系数测量两个变量之间的关联强度

数据分析师

报名咨询

数据分析师

报名缴费

数据分析师

客服中心

数据分析师

课程服务

数据分析师

认证服务