数据分析师统计学中线性回归有哪些先决条件
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-03-02
数据分析师在做统计时满足以下条件,简单的线性回归是合适的
因变量Y与自变量X具有线性关系。要检查这一点,请确保XY 散点图是线性的,并且 残差图显示随机图案。
对于X的每个值,Y的概率分布具有相同的标准偏差σ。当满足此条件时,残差的变异性将在所有X值上相对恒定,可以在残差图中轻松检查,对于任何给定的X值,Y值是独立的,如残差图上的随机模式所示。
Y值大致呈正态分布(即 对称和 单峰)。 如果样本量较大,则可以稍稍 偏斜。甲 直方图或 点阵图将显示分布的形状。
什么是小二乘回归线
线性回归可找到能代表 双变量数据集中观测值的直线,即 小二乘回归线或LSRL 。假设Y是因变量,而X是自变量。人口回归线是:
Y =Β 0 +Β 1 X
其中Β 0为常数,Β 1是回归系数,X为独立变量的值,以及Y为因变量的值。
CPDA数据分析师给定随机观察值样本,通过以下方式估算总体回归线:
ŷ= b 0 + b 1 x
其中b 0是常数,b 1是回归系数,x是自变量的值,ŷ是因变量的 预测值。
在数据分析师培训时我们会教到学员如何定义回归线
通常,学员将使用计算工具-软件包(例如Excel)或 图形计算器 -查找b 0和b 1。您将 X和Y值输入到程序或计算器中,该工具将求解每个参数。
如果您在没有计算机或图形计算器的情况下发现自己在荒岛上,这极有可能发生,您可以“手动” 求解b 0和b 1。这是方程式。
b 1 =Σ[(x i - x)(y i - y)] /Σ[(x i - x)2 ]
b 1 = r *(y / s x)
b 0 = y -b 1 * x
其中b 0是回归方程中的常数,B 1是回归系数,r是x和y之间的相关性,X 我是X的观测值我,Y 我是ÿ的观测值我, X是平均X, ÿ是平均的ÿ,S X是的标准偏差X和S ÿ是的标准偏差ÿ。
回归线的性质解释
当如上所述定义回归参数(b 0和b 1)时,回归线具有以下特性。
这条线使观测值(y值)和预测值(根据回归方程计算的ŷ值)之间的平方差之和小。
回归线穿过X 值(x)的平均值和Y值(y)的平均值 。
回归常数(b 0)等于 回归线的 y截距。
回归系数(b 1)是自变量(X)单位变化1时因变量(Y)的平均变化。它是 回归线的 斜率。
小二乘回归线是具有所有这些属性的直线
决定系数所述确定的系数(用R表示2)是回归分析的密钥输出。它被解释为因变量中方差的比例,该比例可以从自变量中预测。
确定系数的范围是0到1。
R 2为0意味着不能从自变量预测因变量。
R 2为1意味着可以从自变量中正确预测因变量。
0和1之间的R 2表示因变量可预测的程度。R 2为0.10意味着可以从X预测Y的 10%的方差;R 2为0.20意味着20%是可预测的;等等。
用于计算具有一个自变量的线性回归模型的确定系数的公式。
确定系数。具有一个自变量的线性回归模型 的确定系数(R 2)为:
[R 2 = {(1 / N)*Σ[(X 我 - X)*(Y 我 - Ý)]
/(σ X *σ Ý)} 2
其中N是用于拟合模型的观测值的数量,Σ是求和符号,x i是观测值的x值i, x是平均值x值,y i是观测值y 的y值, y是平均值y值,σx 是x的标准偏差,σy 是y的标准偏差。
如果知道两个变量之间的线性相关性(r),则可以使用以下公式轻松确定确定系数(R 2):R 2 = r 2。
在对于回归的标准误差
有关回归线的标准误差(通常用SE表示)是对回归方程过高或过低预测的平均量的度量。测定系数越高,标准误差越低;而且更准确的预测很可能是。