什么叫线性回归
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-03-02
线性回归是统计学家用来描述因变量和一个或多个自变量之间关系的技术
因变量
自变量是数据分析师控制以确定其与观察到的现象的关系的变量,称为因变量。更一般而言,自变量是“原因”,而因变量是自变量的“效果”,在数据分析中因变量也称为响应变量。
具体的在课程中介绍线性回归,分为三个重点进行讲解:
1、先决条件:要了解线性回归,学员需要了解度量尺度和相关性。
2、简单线性回归:一个因变量和一个之间回归单个 独立变量。
3、多重回归:一个因变量和两个或多个自变量之间的回归 。
在我们的数据分析师培训中,关键点将通过清晰的分步示例进行说明。在我们数据分析师培训的同时讲师会带领学员做实例演示,保证学员之后可以手动计算所有基本输出,以进行简单的线性回归的操作。教你使用统计软件,您将能够为多元回归生成相同的输出。重要的是,学员将能够正确解释你产生的输出。
对于量表统计的学习方法
量表用于对变量进行分类和/或量化。课程主要会讲到统计分析中常用的四个度量标准:名义,有序,间隔和比率标准。
数据分析师对于量表的性质
每个度量标准都满足以下一个或多个测量属性。
身份:测量标尺上的每个值都有独特的含义。
幅度:测量标度上的值彼此之间有序关系,也就是说,某些值较大而有些较小。
等间隔:比例尺上的比例单位彼此相等,例如,这意味着1与2之间的差等于19与20之间的差,小值为零;标尺具有真实的零点,在该点以下不存在任何值。
标称量表
测量的标称比例仅满足测量的标识属性,分配给变量的值代表描述性类别,但没有关于大小的固有数值,性别是按名义规模衡量的变量的示例,可以将个人分为“男性”或“女性”,但任何一个值都不代表另一个或多或少的“性别”。
序数量表
序数尺度具有同一性和大小的性质,序数刻度上的每个值都有的含义,并且与刻度上的每个其他值都具有有序关系。
间隔量表
测量的间隔刻度具有标识,大小和相等间隔的属性。
间隔刻度的一个示例是用于测量温度的华氏刻度,标尺由相等的温度单位组成,因此40至50华氏度之间的差异等于50至60华氏度之间的差异。
使用区间标度,您不仅知道不同的值是大还是小,而且还知道它们的大小是多少。例如,假设星期一为华氏60度,星期二为70度,您不仅知道星期二比较热,而且还知道有10度高温。
比例尺
测量的比例标尺满足测量的所有四个属性:同一性,大小,相等间隔和小值零。
物体的重量就是比例尺的一个例子,体重秤上的每个值都有的含义,可以对体重进行排序,体重秤上的单位彼此相等,并且体重秤的小值为零,体重秤的小值为零,因为静止的物体可以失重,但不能具有负重量。