对于数据分析师来说判别分析是一种统计技术
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-03-05
在CPDA数据分析师培训中判别分析是一种统计的技术,它基于一个或多个定量预测变量的得分将观察结果分为非重叠组。
举例说明:医生行业在数据统计时可以进行判别分析以识别中风风险高或低的患者。这种分析得方法可以根据病人属性(例如,胆固醇水平,体重)和/或生活方式(例如,每周运动几分钟,每天一包香烟)将患者分为高危或低危人群。
CPDA数据分析师温馨提示:有几种不同的方法可以进行判别分析。在数据分析课程中描述的方法基于线性回归。
我们要通过两组判别的分析
对于数据分析师一个常见的研究问题涉及根据两个或多个定量的预测变量将观察结果分为两组。
在数据分析时当只有两个分类组时,判别分析实际上就是多次回归,但有一些调整。
因变量是二分类的类别变量 (即,只能包含两个值的类别变量)。
因变量表示为虚拟变量(值为0或1)。
根据预测分数接近于0还是接近1,将观察结果分配给各组。
回归方程称为判别函数。
判别功能的功效通过正确分配的比例来衡量。
判别分析和标准回归分析之间的区别是使用分类变量作为因变量。除此之外,两组判别分析就像标准多元回归分析一样。分析中的关键步骤是:
在数据分析时的第二种叫做估计回归系数。
定义回归方程,这是判别函数。
评估回归方程与数据的拟合度。
评估回归方程对观察结果正确分类的能力。
评估预测变量的相对重要性。
数据分析中的多重判别分析
我们在数据分析做回归时也可以用于两个以上的分类组,但是对于数据分析师来说工作会更加复杂。当有两个以上的组时,也有两个以上的判别函数。
CPDA数据分析师通过多重判别分析,我们的目标是定义判别函数,可以使组之间的差异化,并使组内的差异小化。这个时候,计算使用了规范相关性。