统计模型和机器学习算法对于业务和数据专业人员而言通常是神秘且令人困惑的?
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-11-30
您不必是技师或工程师即可开车
同样您不必是统计学家或数据科学家即可使用统计建模-或至少不必了解模型告诉您的数据,正如您不必了解将汽车驶向杂货店的传动齿轮的扭矩比一样,您也不必了解每种统计算法所基于的复杂数学和理论,如何理解算法掌握三种实用的统计模型和机器学习的关键:
1、知道特定模型(或测试)告诉您的内容(以及它没有告诉您的内容)
2、知道何时使用该特定测试
3、查找有关如何在现实生活中使用该技术的实际示例
让我们以一个流行的统计机器学习算法命名一个可怕的名字-二项式逻辑回归-对其进行分解,以便任何业务专业人员都能了解它的作用以及如何在现实世界中应用它。
尽管二项式逻辑回归听起来很复杂,但一旦分解就真的不是
它属于“回归”族,这意味着终结果是一个可以提供预测的方程式,考虑一条具有以下等式的拟合线或线性回归:y = A x +B。回归将提供A和B的值,提供x,并且提供预测y。这类似于Excel中的FORECAST函数,告诉我们数据遵循对数曲线,而不是整齐的直线-现实世界中的数据通常是这种情况,,“二项式”是表达“二进制”的一种奇特的方式,这意味着它正在预测二进制结果-1或0,打开或关闭,通过或失败,或者任何只有两种可能性的结果。
顾名思义您可以在需要预测是/否结果的任何时候使用二项式逻辑回归
并且有几个可能有助于或用来预测结果的数值因素,例如如果您要预测员工离开组织的可能性,则其薪水和任期(服务年限或月数)可能是尝试模型的好因素,您可以通过提供过去的案例以及案例的实际结果来教授模型,它必须学习的数据越多,其准确性就越高,该模型产生的回归方程式为您提供了基于这些因素的“是”情况发生的百分比概率,它适用于个别情况,或者您可以将所有概率加起来并获得事件的总体评分-无论是好事(成功的总体机会)还是坏事(总体风险)。
假设您要检测潜在的欺诈性银行卡交易
表示欺诈的因素可能是24小时内的交易数量,美元金额和/或距持卡人实际地址的测地距离(交易离家有多远),高于正常值的值可能表示存在欺诈,二项式逻辑回归可能会降低交易被欺诈的几率(从0到1的数字),您可以设置大于等于0.7的阈值来通知持卡人,或者(如果您对模型真正有信心的话)设置大于0.9的阈值来拒绝交易。
尽管统计模型和机器学习算法可能具有含糊的名称和令人困惑的方程式
同样您不必是统计学家或数据科学家即可使用统计建模-或至少不必了解模型告诉您的数据,正如您不必了解将汽车驶向杂货店的传动齿轮的扭矩比一样,您也不必了解每种统计算法所基于的复杂数学和理论,如何理解算法掌握三种实用的统计模型和机器学习的关键:
1、知道特定模型(或测试)告诉您的内容(以及它没有告诉您的内容)
2、知道何时使用该特定测试
3、查找有关如何在现实生活中使用该技术的实际示例
让我们以一个流行的统计机器学习算法命名一个可怕的名字-二项式逻辑回归-对其进行分解,以便任何业务专业人员都能了解它的作用以及如何在现实世界中应用它。
尽管二项式逻辑回归听起来很复杂,但一旦分解就真的不是
它属于“回归”族,这意味着终结果是一个可以提供预测的方程式,考虑一条具有以下等式的拟合线或线性回归:y = A x +B。回归将提供A和B的值,提供x,并且提供预测y。这类似于Excel中的FORECAST函数,告诉我们数据遵循对数曲线,而不是整齐的直线-现实世界中的数据通常是这种情况,,“二项式”是表达“二进制”的一种奇特的方式,这意味着它正在预测二进制结果-1或0,打开或关闭,通过或失败,或者任何只有两种可能性的结果。
顾名思义您可以在需要预测是/否结果的任何时候使用二项式逻辑回归
并且有几个可能有助于或用来预测结果的数值因素,例如如果您要预测员工离开组织的可能性,则其薪水和任期(服务年限或月数)可能是尝试模型的好因素,您可以通过提供过去的案例以及案例的实际结果来教授模型,它必须学习的数据越多,其准确性就越高,该模型产生的回归方程式为您提供了基于这些因素的“是”情况发生的百分比概率,它适用于个别情况,或者您可以将所有概率加起来并获得事件的总体评分-无论是好事(成功的总体机会)还是坏事(总体风险)。
假设您要检测潜在的欺诈性银行卡交易
表示欺诈的因素可能是24小时内的交易数量,美元金额和/或距持卡人实际地址的测地距离(交易离家有多远),高于正常值的值可能表示存在欺诈,二项式逻辑回归可能会降低交易被欺诈的几率(从0到1的数字),您可以设置大于等于0.7的阈值来通知持卡人,或者(如果您对模型真正有信心的话)设置大于0.9的阈值来拒绝交易。
尽管统计模型和机器学习算法可能具有含糊的名称和令人困惑的方程式
但即使是不喜欢数学的专业人员也可以实际理解,了解模型实际上告诉我们的内容,何时正确使用它们以及如何在现实世界中使用它们将使它们神秘化,有了合理数量的实践知识,统计模型就可以被业务专业人员理解并为大多数分析师所使用,在当今的大数据时代,我们拥有的分析工具可以超越平均值和百分比,让我们使用它们!
商业联合会数据分析专业委员会