一个数据分析师怎样通过SPSS数据树结果进行解读
来源:CPDA数据分析师网 / 作者:wysjfxsjsjd / 时间:2020-01-30
首先我们就来对数据树输出结果进行详细的解读,首先给到我们的是一个警告表格,这是没有定义利润造成的,不用详细的解读该表格。
模型汇总情况,模型汇总情况为我们列出了模型汇总的基本信息、增长方法之前教过的CRT、使用的变量选择哪些、验证方法深度、小个案数、采取什么方式来获取的,这个输出结果也是之前我们自己设置的汇总输出的总结。
上面说到的都是基本信息,下面我们就来重点说下SPSS生成的数据树的主角树形图,这也是我们数据分析师关键的一部分,这是我们的树形图,图形简单易懂和之前讲的理论的东西差不多,只不过信息更加丰富一些。
1、 这个例子很好看出根节点中信贷违约客户占比30%,总数1000个客户其中违约客户是300个人没有违约的700个。
2、 下面我们继续往下进行解读,层按照支票账户余额(Checking_balance)进行拆分拆分依据为是否超过200中(结点1)有44.2的人违约,而超过200的457人当中违约人数中(结点2)只有13.1的违约Gini指数下降了0.048%,这是在数据分析中利用SPSS树形图来进行层的拆分分析得出的结果,但这远远还不够还要进行更加细致的拆分分析。
3、 我们这时进行第二次拆分,这时我们拆分的方式节点1和节点2的拆分的变量不同,节点1使用拆分期限(months_ loan_duration)进行拆分,信贷期限超过22.5的人违约率上升56.5%,而节点2按照other_credit继续拆分有其他信贷的人违约上升至28.9%我们可以根据节点5继续往下进行拆分。
4、 第三层以节点5进行向下拆分根据的是现工作的就业时间(employment_duration)进行拆分工作一年以下的客户违约率上升到21.2%经过详细的拆分分析就能更好的掌握相关人群的信息,也为客户人群分析做到了一个更加准确的划分,更加细致的了解客户。
5、 第四层拆分我们在节点7下进行更细致的拆分,根据信誉记录(credit_history)进行拆分分析节点10的违约率下降。
拆分到这里大家基本上对每一步数据树有了一定的了解,看出来每一步拆分的结果都有一定不同的变化,让我们对数据分析有了更好的了解。
疑问:为什么有些节点拆分有些节点不拆分?
答:这是由于我们之前设置的CRT的拆分方式在做决策树拆分的时候没人每一个拆分的规则层数不超过5层,符节点不少于100个样本,子节点不少于50个,满足以上条件就会在进行拆分,不满足条件的就不再拆分此节点,这就是我们整个决策树的解读。
温馨提示:为了能够更好的进行对决策树的分析,根据个人习惯可以在SPSS软件中选择你平时看决策图的习惯,左上角个按钮可以改变树形图的样式。