CPDA数据分析师是如何比较数据集的方法
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-03-10
数据分析师在做数据分析时常见的图形显示大多分为4种表现形式,(点状图,箱形图,干图,条形图)这种表现图形的方式是比较两个或多个数据集数据的有效工具。
我们今天就来为大家讲解怎样描述数据集的四种方法
当我们在做数据分析时为了比较两个或更多数据集时,四种方式可以为直观的来表现:
1、以中央形式表现方法:在图形上,分布的中心是大约一半的观测值在任一侧的点。
2、传播的表现形式:我们在做数据分析时分布的扩展是指数据的可变性。如果我们得出的效果观察范围广,则传播范围更大,如果观测值聚集在单个值附近,则传播范围较小。
3、从形状上来判断数据的结果:在图形显示数据时分布的形状由对称性, 偏度,峰数等描述 。
4、一种不寻常的功能:异常特征是指差距(没有观测值的分布区域)和 离群值。
数据分析时采用点状图的表现形式
当数据分析师使用点状图比较数据集的时候,它们将以相同的测量比例在一个位置上位于另一个位置上,如下所示。
在上图中我们主要是使用点状图来分析对于家庭饲养宠物的调查报告,在图中点状图显示了两个城市街区房屋中的饲养宠物的分布以及占比。在A座中显示的结果,宠物拥有量要低一些。在A座中,大多数家庭的宠物为零或一只。在B座区域中,大多数家庭拥有两只或更多的宠物。在A座中,宠物的分布以及占有率成正确的表现;在B座中,散点图表现得形式呈钟形。在B座中,家庭宠物饲养的范围为每户0到6只宠物,而在A座中则为0到4只宠物;因此,B座的分布具有更大的可变性。在这两个数据集中都没有异常值或空白。
在数据分析中还有一种背对背模板方式对数据进行图形呈现
CPDA数据分析为你讲解背对背干线图,是另一个用于比较两组数据的图形选项。背对背模板的中心由一列茎组成,每侧都有一条垂直线。代表一个数据集的叶子从右延伸,而代表另一数据集的叶子从左延伸。
上面的图形以背对背模板显示了随机抽取的十几岁男大学生和女大学生携带的现金量。男大学生的平时携带的现金比女大学生多-男大学生的中位数为420元,女孩的中位数为360元。从图形上显示两种分布大致呈钟形结构的图形,尽管男大学生之间的差异想多来说比较大,,这两组都没有差距也没有离群值。