CPDA数据分析之虚拟高通量筛选的方法
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-04-08
CPDA数据分析师面对大多数节点都能轻松应对处理大量数据的挑战
数据分析师可以预测尚未测试的化合物的活性的结果可以通过例如浓缩绘图仪可视化,该绘图仪是专门为此目的开发的,检查数据的另一个有用工具是所谓的邻居图,显示标记为“活动”的数据点附近。
数据分析师共享元节点
共享元节点的能力使其他人可以利用更为实用的工作流程,比如说可以部署复杂的分子特性计算,并通过企业内部大数据工具共享它,之后其他人可以将其复制并链接到服务器上的该元节点,并在服务器上的原始文件发生更改时自动获取更新。
数据分析师可以根据医疗索赔中进行异常检测
我们可以基于统计量度的一组公共可用医疗索赔中的异常值检测,但是所展示的技术并非特定于医学数据,而是也可以应用于其他领域。
我们CPDA数据分析师工作流程的目标是识别离群值
例如针对特定疾病的异常高昂费用的索赔,为了找到这些离群值数据分析师将输入数据按目标变量(例如疾病)分组,并计算所讨论的数字变量的均值和标准差(例如住宿费用)。离群值是与它们所属的组的平均值相差超过x *标准偏差的所有记录。
工作流的上部分支如上所述标识一个目标变量的离群值
企业数据分析师可以通过元节点上下文菜单更改组和聚合列,工作流程的下半部分是对该方法的改进,并允许跨多个变量(例如,对某些疾病和住院时间而言具有不寻常的高成本的索赔)识别异常值。为此,用户必须选择两个组列,例如疾病和停留时间。