将R的数字运算能力带给Python
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-09-08
“数据科学”的目标是从数据中得出统计上有效的推论
标签“数据”的意思是暗示使用什么数据并不重要,但这是错误的:在不密切了解数据的情况下进行科学是很难的,理解产生它的系统的缺点,并聪明而敏感地处理好东西所伴随的非理想,任何有趣的数据集至少都具有以下一些特征:缺失值,离群值和噪声。缺失值正是名称所隐含的含义。离群值是怪异事件,出于某种原因或其他原因,它们远远超出了合理性范围。噪声是由随机(或非随机)海洋对测量值产生的分布,离群值和噪声的不同之处在于,噪声通常具有很好度量的分布,其原因是相当容易理解的,而离群值通常是由于对过程的了解不足而很少发生,因此我们无法很好地测量分布。
为了处理这类事情,R,Python都是有用的工具
为什么R对数据科学家有用R是经验丰富的统计分析师掌握的一种令人愉悦的小语言。它是由统计学家写的,并且是为统计学家编写的,使一些基本的数据管理任务非常容易。特别是三个基本任务:
1、标签数据
2、填写缺失值
3、筛选
R很好地支持了这些任务标记可能是其中重要的
R的“数据框架”概念令人吃惊,其中包含维和实体标签作为列和行标题,同时允许算法对内部的纯数字数据进行处理,诸如Python之类的传统数字编程语言通常将数据框自动执行的记帐工作交给程序员。他们终需要进行大量工作,而且很容易出错,在所有数据处理任务中,处理缺失值和过滤异常值(或丢弃具有过多异常值或缺失值的实体)也是两个非常重要的基本功能,在某些情况下,由于测量误差,某些应严格为正的值(例如质量值)有时会变为负值,您如何处理这些事情可能会对分析结果产生重大影响。
R拥有丰富的算法来处理这种情况
体现了数百年来科学实践的精髓,尽管分析人员仍然需要某种程度的品味和良好的判断力才能选择适合数据的方法他们正在处理,缩小R-Python差距,如今,Python数据库Pandas具有许多相同的功能,但是创建了从R到Python的良好迁移路径,并让您了解了很多有关R的知识,这是学习Python的附带条件。朝另一个方向发展,对于许多实验开发,经验丰富的分析师可以使用R,然后当他们对结果感到满意并希望将算法合并到Python应用程序中以分发给用户时,可以使用。
在不离开R概念模型的情况下执行此迁移的能力非常有价值
但另一方面,使用真正通用的编程语言(如Python)将该概念模型包装在用户友好的应用程序中的能力具有多种复杂的附加功能(打印,联网,USB支持等)至关重要,我使用这种方法来创建Python应用程序,该应用程序读取一些传感器数据,以各种方式将其显示给用户。我不知道如何从R读取传感器数据,尽管可能有办法。使用Python,已经有一个模块可以满足我的需要,如果没有,可以很容易地编写一个模块作为扩展。
如果您还不了解R,我的建议是学习Python并使用RPy2访问R的功能
这样您将学习一种语言,但会获得两种语言的力量。一旦您了解了跳到纯R并不是一个大问题,但是从另一端开始,迁移路径并不是那么容易。