数据分析师怎样从文件读取数据
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-03-13
在数据分析中我们从读取文件的数据开始:
二进制文件或文本文件。文本文件当然是更好的选择,因为它们比二进制文件更具可读性。但是,一旦有了结构模板,二进制文件通常会更紧凑,更直接和更快地读取。
什么叫做文件读取器节点
在数据分析中存储相对少量数据的常见方法仍然是文本文件。在文本文件中,到目前为止,常见的格式是CSV(逗号分隔版本)格式。CSV缩写词中的“逗号”只是分隔文件中数据的可能字符之一。分号,冒号,点,制表符和许多其他符号同样可以接受。
处理文本文件时,还需要处理编码,可能的不规则结构,缺少值,包含逗号的完整字符串,因此通常嵌入引号,换行等中……对文件结构进行更严格的解释当然可以阅读速度更快。但是,有时您需要对文件结构进行更灵活的描述才能获得结果,即使它需要更长的配置时间。
通过表格读取器节点
我们的二进制文件以表格格式保存,其中包括原始数据表中的列标题以及其他有关编码,逗号和引号的可能设置。
数据分析中这意味着,一方面,终文件针对速度和大小进行了优化,并且读取器节点不需要任何关于文件结构的设置,但另一方面,它可能无法移植到其他平台。
数据分析中对Excel Reader节点
在数据分析中Excel Reader节点非常的重要,我们可以利用它做很多的事情!
每个数据分析项目都涉及至少一个Excel文件中的数据。因此,如果要继续执行大多数项目,则需要知道如何读取这些文件。这是解释如何在读取Excel文件。
数据分析中路径和相对路径://协议
在读取器和写入器节点中,可以指定文件的完整路径,也可以使用相对路径。实际上,文件路径可以相对于工作空间甚至工作流程文件夹来表达。
在完整路径上选择相对路径的好处包括更好的可移植性和结构概述。
数据分析师如果使用相对路径,则可以将工作流从一个位置移动到另一位置,并且只要保留相同的数据到工作流结构,该工作流也将在新位置成功运行。
此外,如果数据分析师的数据文件在“资源管理器”面板中可见,则可以通过简单的拖放操作更好地概述工作流和数据,并可以更轻松地创建数据访问节点。