数据分析师通过WEB采集数据的优缺点?
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-07-16
作为一个大数据分析初学者,首先我们学习数据分析要知道数据分析所用到的工具有几种;CPDA数据分析师培训课程中会详细为学员介绍每种数据分析软件的用法,今天我们先来了解一下Python中一个为基础而又经常会遇到的问题,WEB数据采集,现在大多的数据分析师都会从WEB中采集自己所需要的数据,虽然WEB数据采集不能代表整个行业的数据走势,也是一个不可或缺的一部分。
作为一个数据分析新学员来说要知道Python是什么?
至于Python的介绍这里也不详细的阐述,我相信很多学员已经对Python有一定的了解,这里就说说Python的一些实用的编辑器,我们利用Python写算法需要在什么工具中进行,Python对于数据分析学员来说并不陌生,但是选择编辑器就成为了大多新学员的难处,其实编辑器只不过是我们利用的工具,那种工具好使适合自己就可以选择那种,今天我们为广大学员列出几款市面上比较常见且好用的编辑器供大家实验,终选择出来一个适合自己的编辑器。
1、Sublime Text这是一个轻量级的代码编辑器,跨平台,支持几十种编程语言,包括Python,Java,C/C++等,小巧灵活,运行轻快,支持代码高亮、自动补全、语法提示,插件扩展丰富,是一个很不错的代码编辑器,配置相关文件后,可直接运行python程序:
2、VS Code这是微软开发的一个跨平台的代码编辑器,支持常见的编程语言开发,插件拓展丰富,不仅智能补全、语法检查、代码高亮,还支持git功能,运行流畅,是一个很不错的代码编辑器,安装相关插件后,可直接运行python程序:
3、Atom这是github专门为程序员开发的一个代码编辑器,也是款平台的,界面简洁直观,使用起来非常方便,自动补全、代码高亮、语法提示,启动运行速度较快,对于初学者来说,是一个很不错的代码编辑器:
4、PyCharm这是一个专门用于Python开发的IDE,常见的代码补全、智能提示、语法检查,这个软件都支持,除此之外,还集成了版本控制、单元测试、git功能,可以快速创建Django,Flask等Python Web框架,使用起来非常不错,在开发大型项目中经常会用到,的缺点就是,启动起来有些卡,还不是免费的,不过可以下载社区免费版的:
以上这4款编辑器都是目前做Python开发比较常用的编辑器,有了这几款软件开启您的程序开发的旅程吧。
当我们找到了自己的工具后,就要拿出来亮亮相了,但是在实操之前我还要唠叨几句
数据采集目前分为几种采集方向
1、 APP采集
对于APP采集常用的方式就是通过集成SDK,进行埋点采集,对于这种方式,目前分为有无埋点采集,可视化埋点采集,手工埋点采集大类,分别针对于:日志的全量收集,日志的可编辑收集,和自定义埋点收集。
2、 web端采集
在这里需要细分一下目前用户访问的平台,根据目前以及短期内技术发展,可以分为三种APP|PC|WAP,其中PC/WAP可以算一种,都是传统web交互方式
PC/WEB上实现一般有三种:
1.web service记录
2.js嵌入收集
3.包嗅探器
Web日志采集
优点:
1、 比较容易获取数据源
2、方便对历史数据再处理
3、 可以记录搜索引擎爬虫的访问记录
4、 记录文件下载状况
缺点:
1、 无法记录缓存、代理服务器访问
2、 无法捕获自定义的业务信息
3、 对访问者的定位过于模糊
4、 对跨域访问的监测比较麻烦
JavaScript标记
优点:
1、数据收集灵活,可定制性强
2、可以记录缓存、代理服务器访问
3、对访问者行动追踪更为准确
缺点:
1、用户端的JS设置会影响数据收集
2、记录下载和重定向数据比较困难
3、会增加网站的JS脚本负荷
包嗅探器
优点:
1、对跨域访问的监测比较方便
2、取得实时数据比较方便
缺点:
1、初期导入费用较高
2、无法记录缓存、代理服务器访问
3、对用户数据隐私有安全隐患