400 050 6600
数据分析师

手机号

验证码

30天自动登录
当前位置:首页 - Q&A问答

Q&AQ&A问答

SQL如何帮助推动流数据向前发展?

来源:CPDA数据分析师网 / 作者:数据君 / 时间:2021-02-02

实时数据的主要驱动力
有两个主要的流或实时数据驱动程序,个只是我们都在游刃有余的数据洪流,数据量的爆炸式增长意味着您每分钟,每小时和每天都在生成更多数据,传统系统根本无法跟上,它们在一小时内可以生成大量数据,因此需要花费一个多小时来加载,并且永远落后于其他时间,经典的实时定义要求足够快地处理一项任务,以便在下一个任务到来时准备工作,第二点是该行业在过去的几年中已经为竞争优势建立了数据处理的基础,现在企业拥有数据仓库,运行分析并从数据中获取价值已成为标准做法,结果仅凭历史数据进行数据驱动已远远不够,借助实时技术您可以更频繁地针对有价值的数据提出更棘手的问题,它正迅速成为数据空间中的新竞争优势。

分布式计算成为公民
围绕数据库和数据仓库基础结构编写的大多数代码都假定系统在单个节点上运行,ETL工具就是一个很好的例子-企业中的大多数批处理工具可以使用多个核心,但不能使用多个节点,Spark是一种新的编程范例,将分布式计算视为一等公民,而不仅仅是一等公民,因为分布式处理实际上是现代工作负载的要求,大型公司希望每秒通过AWS上的集群流式传输超过1 GB,但是企业无法通过任何单节点瓶颈来做到这一点,因此必须分发管道中的每一段代码。

Spark及其丰富的库和应用程序生态系统非常适合实时运行并具有分布式数据库
但是将数据从Spark导入到像SQL这样的数据库中需要一点帮助,这就是为什么SQL发布了以便使将数据从Spark传输到SQL更加容易的原因其他数据库也有自己的连接Spark的方式),用户希望以与数据仓库相同的灵活性来处理流数据,将数据加载到像SQL这样的数据存储中,使他们可以灵活地对实时数据和历史数据进行实时查询和生产查询,流数据的未来。

这就是大数据的近期前景
从与建立实时数据管道的公司合作中学到了什么教训,列举了两个原则:数据管道必须一直分配,这不仅是因为经常提到的“高可用性”原因还因为有太多的数据流,因此没有单个磁盘/ CPU /网络管道足以处理现代数据流,用户希望能够临时处理数据并运行灵活的SQL查询,实时流处理旨在为企业提供与数据仓库相同的灵活性,但可以处理实时数据和实时查询,与流数据的当前状态一样强大,建议它只会变得更好,正如他所预言的那样,接下来是超出SQL表示能力的计算,将在数据库中即时完成,并由Spark启用, 这不是十年后我们会看到的东西,而是这些新的计算模式将迅速成为标准BI工具链的一部分。

为什么您的数据分析从一开始就注定要失败
测量错误将破坏您的数据科学团队的努力,并加剧质量问题,了解如何消除或减少这些错误,我从客户端数据中发现的结果并不感到惊讶,但是找到明显错误的数据异常仍然很有趣,我正在与一家大型石油和天然气公司合作,该公司对测量管道的厚度感兴趣,他们雇用专门从事该领域的承包商进行定期测量,然后他们的检查人员分析数据,以查看是否需要对变细的管道进行任何处理,不幸的是初步的时间分析看起来有点可疑。尽管承包商在同一根管子上的同一位置进行测量,但是对数据的字面解释可能表明某些管子实际上会随着时间的推移而增加厚度!不太可能,更可能是测量错误。

测量误差是过程可变性的数量,可有助于收集和测量数据
想象一下,有两位计时员捕获了一个运行40码冲刺的职业足球运动员的周期时间(以千分之一秒为单位),他们会在同一时间吗?可能不会,但是只有一个真实的时间对吗?那么您将使用什么值作为记录的循环时间?由于数据的收集方式,无论是哪种方式都将包含一定程度的错误,作为数据分析师和数据科学使用者,这是一个重要的概念,因为任何算法的价值都取决于其输入的质量,而且尽管每个人都对这个基本原理感到满意,但经常被忽视的是用于收集数据的系统的可靠性,测量系统分析是一种结构化的数学方法,用于确定测量系统导致多少数据质量问题,汽车行业建立了一个关于测量误差的广泛接受的经验法则,是10%以下,但不应超过30%。

假设您正在分析上述足球运动员的整体表现
在过去的100个冲刺中,您注意到平均时间为4.523秒,标准差为0.132秒-不错,总的变化不仅仅是由测量误差引起的-例如,有些日子他可能感觉不佳,但是这种可变性与计时员可能无法记录真实的循环时间有关,因此他们会尽力而为,但是我们不希望它们占标准偏差的0.132秒的30%以上。

减少或消除测量误差的技术
如果您的测量系统造成的误差超过总误差的30%,则必须采取一些措施来改善它,而且即使您的比例低于30%,甚至低于10%,目标也应该是完全消除测量误差,统计人员很难发表这样的评论,因为您无法从统计学上消除测量误差,但是请不要以此为借口,您可以并且应该将零设为您的目标,有效的策略是使人摆脱困境,我讨厌用手指指着我们自己的物种,但是如果您想进行精确的测量,那么人类就是错误的工具,在我们的虚拟足球运动员示例和非常真实的管道测量示例中,人是我们测量问题的根源-您无需进行根本原因分析就可以找出问题所在,实际上正是出于这个原因,全国橄榄球联盟(NFL)在十年前已改用电子计时。

使用计算机和其他自动/电子方式记录测量值是显而易见的
但是并不是很明显的是,即使是计算机也不能保证真实的测量值,当我与一家大型金融机构合作处理网络安全时,在使用各种(非人类)数据收集点进行时间序列分析时,我们遇到了一个大问题,在某些情况下,我们发现一笔交易在启动之前就已经被批准了(它的幽默永不消失),当然这不是发生的事情,不同服务器之间存在时间同步问题,尽管大多数电子测量系统错误都不会引起注意,因为测量来自的采集源,但像这样的测量错误已明确地浮出水面,您应该设计一种从至少两个来源收集相同度量的方法。

确定一个消除测量误差的过程
在变异源分析中增强您的技能,这些是专门为隔离变异的性质和大小而创建的专门分析,找出造成测量误差的因素后,请采取特定措施消除该误差,如果过多的文件I / O损害了Web日志中报告的时间的完整性,则将Web服务器移至不活跃的计算机上,在这个过程中比解毒剂还有价值,如果您不查找文件I / O,则不会发现过多的文件I / O;如果不进行阴影测量,您将不会意识到服务器的计时错了。

您无法管理无法衡量的内容,没有合适的工具也无法衡量

所有数据分析都取决于其基础数据,必须以某种方式收集这些数据,如果该收集过程抛出了不良数据,那么分析从一开始就注定了,在建立您喜欢的数据算法之前,请花一些时间分析您的数据收集过程和测量系统,远离人类数据收集系统;确保同一数据点有多个读数,并确定消除测量误差的过程。

免费客服热线:400-050-6600

商业联合会数据分析专业委员会




Prev article

为什么在后COVID服务世界中AI需要人性化?

Next article

为什么下一个大型数据库决策可能是图表

数据分析师

报名咨询

数据分析师

报名缴费

数据分析师

客服中心

数据分析师

课程服务

数据分析师

认证服务