如何开发数据处理作业–流管道
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-07-28
当我们的数据集不受限制或/和可变时事情变得更加复杂
消息系统目录中的新文件Web服务器日志或其他收集实时数据的系统例如IoT传感器,所有这些来源中的共同主题是,我们总是必须等待新数据,当然我们可以将数据拆分为批次按时间或数据大小并以批处理的方式处理每个拆分,但是要在所有消耗的数据集上应用某些功能并为此创建整个管道将非常困难,幸运的是有多个流引擎使我们能够轻松应对此类数据处理,我们可以在不同的引擎上运行相同的管道而无需更改任何代码,此外我们可以在批处理或流模式下使用相同的管道,而只需进行小的更改-一个管道只需正确设置输入源和样式即可-一切正常可用!就像魔术!当我将批处理作业重写为流式作业时,我会梦到这一点。
足够多的理论-是时候举一个例子并编写我们的个流代码了
我们将从卡夫卡无限资源中读取一些数据,执行一些简单的数据处理并将结果写回到卡夫卡,假设我们实时到达地图上某些对象的地理坐标(X和Y)的无限流(对于本示例,假设这些对象是汽车),并且我们只选择位于内部的对象指定区域,换句话说我们必须使用主题的文本数据,对其进行解析,按照指定的限制进行过滤,然后写回另一个主题。
分析数据并从您的数据集成工作中获取答案
日志管理解决方案在企业的分层安全框架中起着至关重要的作用-如果没有它们,企业几乎看不到其基础架构内部发生的动作和事件,这些动作和事件可能导致数据泄露或表示正在进行的安全折衷,可搜索的存储库中捕获,索引和关联实时数据,可从该存储库中生成图形,报告,警报,仪表板和可视化,它具有允许以多种方式捕获数据的API,它使用标准API直接连接到应用程序和设备,它是为满足公司IT部门外部高管对可理解且可行的数据报告需求而开发的。
客服热线:400-050-6600
商业联合会数据分析专业委员会