人工智能、自动化和从数据中获取更多价值的
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2021-07-20
探索当前数据库管理趋势
如果有一个特征在现在的数据场景中独占鳌头,那就是种类繁多的可用系统,今天每种类型的功能都有一个数据库,这创造了选择和机会,但也需要有关用例的数据库环境的知识,DataOps、MLOps、机器人流程自动化和低代码/无代码开发是一些新方法,他分享了他对帮助组织从中获取价值的顶级技术趋势的看法,他们的数据。人们对 BI 和数据分析方面的敏捷有了新的认识,因为在过去 15 个月的过程中,许多公司发现他们所做的根本不够快,DataOps 建立在 DevOps 世界中出现的实践的基础上,并且严重依赖自动化和数据治理,您必须能够及时有效地使用数据,以便您能够适应变化。
除了 AI 和自动化可以增加价值的讨论之外
NVIDIA 还分享了现在如何使用自然语言处理方法来自动化解析网络安全日志的任务,所谓的即将到来的“自动化海啸”的影响进行了权衡,随着公司越来越多地寻求自动化来解决劳动力可用性、盈利能力、效率和速度等相互交织的问题,除了艺术和体育之外,几乎没有什么是不会自动化的,在从人类的角度看待自动化和创新讲述了自己作为消费者购买高端“智能”烤箱的经验,以及实现关键的客户服务一英里的问题,互联产品需要跨所有渠道互联,与此同时考虑了实现 DevOps 承诺的生产力所必需的条件,并指出文化转变是难实现的重组类型,还有许多其他文章研究了使用新方法和实践来改进数据分析、安全性和治理,强调了为整个组织提供数据支持的挑战,着眼于人工智能治理,强调了通过设计嵌入安全性以保护企业免受网络威胁的重要性。
使用 AI 进行日志解析:更快、更准确
网络安全日志无处不在地记录了系统运行时状态以及系统活动和事件的消息,它们成为系统行为的主要来源,并且在对正常系统执行中的异常进行分类时至关重要,日志通常是非结构化的文本消息,由于它们的创建速度不断提高,因此很难手动处理。日志中的原始数据是非结构化、嘈杂和不一致的,因此一些预处理和解析是必不可少的,使用正则表达式解析日志是可用于网络日志分析的广泛使用的方法,正则表达式是指定如何匹配字符序列的字符序列,在一次性解析之外,您很可能会使用正则表达式来重复解析和规范化日志文件,作为分析基础设施的一部分,但是随着日志文件格式的变化,正则表达式会失败,这可能会导致日志数据的处理和评估方式失败,由于日志结构的来源、格式和时间各不相同,因此通常会出现这种情况,随着源数量的增加,自定义正则表达式解析器的数量也会增加。
NLP 的进展
为了减少为每个日志创建数百个自定义解析器的需要,现在使用自然语言处理 (NLP) 方法来自动化解析网络安全日志的任务。这些初的 NLP 技术是 N-gram 分析、距离测量(Jaccard、Levenshtein)和词嵌入(word2vec)。这些方法试图评估原始日志数据,从中提取必要的特征(来源、时间、动作),并以可以使用常用技术分析的方式重构日志。当日志的特征未知时,使用 NLP 方法,过去几年 NLP 取得了进展,利用了比 word2vec 更复杂的神经网络词表示。谷歌研究人员推出的双向编码器表示 就是这样一种创新。双向编码器采用两个序列进行编码,一个是正常的顺序,另一个是相反的顺序,它由两个编码器组成,用于对两个序列进行编码。对于终输出,两种编码结果都被考虑。语言模型的双向训练使他们能够更深入地了解文本的上下文。
进入赛博特
虽然在与书面人类语言相关的各种任务中取得了的结果,但将其预训练的基础模型直接应用于网络安全日志需要额外的实验和训练以及调整输入序列的大小可以输入到 BERT 模型中,项目是一项正在进行的实验,旨在训练和优化变压器网络,以提供对异构网络安全数据日志的灵活和稳健的解析,用于将 RAPIDS 的 GPU 加速带入现实世界的网络安全用例,cyBERT 和 CLX 的目标是允许网络安全人员、网络数据科学家、数字取证分析师和威胁猎人开发网络安全日志数据工作流,这些工作流不需要自定义正则表达式解析过程来将数据转化为用于评估和诊断的格式.
网络安全日志以固定顺序包含文件路径
IP 地址、端口号和十六进制值,而不是您在典型的字符串中看到的内容,这些日志输入的组合可能会导致复杂的正则表达式,这些正则表达式可能会根据来源或创建时间而变化,无需创建正则表达式解析器,因为它可以直观地确定每个日志输入,而无需考虑每个字符组合。
游戏规则改变者
如果有一个特征在现在的数据场景中独占鳌头,那就是种类繁多的可用系统,今天每种类型的功能都有一个数据库,这创造了选择和机会,但也需要有关用例的数据库环境的知识,DataOps、MLOps、机器人流程自动化和低代码/无代码开发是一些新方法,他分享了他对帮助组织从中获取价值的顶级技术趋势的看法,他们的数据。人们对 BI 和数据分析方面的敏捷有了新的认识,因为在过去 15 个月的过程中,许多公司发现他们所做的根本不够快,DataOps 建立在 DevOps 世界中出现的实践的基础上,并且严重依赖自动化和数据治理,您必须能够及时有效地使用数据,以便您能够适应变化。
除了 AI 和自动化可以增加价值的讨论之外
NVIDIA 还分享了现在如何使用自然语言处理方法来自动化解析网络安全日志的任务,所谓的即将到来的“自动化海啸”的影响进行了权衡,随着公司越来越多地寻求自动化来解决劳动力可用性、盈利能力、效率和速度等相互交织的问题,除了艺术和体育之外,几乎没有什么是不会自动化的,在从人类的角度看待自动化和创新讲述了自己作为消费者购买高端“智能”烤箱的经验,以及实现关键的客户服务一英里的问题,互联产品需要跨所有渠道互联,与此同时考虑了实现 DevOps 承诺的生产力所必需的条件,并指出文化转变是难实现的重组类型,还有许多其他文章研究了使用新方法和实践来改进数据分析、安全性和治理,强调了为整个组织提供数据支持的挑战,着眼于人工智能治理,强调了通过设计嵌入安全性以保护企业免受网络威胁的重要性。
使用 AI 进行日志解析:更快、更准确
网络安全日志无处不在地记录了系统运行时状态以及系统活动和事件的消息,它们成为系统行为的主要来源,并且在对正常系统执行中的异常进行分类时至关重要,日志通常是非结构化的文本消息,由于它们的创建速度不断提高,因此很难手动处理。日志中的原始数据是非结构化、嘈杂和不一致的,因此一些预处理和解析是必不可少的,使用正则表达式解析日志是可用于网络日志分析的广泛使用的方法,正则表达式是指定如何匹配字符序列的字符序列,在一次性解析之外,您很可能会使用正则表达式来重复解析和规范化日志文件,作为分析基础设施的一部分,但是随着日志文件格式的变化,正则表达式会失败,这可能会导致日志数据的处理和评估方式失败,由于日志结构的来源、格式和时间各不相同,因此通常会出现这种情况,随着源数量的增加,自定义正则表达式解析器的数量也会增加。
NLP 的进展
为了减少为每个日志创建数百个自定义解析器的需要,现在使用自然语言处理 (NLP) 方法来自动化解析网络安全日志的任务。这些初的 NLP 技术是 N-gram 分析、距离测量(Jaccard、Levenshtein)和词嵌入(word2vec)。这些方法试图评估原始日志数据,从中提取必要的特征(来源、时间、动作),并以可以使用常用技术分析的方式重构日志。当日志的特征未知时,使用 NLP 方法,过去几年 NLP 取得了进展,利用了比 word2vec 更复杂的神经网络词表示。谷歌研究人员推出的双向编码器表示 就是这样一种创新。双向编码器采用两个序列进行编码,一个是正常的顺序,另一个是相反的顺序,它由两个编码器组成,用于对两个序列进行编码。对于终输出,两种编码结果都被考虑。语言模型的双向训练使他们能够更深入地了解文本的上下文。
进入赛博特
虽然在与书面人类语言相关的各种任务中取得了的结果,但将其预训练的基础模型直接应用于网络安全日志需要额外的实验和训练以及调整输入序列的大小可以输入到 BERT 模型中,项目是一项正在进行的实验,旨在训练和优化变压器网络,以提供对异构网络安全数据日志的灵活和稳健的解析,用于将 RAPIDS 的 GPU 加速带入现实世界的网络安全用例,cyBERT 和 CLX 的目标是允许网络安全人员、网络数据科学家、数字取证分析师和威胁猎人开发网络安全日志数据工作流,这些工作流不需要自定义正则表达式解析过程来将数据转化为用于评估和诊断的格式.
网络安全日志以固定顺序包含文件路径
IP 地址、端口号和十六进制值,而不是您在典型的字符串中看到的内容,这些日志输入的组合可能会导致复杂的正则表达式,这些正则表达式可能会根据来源或创建时间而变化,无需创建正则表达式解析器,因为它可以直观地确定每个日志输入,而无需考虑每个字符组合。
游戏规则改变者
具有足够的通用性,组织可以接受它并对其自定义网络行为进行培训,不是在 BERT 中使用默认的英语单词语料库,而是使用自定义标记器和在大量不同网络日志的大型语料库上从头开始训练的表示法开发的,提供由 NLP 支持的工具集来执行日志解析是网络安全的关键和时间敏感领域的游戏规则改变者。