使用 AI 进行日志解析:更快、更准确
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2021-06-09
网络安全日志无处不在地记录了系统运行时状态以及系统活动和事件的消息
它们成为系统行为的主要来源,并且在对正常系统执行中的异常进行分类时至关重要,日志通常是非结构化的文本消息,由于它们的创建速度不断提高,因此很难手动处理。日志中的原始数据是非结构化、嘈杂和不一致的;因此,一些预处理和解析是必不可少的。
使用正则表达式解析日志是可用于网络日志分析的广泛使用的方法
正则表达式 是指定如何匹配字符序列的字符序列,在一次性解析之外,您很可能会使用正则表达式来重复解析和规范化日志文件,作为分析基础设施的一部分,但是随着日志文件格式的变化,正则表达式会失败,这可能会导致日志数据的处理和评估方式失败,由于日志结构的来源、格式和时间各不相同,因此通常会出现这种情况,随着源数量的增加,自定义正则表达式解析器的数量也会增加。
NLP 的进展
为了减少为每个日志创建数百个自定义解析器的需要,现在使用自然语言处理 (NLP) 方法来自动化解析网络安全日志的任务,这些初的 NLP 技术是 N-gram 分析、距离度量和词嵌入(word2vec),这些方法试图评估原始日志数据,从中提取必要的特征(来源、时间、动作),并以可以使用常用技术分析的方式重构日志,当日志的特征未知时,使用 NLP 方法,过去几年 NLP 取得了进展,利用了比 word2vec 更复杂的神经网络词表示,双向编码器采用两个序列进行编码,一个是正常的顺序,另一个是相反的顺序,它由两个编码器组成,用于对两个序列进行编码,对于终输出,两种编码结果都被考虑,语言模型的双向训练使他们能够更深入地了解文本的上下文。
进入赛博特
虽然 在与书面人类语言相关的各种 NLP 任务中取得了的结果,但将其预训练的基础模型直接应用于网络安全日志需要额外的实验和训练以及调整输入序列的大小可以输入到 BERT 模型中,项目是一项正在进行的实验,旨在训练和优化变压器网络,以提供对异构网络安全数据日志的灵活和稳健的解析。它是 库的一部分用于将 GPU 加速带入现实世界的网络安全用例,cyBERT 和 CLX 的目标是允许网络安全人员、网络数据科学家、数字取证分析师和威胁猎人开发网络安全日志数据工作流,这些工作流不需要自定义正则表达式解析过程来将数据转化为用于评估和诊断的格式.
网络安全日志以固定顺序包含文件路径、IP 地址、端口号和十六进制值,而不是您在典型的字符串中看到的内容,这些日志输入的组合可能会导致复杂的正则表达式,这些正则表达式可能会根据来源或创建时间而变化,无需创建正则表达式解析器,因为它可以直观地确定每个日志输入,而无需考虑每个字符组合。
游戏规则改变者
它们成为系统行为的主要来源,并且在对正常系统执行中的异常进行分类时至关重要,日志通常是非结构化的文本消息,由于它们的创建速度不断提高,因此很难手动处理。日志中的原始数据是非结构化、嘈杂和不一致的;因此,一些预处理和解析是必不可少的。
使用正则表达式解析日志是可用于网络日志分析的广泛使用的方法
正则表达式 是指定如何匹配字符序列的字符序列,在一次性解析之外,您很可能会使用正则表达式来重复解析和规范化日志文件,作为分析基础设施的一部分,但是随着日志文件格式的变化,正则表达式会失败,这可能会导致日志数据的处理和评估方式失败,由于日志结构的来源、格式和时间各不相同,因此通常会出现这种情况,随着源数量的增加,自定义正则表达式解析器的数量也会增加。
NLP 的进展
为了减少为每个日志创建数百个自定义解析器的需要,现在使用自然语言处理 (NLP) 方法来自动化解析网络安全日志的任务,这些初的 NLP 技术是 N-gram 分析、距离度量和词嵌入(word2vec),这些方法试图评估原始日志数据,从中提取必要的特征(来源、时间、动作),并以可以使用常用技术分析的方式重构日志,当日志的特征未知时,使用 NLP 方法,过去几年 NLP 取得了进展,利用了比 word2vec 更复杂的神经网络词表示,双向编码器采用两个序列进行编码,一个是正常的顺序,另一个是相反的顺序,它由两个编码器组成,用于对两个序列进行编码,对于终输出,两种编码结果都被考虑,语言模型的双向训练使他们能够更深入地了解文本的上下文。
进入赛博特
虽然 在与书面人类语言相关的各种 NLP 任务中取得了的结果,但将其预训练的基础模型直接应用于网络安全日志需要额外的实验和训练以及调整输入序列的大小可以输入到 BERT 模型中,项目是一项正在进行的实验,旨在训练和优化变压器网络,以提供对异构网络安全数据日志的灵活和稳健的解析。它是 库的一部分用于将 GPU 加速带入现实世界的网络安全用例,cyBERT 和 CLX 的目标是允许网络安全人员、网络数据科学家、数字取证分析师和威胁猎人开发网络安全日志数据工作流,这些工作流不需要自定义正则表达式解析过程来将数据转化为用于评估和诊断的格式.
网络安全日志以固定顺序包含文件路径、IP 地址、端口号和十六进制值,而不是您在典型的字符串中看到的内容,这些日志输入的组合可能会导致复杂的正则表达式,这些正则表达式可能会根据来源或创建时间而变化,无需创建正则表达式解析器,因为它可以直观地确定每个日志输入,而无需考虑每个字符组合。
游戏规则改变者
具有足够的通用性,企业可以使用它并针对其自定义网络行为对其进行训练,不是在 BERT 中使用默认的英语单词语料库,而是使用自定义标记器和在大量不同网络日志的大型语料库上从头开始训练的表示法开发的,提供由 NLP 支持的工具集来执行日志解析是网络安全的关键和时间敏感领域的游戏规则改变者。