通过自然语言处理解决大数据的五个步骤
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-06-17
从聊天机器人和数字助理到合规性监控,BI和分析,自然语言处理(NLP)迅速成为许多新业务功能所必需的
考虑所有可以带来重要见解的非结构化和半结构化内容–查询,电子邮件通信,社交媒体,视频,客户评论,支持请求等。NLP工具和技术可帮助企业处理,分析和理解以下所有数据。
为了有效和积极地运作,但是您如何开始?应该遵循什么步骤?
我近有机会参加一些激动人心的项目,以通过使用NLP等新兴技术帮助企业利用大数据做更多的事情,我知道如果您刚开始使用NLP,可能会感到不知所措,因此我将与您分享一些实践,其中列出了五个基本步骤,您可以遵循这些五个基本步骤来确保项目成功。
步骤1:涵盖基本处理
在开始之前,重要的是要了解,在大多数情况下,具有重要信息的内容是以自然语言(例如英语,西班牙语等)写下的,并且不方便标记。因此,要从此内容中提取信息,您将需要进行某种程度的文本挖掘,文本提取或完整的自然语言处理。
自然语言处理的输入将是一个简单的Unicode字符流(通常为UTF-8),并且需要基本处理才能将该字符流转换为单词,短语和语法标记,然后可以使用它们更好地理解内容。基本处理包括语言识别,句子检测,词义化,解复合,结构提取,标记化,实体和短语提取。有各种各样的开源和商业文本分析以及NLP工具可以帮助您完成这些任务。
步骤2: 确定理解水平并评估可行性
接下来,您应该确定需要什么级别的内容理解–宏还是微观。虽然微观理解(从单个短语或句子中提取理解)通常有助于宏观理解(提供对整个文档的总体理解),但两者可能完全不同。例如,简历可以将一个人总体上识别为生物学家[宏观理解],但也可以将其识别为德语流利[微观理解]。
并且在确定理解水平的同时您还应该评估项目的可行性
因为并非所有NLP理解项目都可以在合理的成本和时间内完成。提出类似问题:精度要求是什么?您负担得起时间和精力吗?文字是短还是长?而且,是否牵扯到人类?如果您认为继续前进是可行的,那么该提取内容了。
步骤3:提取内容以进行宏观和/或微观理解
一旦决定开始您的NLP项目,您将需要对文档有更全面的了解,因此这是“宏观了解”发挥作用的时候。这对于执行以下操作很有用:
1、分类/分类/组织记录
2、聚类记录
3、提取主题
4、关键字/关键词提取
5、重复和接近重复的检测
6、语义搜索
如果您需要理解单个单词和短语,那么您将转向微观理解,以从文本中提取单个实体,事实或关系。这对于执行以下操作很有用:
1、提取首字母缩写词及其定义
2、提取关键人物,例如人员,公司,产品,位置,日期等。
请记住,必须通过对文本进行语法分析来进行微观理解–这意味着顺序和单词用法很重要。
步骤4:保持可追溯性
从多个来源获取内容,然后从该内容中提取信息可能会涉及许多步骤和大量的计算阶段。这就是为什么为所有输出提供可追溯性至关重要的原因。然后,您可以追溯整个系统,以准确识别该信息的来源,从而支持质量分析和验证目的。
您将需要注意以下内容:
1、提供内容的原始网页
2、提取的文本的所有块的开始和结束字符位置
3、所有实体的开始和结束字符位置,以及实体ID
4、所有内容应用/使用的清洗或归一化功能
步骤5:整合人工意见
如果没有人工干预,对内容的理解将永远无法完成。您需要一个人来发现新的模式,以及创建,清理或选择已知实体的列表,仅举几例。
1、例如,您可能想利用众包来扩展人工协助的流程,还想办法将人工审核纳入标准业务流程的一部分(即表格填写等)。
2、这些过程中有许多是令人难以理解的重复。在大型系统中,您将需要考虑人为因素并将其构建到您的NLP系统体系结构中。
在流程的每个步骤中持续进行数据质量分析是获得对自然语言内容的理解的关键
整个过程看似令人生畏,但是使用这些步骤和技术作为指导可以帮助您创建一个有效的,健壮的系统,用于获取,收集非结构化大数据并将其转变为实用的,有见地的知识,从而提高您的用例。