通过自然语言处理解决大数据的五个步骤

当前位置：首页 - 前沿动态

NEWS前沿动态

通过自然语言处理解决大数据的五个步骤

来源：CPDA数据分析师网 / 作者：数据君 / 时间：2020-06-17

从聊天机器人和数字助理到合规性监控，BI和分析，自然语言处理（NLP）迅速成为许多新业务功能所必需的

考虑所有可以带来重要见解的非结构化和半结构化内容–查询，电子邮件通信，社交媒体，视频，客户评论，支持请求等。NLP工具和技术可帮助企业处理，分析和理解以下所有数据。

为了有效和积极地运作，但是您如何开始？应该遵循什么步骤？

我近有机会参加一些激动人心的项目，以通过使用NLP等新兴技术帮助企业利用大数据做更多的事情，我知道如果您刚开始使用NLP，可能会感到不知所措，因此我将与您分享一些实践，其中列出了五个基本步骤，您可以遵循这些五个基本步骤来确保项目成功。

步骤1：涵盖基本处理

在开始之前，重要的是要了解，在大多数情况下，具有重要信息的内容是以自然语言（例如英语，西班牙语等）写下的，并且不方便标记。因此，要从此内容中提取信息，您将需要进行某种程度的文本挖掘，文本提取或完整的自然语言处理。

自然语言处理的输入将是一个简单的Unicode字符流（通常为UTF-8），并且需要基本处理才能将该字符流转换为单词，短语和语法标记，然后可以使用它们更好地理解内容。基本处理包括语言识别，句子检测，词义化，解复合，结构提取，标记化，实体和短语提取。有各种各样的开源和商业文本分析以及NLP工具可以帮助您完成这些任务。

步骤2：确定理解水平并评估可行性

接下来，您应该确定需要什么级别的内容理解–宏还是微观。虽然微观理解（从单个短语或句子中提取理解）通常有助于宏观理解（提供对整个文档的总体理解），但两者可能完全不同。例如，简历可以将一个人总体上识别为生物学家[宏观理解]，但也可以将其识别为德语流利[微观理解]。

并且在确定理解水平的同时您还应该评估项目的可行性

因为并非所有NLP理解项目都可以在合理的成本和时间内完成。提出类似问题：精度要求是什么？您负担得起时间和精力吗？文字是短还是长？而且，是否牵扯到人类？如果您认为继续前进是可行的，那么该提取内容了。

步骤3：提取内容以进行宏观和/或微观理解

一旦决定开始您的NLP项目，您将需要对文档有更全面的了解，因此这是“宏观了解”发挥作用的时候。这对于执行以下操作很有用：

1、分类/分类/组织记录

2、聚类记录

3、提取主题

4、关键字/关键词提取

5、重复和接近重复的检测

6、语义搜索