文本分析和自然语言处理的功能如何从您的非结构化文本数据中提取可行的见解?
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-11-13
文字分析基础
文本分析(也称为文本挖掘或文本数据挖掘)是从非结构化文本中提取信息并发现可操作见解的过程,文本分析使数据科学家和分析人员可以评估内容,以确定其与特定主题的相关性,研究人员通过利用计算机科学家开发的先进软件来挖掘和分析文本。
文本分析的示例业务用例包括:
1、客户360。分析客户的电子邮件,调查,呼叫中心日志以及社交媒体流(例如博客,推文,论坛帖子和新闻提要),以更好地了解客户。
2、保修分析。了解经销商服务专业人员的文字,保修索赔,订单和类似来源。
3、产品或服务评论。对客户对产品或服务的评论进行分析有助于企业了解用户所谈论的用户情感或常见问题。
招聘关键字分析(将个人资料与职位描述进行比较)有助于筛选合适的候选人文字分析过程
根据业务需求,数据类型和数据源,可以采用多种方式实施文本分析。它们共有四个关键步骤。
步骤1:数据采集
文本分析从收集要分析的文本开始-定义,选择,获取和存储原始数据。这些数据可以包括文本文档,网页(博客,新闻等)和在线评论,以及其他来源。数据源可以在组织内部或外部。
步骤2:资料准备
一旦获取数据,企业必须准备进行分析。数据必须采用正确的形式才能与将用于数据分析的机器学习模型一起使用。数据准备分为四个阶段:
文本清除会删除所有不必要或不需要的信息,例如网页中的广告。文本数据经过重组,以确保可以在系统中以相同的方式读取数据并提高数据完整性(也称为“文本规范化”)。
令牌化将字符串序列分解为称为令牌的片段(例如单词,关键字,短语,符号和其他元素)。语义上有意义的片段(例如单词)将用于分析。
词性标记(也称为“ PoS”)将语法类别分配给标识的标记。熟悉的语法类别包括名词,动词,形容词和副词。
解析基于令牌和PoS模型从文本创建语法结构。解析算法考虑文本的语法以进行语法结构化。具有相同含义但语法结构不同的句子将导致不同的句法结构。
步骤3:资料分析
数据分析是分析准备好的文本数据的过程。机器学习模型可用于分析大量数据,其结果通常以JSON格式或CSV / Excel文件的API形式产生,有很多方法可以分析数据,两种流行的方法是文本提取和文本标记,简而言之,文本提取是从非结构化文本中识别结构化信息的过程,文本标记是根据文本数据的内容和相关性为文本数据分配标记的过程。
词袋方法是容易理解的方法,但它已过时且已过时
此方法仅计算文本内容中的单词数,而与位置和上下文无关,这种技术的缺点是它无法提供一种从单词中理解上下文的方法-单词数较高的内容会获得较高的分数(错误地是更相关),单词在神经网络中彼此之间的距离越近,它们之间的关系越强,这种神经网络使算法可以更好地理解单词的上下文,因此数据科学家可以更好地分析内容相关性。
步骤4:数据可视化
可视化是将分析转换为可操作的见解的过程,以图表,表格和其他易于理解的表示形式表示数据。组织可以使用各种商业和开源可视化工具。
自然语言处理的作用
NLP是文本分析的组成部分。大多数高级文本分析平台和产品都使用NLP算法进行语言(语言驱动)分析,以帮助机器读取文本。NLP分析单词的相关性,包括即使表达方式不同(例如幽默与幽默),也应视为等同的相关单词。这是上述步骤2和3背后的主力军,NLP的一种流行应用是为搜索引擎识别相关的优质内容。例如搜索引擎以多种方式使用NLP,其中突出的是在搜索引擎的组织和分类中。
很久以前,仅通过将关键字填充到Web内容中,网站管理员就可以在搜索引擎搜索结果中获得更高的排名,因此搜索引擎修改了其搜索引擎如何使用多种算法和NLP处理内容。NLP可帮助搜索引擎识别“垃圾邮件”内容并对其进行分类搜索引擎可能会对此内容取消索引,对其进行处罚,或者只是使其排名比其他内容低得多。
文本分析(也称为文本挖掘或文本数据挖掘)是从非结构化文本中提取信息并发现可操作见解的过程,文本分析使数据科学家和分析人员可以评估内容,以确定其与特定主题的相关性,研究人员通过利用计算机科学家开发的先进软件来挖掘和分析文本。
文本分析的示例业务用例包括:
1、客户360。分析客户的电子邮件,调查,呼叫中心日志以及社交媒体流(例如博客,推文,论坛帖子和新闻提要),以更好地了解客户。
2、保修分析。了解经销商服务专业人员的文字,保修索赔,订单和类似来源。
3、产品或服务评论。对客户对产品或服务的评论进行分析有助于企业了解用户所谈论的用户情感或常见问题。
招聘关键字分析(将个人资料与职位描述进行比较)有助于筛选合适的候选人文字分析过程
根据业务需求,数据类型和数据源,可以采用多种方式实施文本分析。它们共有四个关键步骤。
步骤1:数据采集
文本分析从收集要分析的文本开始-定义,选择,获取和存储原始数据。这些数据可以包括文本文档,网页(博客,新闻等)和在线评论,以及其他来源。数据源可以在组织内部或外部。
步骤2:资料准备
一旦获取数据,企业必须准备进行分析。数据必须采用正确的形式才能与将用于数据分析的机器学习模型一起使用。数据准备分为四个阶段:
文本清除会删除所有不必要或不需要的信息,例如网页中的广告。文本数据经过重组,以确保可以在系统中以相同的方式读取数据并提高数据完整性(也称为“文本规范化”)。
令牌化将字符串序列分解为称为令牌的片段(例如单词,关键字,短语,符号和其他元素)。语义上有意义的片段(例如单词)将用于分析。
词性标记(也称为“ PoS”)将语法类别分配给标识的标记。熟悉的语法类别包括名词,动词,形容词和副词。
解析基于令牌和PoS模型从文本创建语法结构。解析算法考虑文本的语法以进行语法结构化。具有相同含义但语法结构不同的句子将导致不同的句法结构。
步骤3:资料分析
数据分析是分析准备好的文本数据的过程。机器学习模型可用于分析大量数据,其结果通常以JSON格式或CSV / Excel文件的API形式产生,有很多方法可以分析数据,两种流行的方法是文本提取和文本标记,简而言之,文本提取是从非结构化文本中识别结构化信息的过程,文本标记是根据文本数据的内容和相关性为文本数据分配标记的过程。
词袋方法是容易理解的方法,但它已过时且已过时
此方法仅计算文本内容中的单词数,而与位置和上下文无关,这种技术的缺点是它无法提供一种从单词中理解上下文的方法-单词数较高的内容会获得较高的分数(错误地是更相关),单词在神经网络中彼此之间的距离越近,它们之间的关系越强,这种神经网络使算法可以更好地理解单词的上下文,因此数据科学家可以更好地分析内容相关性。
步骤4:数据可视化
可视化是将分析转换为可操作的见解的过程,以图表,表格和其他易于理解的表示形式表示数据。组织可以使用各种商业和开源可视化工具。
自然语言处理的作用
NLP是文本分析的组成部分。大多数高级文本分析平台和产品都使用NLP算法进行语言(语言驱动)分析,以帮助机器读取文本。NLP分析单词的相关性,包括即使表达方式不同(例如幽默与幽默),也应视为等同的相关单词。这是上述步骤2和3背后的主力军,NLP的一种流行应用是为搜索引擎识别相关的优质内容。例如搜索引擎以多种方式使用NLP,其中突出的是在搜索引擎的组织和分类中。
很久以前,仅通过将关键字填充到Web内容中,网站管理员就可以在搜索引擎搜索结果中获得更高的排名,因此搜索引擎修改了其搜索引擎如何使用多种算法和NLP处理内容。NLP可帮助搜索引擎识别“垃圾邮件”内容并对其进行分类搜索引擎可能会对此内容取消索引,对其进行处罚,或者只是使其排名比其他内容低得多。
NLP还用于垃圾邮件过滤器。垃圾邮件发送者会尽力逃避此类过滤器,方法是更改周围的单词,故意拼写错误的单词或使用同义词。电子邮件垃圾邮件过滤器使用多种因素来识别和阻止垃圾邮件,网络钓鱼和恶意内容。例如过滤器结合了机器学习和NLP来执行“情感分析”。如果确定内容可能是垃圾邮件,则将内容发送到用户的垃圾文件夹。对于某些内容删除该邮件。
商业联合会数据分析专业委员会