机器人数据分析是怎样对语言深层挖掘的方式和方法
来源:CPDA数据分析师网 / 作者:wysjfxsjqrxxff / 时间:2020-01-28
我们在进行数据分析的时候,当你拿到一段文字首先你要知道这段文字中说的是什么意思,这段文字在说些什么,那些问题是值得你去关注的、归属于哪些类别。
步对拿到的文字数据进行预处理
文字预处理与数字预处理有很大的不同,数字预处理时无非就是删除一些无关的数字,而文字预处理就是分辨出词和词性,首先我们在做词的处理时会给词进行分类,数据分析中给词分类无非就是平时经常会见到的、名词、形容词、动词、时间词等等,这一点并不难只要认真的学习很快可以掌握数据分析中这个知识点,之后在去掉一些无用的词。
哪些词属于无用的词:得、地、了这种无用的词,这种词表达不了什么意义。
在文本处理时主要的一些词汇指的是:名词、动词、形容词(会掺杂一些情感方面的词在文本里面)、副词、时间词、地点词这些词作为一段文本中提炼出一些有用的词汇。
实体识别:主要找一段文字中的名次主要针对的哪些对象,这样就要用到以名词为核心进行筛选,名词可以让你知道这里针对哪些实物或事情来进行描述。
地点词:地点词也可以反映出这段文字中所涉及的是哪些、区域来进行描述的这件事。
时间词:在一段文字中时间是一个依据,根据时间得出这些、什么时间所发生的什么事这样就可以把整个一段文字大体的事情进行大体的了解,但是这远远还不够,这些点对于机器人来说他根本不知道你在说些什么,还需要理解一篇文章中所说的更加深层次的理念和含义,还要对自然语言的论法分析层面的内容。
举个小例子:小明星期五要去足球场踢足球,这句看着非常简单对于我们来说很好理解,但是对于机器来说的话,它会怎么去理解这个词,下面我就为大家讲解一下这段话机器人是怎么来进行分析的。
机器人首先会对一句话进行分词,小明是一个(代词),明天是一个(时间词),要去做为(动词),足球场(地点名词),踢足球表面上这个词是动词但是从文法上讲这个词会作为一个(状语)。
机器在识别这段话的时候,它首先会识别出这段话的动词,这段话中的动词就是(要去)就会作为核心动词,之后在根据动词找到离它近的实施者和动词的实施结果,动词的实施者和实施结果大多都是名词,这句话的实施者就是小明。
机器人在读取这段话的次解读含义就是小明要去足球场,在加上状态就是星期五,这时机器人并不能分析出这段话的含义,但是可以根据动作来知道小明星期五要去足球场,这段话中还有个踢足球这动词,但是踢足球也是一个动词,它在根据踢足球继续往它近的词上找到实施者,这时机器人就会找到小明作为实施者,从而就会分析出小明踢足球,机器会把一段话拆分成简单理解的几句话。
1、 小明星期五要求足球场
2、 小明要去踢足球
机器虽然不知道你这段话的含义,但是现在机器知道了你所要做的几个动作,机器识别出来了这两点有什么用处。
机器知道了你要去足球场可以为你推荐足球场的信息,有哪些足球场以及路线和出行的方式信息。
机器知道小明要去踢球就可以推荐有关踢球的信息。
这样就可以通过分析一段话把一段话拆分成几段简单的语句来分析出比较商务的一些行为在里面,在进行一种策略性的推荐。
一段简单的小例子就能看出机器怎么来进行理解操作的,实际上会非常的复杂,但是目前很多已经应用到我们生活中的软件已经可以实现这样简单的功能,简单的就是我们利用手机语音功能简单说出你的需求,机器人就可以识别出你的意图就是根据这种简单的语言形态来进行数据库匹配。
这种简单的机器人语言目前也属于一个瓶颈期,如果机器人可以通过复杂的一段话就可以分析出主人的意图的话基本上机器人也可以与人进行交流。