为什么我们称文本为“非结构化”?
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-12-14
非结构化的真正含义是什么?通常非结构化是指缺乏结构,如果文本真的是非结构化的,我们将无法进行对话,但是我们在讲话时会互相理解,人们在阅读书籍时就会理解。这里发生了什么?文本背后肯定有结构,有适当的拼写,标点符号,适当的句子结构和适当的思想发展,询问任何英语老师,您就会发现我们写和说的文字背后是多少结构,当然文本背后的结构非常复杂。从一年级开始在学校教授语言,父母从很小的时候就开始教孩子语言,一个人要花很长时间才能学会正确的说话方式,也要学会理解语音,而且您对语言的了解越深,它就变得越神秘和复杂,确实您可以获得博士学位,语言使之成为您一生的工作。
有非结构化的字典含义和有计算机专业人员的含义,这两个定义非常不同
文本背后确实存在结构,但是这不允许在计算机的角度将文本视为结构化的,这种结构是如此巨大,如此复杂,如此神秘以至于计算机无法理解,计算机仅能理解简单的结构,而语言简直就是苍白无力,因此在计算机看来,文本是非结构化的,更复杂的是,非结构化数据(从计算机的角度来看)包含的内容远远超过文本,非结构化数据包括各种其他数据-图像数据,声音数据,记录磁带数据和气象数据,仅举几例。
为什么计算机对结构化和非结构化的定义会有所不同?
该计算机可以处理结构化数据,而非非结构化数据,计算机希望数据整齐,整齐地堆在一起,称为记录,每个记录都有一个键和其他属性,一旦将数据组织成结构化格式,计算机就会加快速度,就像子弹穿过机枪一样,如果没有子弹则机枪卡住。
在计算机内部进行高效处理时,数据的结构和组织有很大的不同
有趣的问题之一是:如果计算机不能有效地处理非结构化数据,那么非结构化数据可以转换为结构化格式吗?您可以使用文本歧义消除来摄取原始的非结构化文本,并将非结构化文本的重要部分转换为结构化格式,同时保持非结构化数据的本质,这就像骑着自行车穿过横跨尼亚加拉大瀑布的钢丝,而杂耍的猴子飞奔而过,不是为了胆小的人。
文本歧义消除的战略价值在于,它可以将文本放入标准数据库中,从而可用于公司决策
如果您不掌握基于文本做出决策的战略重要性,请考虑一下,估计企业中80%到90%的数据是文本,但是大多数公司决策是在读取和分析公司结构化数据的10%到20%的基础上做出的,这有意义吗?
CPDA企业内训
https://www.cpda.cn/trainning/
CPDA项目数据分析师为什么要更名?
https://www.chinacpda.com/question/4504.html
海南智企数据分析师事务所
https://www.chinacpda.com/shiwusuo/14202.html
王兴海老师 高级经济师
https://www.chinacpda.com/shizi/9433.html
用数据改变人生,获得CPDA证书仅是一个开始
https://www.chinacpda.com/shouquanzhongxin/14854.html
大数据专业就业前景及就业方向如何?
https://www.chinacpda.com/wenti/11706.html
CPDA数据分析师学习方式和课程体系
https://www.chinacpda.com/xuexiarea/18089.html
数据分析师的职业进阶之路
https://www.chinacpda.com/zixun/4048.html
《大数据人才培养体系标准》正式发布!
https://www.chinacpda.com/dongtai/9669.html
CPDA数据说给你带来精彩的视频案例讲解
https://www.chinacpda.com/videocenter/
数据分析师考核
https://www.chinacpda.com/examine/
数据分析师职业规划
https://www.chinacpda.com/career/
CPDA数据分析师授权中心
https://www.chinacpda.com/train/
数据分析相关动态
https://www.chinacpda.com/data/?page=96
数据分析师为您解答更多问题
数据分析案例展示
https://www.chinacpda.com/case/
查找您周边省份授权培训中心:
https://www.chinacpda.com/train/
2020年CPDA数据分析师线上报名:
https://www.chinacpda.com/baoming.php
CPDA数据分析明星导师:
https://www.chinacpda.com/startutor/
CPDA数据分析师培训优秀学员:
https://www.chinacpda.com/student/
免费客服热线:400-050-6600
商业联合会数据分析专业委员会