400 050 6600
数据分析师

手机号

验证码

30天自动登录
当前位置:首页 - Q&A问答

Q&AQ&A问答

以数据为中心的范例的原理都有哪些?

来源:CPDA数据分析师网 / 作者:数据君 / 时间:2021-05-18

1.基本原则的必要性
以数据为中心的范式的展开描述了以应用程序为中心的范式,即将信息系统视为一组功能的习惯,而这些功能恰好需要数据结构的支持,几十年来各种以数据为中心的实践都试图弥补这种方法的缺点,今天一个新的数据为中心的运动表达在所述 数据-中心的 宣言和所述数据学说更全面挑战应用为中心的范例比过去,以数据为中心的运动具有新的优势:它可以专注于意义和本体的可能性,这些本体使语义与结构和技术脱节,然而它仍然面临着根深蒂固的思维方式的逆风,大多数信息系统从业者都没有注意到或质疑这种思维方式,而且仍然需要解决数据建模理论缺乏坚实基础的问题,这些基础是过去以数据为中心的实践的失败。

正如以数据为中心的宣言所指出的那样
改变以应用程序为中心的范式的主要障碍不是技术上的,而是精神上和惯性上的,一些精神障碍来自该范例的主导地位,而另一些则来自以数据为中心的方法的历史,大多数信息系统从业人员(包括许多主要使用数据甚至数据模型工作的人员)都已接受了培训,并在整个职业生涯中沉浸于以应用程序为中心的范式中,首先关注功能已成为第二天性,这种在社会上得到加强的观察方式使从业人员很难学会以数据为中心的工作方式,同时早期的以数据为中心的做法还存在一些困扰,提倡新的做法可能会激起几十年前以前以数据为中心的努力失败的自动响应。

解决方案是声明并开发新的范例
以应用程序为中心的范例已经破产,必须予以替换,但是用一种范式替代另一种范式需要明确阐明的原则,这些原则将新的与旧的区别开来,这些原则必须封装并证明以信息为中心的查看和设计信息系统的方式,它们必须突出以应用程序为中心的方法的局限性,它们必须代表一个共同的理解标准,即足以团结目前声称以数据为中心的不同职位的人,而吸引到目前为止还没有的人,他们必须为设计可组织整个企业数据的核心语义模型的实际工作提供方法论支持。

这些原则必须在从数据建模历史继承的未解决问题上建立共识
可以将这些问题归结为有关信息系统语义核心的问题,换句话说,就是将概念按逻辑排列为实体类型,它们之间的关系,属性类型以及限制属性值的分类法,这里使用的语义核心一词是指可以组织未来信息系统的正式本体,或者同样也可以指代建立在当前平台上的现有信息系统的数据模型和相关分类法,问题是:

信息系统的语义核心如何与现实世界,功能需求以及企业描述自身的语言联系起来?

在信息系统的语义核心中,哪些特征构成了高质量?

提出的三项原则
以下原则为信息系统提供了以数据为中心的基础:

信息系统中良好的语义核心是真实设计的一部分外部现实世界的模型。
一个好的语义核心超越了功能需求。
良好的语义核心与商务语言的提供密切相关。
每个原则中的形容词商品都指向在任何特定信息系统的语义核心中不同程度地存在或不存在的美德。因此,原理既是描述性的又是规定性的。

2.信息系统
中的一个良好的语义核心是真实设计的一部分
外部现实世界的模型。
乍一看,这让人想起数据建模理论中的一个常识。但是,要用措辞来主张一个远远超出大多数信息系统从业者所认为的位置。差异在于在信息系统中定位真实世界的模型以及如实设计的短语,这将语义核心与知识的哲学解释以及描述和设计活动之间的差异联系起来。

在探讨此声明的内容之前,有必要清除一些画笔。数据模型与现实世界之间的关系的想法一直存在争议。出于各种原因,很大一部分信息系统从业人员可能(至少部分)不同意它。需要理解这种阻力,因为它阻碍了采用以数据为中心的思维方式。

企业数据的构造使用实体类型
属性类型,关系和分类法将粒状事实概括为抽象断言,由于各种原因,许多人不愿意将抽象级别视为现实世界的模型,自数据库设计标准成立之初就存在这种怀疑,信息系统内的概念图式是一组谓词逻辑语句,描述了现实世界的一部分,话语宇宙的可能情况包括,分类,规则,法律等,但是委员会承认,有关这一基本原理的争论仍在进行中,一些理论家认为概念图式(仅仅是)描述了信息库中的数据,单词模型的两种不同含义会掩盖相对位置的性质,在某些情况下,模型是指回到现实世界的表示形式,对其他人而言,模型只是意味着构建某些东西的设计计划,这些是非常不同的思维方式。

有许多从业人员将与他们一起使用的数据模型视为简单的数据结构计划,他们不愿将它们当作现实世界的模型来自何处?

2.2方法论和哲学上的异议
基本和对立的反对意见来自这样一个想法,即存在一个数据模型,以便正确,完全满足特定应用程序开发项目已知的功能要求,并且可以据此判断是否成功,该位置靠近以应用程序为中心的范例的核心。许多从业者,尤其是那些比数据结构更关心业务分析的人,发现对现实世界建模的想法是陌生和不必要的,因为他们认为世界完全由功能需求来调节,从概念到逻辑再到物理数据模型的发展实践引起了更多同情的反对,通常认为原始语义的清晰度必然会随之下降,许多人可能会同意,用于初始计划的概念性工件可能是现实世界的有意义的模型,但会对在信息系统内实现的语义核心提出相同的主张表示怀疑,共同的经验加剧了这种怀疑,教科书提供了许多很好的数据模型示例,希望表示真实世界的一部分,但是在实现过程中允许语义降级的做法意味着在现实生活中,许多从业人员只遇到过看起来像特定过程的持久性引擎的数据库。

哲学上的反对意见也很普遍
思想的建模者就意识到他们工作的主观方面,没有明确的正式标准可指导模型构建者确定模型中应包含哪些实际事物,或如何将其分组为实体类型,这只是认识论上反对的楔形文字的薄弱边缘,因为数据模型是对现实世界的客观描述,对领先建模者的研究以描述与设计之间的极性为框架,揭示了这些问题在实践中如何发挥作用,主观性使许多从业者感到不安。在一门通常被视为工程学分支的学科中,对确定性有强烈的偏好,功能需求可以被视为确定的,因此也可以作为一个精细的事实,对特定类型的粒度事实的输入和输出的需求似乎是令人满意的目标,相比之下数据模型充满了人类的主观性,并且很难确定它的创建过程,这导致许多人不喜欢它作为现实世界的模型。

2.3真实设计模型的经验
尽管语义核心的设计必须具有主观的维度,但这并不能阻止其成为真实世界的真实模型。真理不能与客观性相混淆,数据模型中可能存在与现实世界相关的几种事实。从对真理意味着什么的哲学解释出发,对应和连贯许多建模者的工作中存在的另一种真理可以称为理论确认,函授是熟悉的,这意味着,要使一条陈述为真,它必须与现实世界中的事物或事件相对应,例如将该标准转换为关系数据库环境,意味着表代表现实世界中的实体类型,外键代表它们之间的常规关系,等等。他或她得到的答案不仅是数据库中的计算,而且在现实世界中也是如此,在查询可以采用反映现实世界现象的术语(实体名称和属性类型以及分类值)的情况下,它们可以在模型范围之内变得既复杂又具有创新性,就像人们对现实世界的自然疑问一样,承认概念的逻辑排列涉及设计者的一定程度的主观性,并不会减少用户的查询与现实世界中(感知的)事务状态之间对应关系的真实性。

尽管对应关系看似显而易见
但现有信息系统中有很大一部分未能达到这一水平,通常存在难以与任何现实世界实体相关的记录类型,因为它们仅基于信息的处理方式,将这些描述为代表一种天真的事实,其中一个人在某处听到了一些东西,而没有遇到任何相反的证据,但是这种数据结构并没有达到真实设计的真实世界模型的水平,设计师根本不关注现实世界,而是将输入转化为输出的任务,连贯性是另一种真理,这意味着现象对于观察者来说是有意义的,人们通过将混乱的世界组织成他们创建的类别和关系来使其变得连贯,业务领域内的含义可能会被混淆,以至于建模人员必须在其上叠加顺序,通过替换术语来清理语义,而术语在其原始形式中过于模棱两可,无法成为模型的基础。

强加于业务语言中初不存在的一致性将为其利益相关者澄清环境
用户将能够查询信息系统,并找到它所呈现的事实与他们对现实世界的重新组织感知之间的对应关系,在由作者和一位同事创建的用于对人类服务程序中的参与者流程进行建模的框架中,可以找到将混乱性强加于一致性上的详细示例,一种更活跃的建模形式通常在数学和科学中发现,这种模型可以预测以前未知的事物或提供某种尚不存在的情况,在这种情况下,他指的是围绕比业务领域中明确存在的抽象级别更高的抽象级别设计数据结构的实践,以这种方式工作的建模者将发现设计的某些部分是确定的还是不明确的,这取决于这些部分是否能够在意外情况下恰当地容纳数据,例如业务环境的变化,模型的进一步扩展,领域或在不同的业务环境中使用模型。

语义核心的设计者可以处理所有三种情况
所有这些都涉及难以确定的人为判断,引用一位数据建模师的话,他问他为什么选择了一个模型而不是另一个模型,,我认为感觉有一种真实感,感觉更好,然而所有这些真相都必须经过利益相关者对业务领域中现象的经验的检验,在对真实设计的实际追求中,客观性与主观性之间的二分法以及描述与设计之间的极性不造成任何麻烦,真实描述现实世界的尝试是在利益相关者共享和不断发展的观念的框架内进行的。

2.4含义
真实设计真实世界模型的想法包含使模型有用且持久的特征。它为评估模型的质量提供了试金石,在信息系统中定位模型表明,在系统实施过程中维护与现实世界相关的语义是可能的和必要的,数据结构不能仅仅是支持定义功能的持久性引擎,从概念到逻辑到物理数据模型的转换引入了复杂性,因此带来了成本,这注定了许多构建企业数据模型的尝试。前进的道路要求消除概念工件与实现工件之间的差异,这些位置是必需的,因为以数据为中心的范例旨在创建的共享数据存储,而将使用它们的应用程序理解为短暂的,目标是在应用程序代码之前建立稳定的,可重用的数据结构,这些必须基于某种东西,但是某种东西不再可以成为特定应用程序的功能要求。因此,新范式意味着语义核心与功能需求之间存在不同的关系。

3.良好的语义核心超越了功能要求
功能需求的概念一直是开发信息系统的理论和实践的中心,即信息系统必须旨在为某些利益相关者做某事,传统上将功能需求视为必须围绕其设计系统的轴,这导致许多信息系统从业人员,尤其是那些比数据结构更关心业务分析的人员,假设数据模型从属于功能需求,通常存在两个部分的误解,模型直接来自功能需求,并且模型的功能受功能需求限制,不幸的是,现有数据模型中有很大一部分确实强化了这些想法,但是良好的语义核心在两个方面都超越了功能要求,它的组成部分基于功能需求中不存在的洞察力,并且提供的功能超出功能需求中所指定的能力。

3.1功能需求的匮乏
有一种固执的流行概念,即信息系统的数据结构和语义可以从功能需求中以某种方式推断出来,为了成功获得以数据为中心的范例,信息系统专业中的所有角色都必须了解为什么这是一个谬论,大多数功能需求的局限性在于,它们既没有描述现实世界本身,也没有描述信息系统中的模型,大多数需求将系统描述为一种在其与环境的接口处提供功能的机制。通过避免描述机制内部发生的情况,他们试图避免实现偏差。但是,它们通常也不提供对环境(业务领域)的精确或整体描述;他们倾向于简单地描述信息系统应该如何作用于它的某些部分,这种司空见惯的做法受到了彻底的批评,仅根据所需的环境状态更好地陈述要求,而不是完全根据机制来陈述,然而他们的方法在系统开发项目中很少见。

功能需求不可能包含创建模型所需的所有原始概念
即使他们这样做了,建模者仍然需要提供安排它们所必需的见解,这对于建模者来说是显而易见的,但对其他利益相关者却不明显,但是这种谬误之所以会持续,是因为将信息系统视为黑匣子的惯例已经蔓延到了社会惯例中,数据库专业人员应该知道其中的数据是如何组织的,通常鼓励其他利益相关者团体(包括业务分析师和项目经理)将精力集中在其投入和产出上,这种受到社会强加的黑匣子在下面鼓励了利益相关者,因为他们只讨论输入和输出,所以这些人必须确定框内的内容。

同样,以数据为中心的范式需要断言功能需求的匮乏,一个好的语义核心的提供源于它与真实世界的真实设计关系,而不是它可能碰巧满足的任何功能要求。

3.2服务能力超出功能要求
相反,功能需求不会在好的语义核心的功能范围内形成边界。对应,连贯和理论确认这三种真理中的每一种都允许其超出要求,明显的是,只要设计与现实世界具有足够的对应性,就不必事先指定每个所需的输出(例如报告),通过观察实体和属性类型,关系和分类法,从业人员可以准确评估系统可能输出的格式,此外当数据模型对先前混乱的语义强加了连贯性时,这为原始要求中未指定的功能创造了潜力,而且只要建模成功地提出了关于真实世界的真实理论,它就可以适应未来的情况,而不受需求的预料,这证实了其理论。

3.3建模的本体论风格
该原则对建模者如何处理与现实世界相关的功能需求具有重大影响,某些方法的特征可以是尝试基于需求建模而没有太多参考现实世界,其他的则是从需求开始,然后再通过需求来对现实世界进行建模;还有一些是从对现实世界的更抽象表示开始,并通过它们查看需求的,因此一个人可能会阅读功能需求,提取相关术语并起草一份设计,试图将它们安排到要求的真实的实体和属性类型,关系和分类法中,第二个人可能以相同的方式开始,但是随后在设计时将某些术语转换为更抽象的类别,从而为世界提供了更令人满意的通信,连贯性和理论水平,第三人可能会跳过术语,以寻找有关哪些已知抽象体系结构模式可能有用的线索,然后从这些模式开始,向后处理功能需求的细节。

研究领先的数据建模器时确定的观点紧密对应
文字主义者,适度的抽象者和规则删除器(之所以这样称呼是因为它们的高抽象水平导致他们从模型中删除业务规则以用于在其他地方的代表),这些中的一个可以称为建模的本体论风格,以数据为中心的范例将要求信息系统设计者学习以本体论的方式思考,他们将需要变得善于观察和穿越现实世界,并将其用作解释需求的镜头,语义核心将根据超越特定功能要求的质量维度进行判断,在以应用程序为中心的范式下,灵活性(模型可以轻松地应对变更)和集成(与组织的其他数据保持一致)已成为显着不足的领域,在以数据为中心的范式中,这些变得至关重要。

4.良好的语义核心与商务语言的提供密切相关
以应用程序为中心的范例主要根据信息系统是否满足特定的功能要求来对其进行评估,在该框架内,可以收集需求而无需非常质疑业务术语的含义,并且建模人员可以尝试将术语作为数据结构的字面基础。这种方法将业务语言视为不言而喻的有意义。但是,如果该语言在语义上不合理,那么它将导致数据结构与现实世界的关系不紧密,因此长期来看是不可行的。这是失败或面临挑战的信息系统项目的常见原因。

具有该缺陷的数据模型
对语言的使用涉及“关于单词和名称的契约中已经隐瞒了智力的偶像,其中尽管名称指的是已经存在的事物,但名称却被混淆,定义不清,轻描淡写,毫无根据地来自现实,数据建模和需求工程学的理论家都强调语言是信息系统的中心,软件开发的主要活动是描述,描述当然包括语言,同样,ISO / TC97 / SC5 / WG3指出数据库是由句子组成的,尽管有这些承认,但经验表明,在信息系统开发的文化中,对语言的关注是例外而不是规则,计算机科学和信息系统中的学术课程似乎并未教给学生太多有关如何激发商务语言语义的知识,与从业人员见面是很常见的,他们很乐于谈论用户对输入和输出进行处理的要求,而不是术语的含义。

以数据为中心的发展面向着一个未来
其中“数据是一种开放的资源,它比任何给定的应用程序都要长寿”,而“数据是全球集成的,具有共同的含义”,实现这一愿望需要改变文化对语言的看法,新的应用程序将建立在现有语义核心的基础上,其质量将取决于其易于扩展以支持任何可能的功能需求的能力,语义核心的设计者将必须与主题专家和信息系统的其他利益相关者一起合作,以批判的精神与商务语言进行交流,业务语言中的任何不连贯都需要被识别,并防止破坏语义核心,核心的质量,真实世界模型的真实性。

5.必要的对话
与推广新方法或新工具相比,范式转换是一项更为艰巨的项目,它涉及对相互联系和相辅相成的假设和信念的全面取代,在这种情况下,强大的功能与功能规范的首要性有关,对于设计现实世界模型的可能性的怀疑态度,以及将语言视为理所当然的文化习惯,都为它提供了支持,以应用程序为中心的思维方式具有很强的惯性,但这并不是无法克服的,许多人确实已经有了以数据为中心的思维定势,其他人能够认识到他们并从他们所接受的思想模式中退后一步,从而为其他选择留出了空间,以上提出的原则旨在引发对话,从而促成一系列的工作,这些工作将阐明范式转变的全面理由,这些对话需要包括对系统开发方法历史的反思。他们还必须指出与利益相关者一起企业项目的新方法。

这些原则似乎需要关注认识论

语言学甚至心理问题,这超出了大多数信息系统从业人员的兴趣,更不用说那些只需要其功能的利益相关者了,但是在那些领域中需要新的基础,以便建立一个以数据为中心的范式,该范式可以使信息系统领域摆脱当前的苦难,只有当以数据为中心的直观工作方式对大多数人有意义时,人们才会接受。


免费客服热线:400-050-6600

商业联合会数据分析专业委员会



Prev article

数据泄露无处不在且代价高昂还不重视起来?

Next article

高性能品牌用于传播数据的策略是怎么做的?

数据分析师

报名咨询

数据分析师

报名缴费

数据分析师

客服中心

数据分析师

课程服务

数据分析师

认证服务