实现数据开放共享的方法

 

实现数据开放共享的方法

 

当前之所以存在严重的信息孤岛问题、数据难以开放共享,根本原因在于当前的信息系统设计的理论体系有问题。信息孤岛犹如爱滋病,一旦产生就不可医治,BI、EAI、EDI、ETL、ESB只是减缓症状的方法,治标不治本。本文的方法是在系统的设计阶段实现数据的开放共享,从根本上避免信息孤岛问题的产生。火车是以标准的钢轨为基础避免了铁路交通孤岛而实现了互联互通,本文借鉴了此方法。

 

 

 

 

 

 

 

 

目 录

1          概要.. 3

2          信息孤岛的根源在于关系数据库理论有问题.. 4

2.1                 当前的信息孤岛为什么是不治之症.. 4

2.2                 关系数据库理论是以服务器为中心的孤岛型理论.. 5

2.3                 当前的信息系统软件开发模式的特点.. 6

2.4                 从技术上分析关系数据库理论所存在的问题.. 7

2.5                 关系数据库理论是单机时代的产物,不适应互联网时代.. 8

3          利用万能数据结构表实现数据开放共享.. 10

3.1                 火车的互联互通及机械零部件的互换性对信息系统设计的启示:标准化.. 10

3.2                 数据结构的标准化:万能数据结构.. 11

4          两种完全不同的软件设计模式的对比.. 15

4.1                 万能数据结构表是一门全新的数据库理论.. 15

4.2                 数据的标准化、数据的完整性.. 15

4.3                 独立数据库与关系数据库理论的对比.. 19

5          独立数据库简介.. 21

5.1                 独立数据库的技术特点:是一种数据优化、查询技术.. 22

5.2                 如何证明“万能数据结构表”是万能的.. 24

5.3                 独立数据库的一项重要任务就是根除关系.. 28

 

 

第1章       概要

当前的数据之所以难以开放共享,根本原因在于当前的信息系统设计的理论体系有问题。实现数据开放共享、互联互通可以借鉴火车的设计思路。我国的火车之所以可以在全国各地互联互通,是因为我国各地的钢轨都是标准的,各种火车是以标准的钢轨为基础而设计。

我国的钢轨与前苏联的钢轨是不相同的,我国的火车要经过前苏联国家时,就要换车轮,换一次车轮需要80分钟。当前的各种信息系统中的数据全都是异构的,犹如钢轨的宽度各不相同,当前的系统之间互联互通是通过转换数据结构的方式而实现,犹如换车轮。BI、EAI、EDI、ETL、ESB等都是通过“换车轮模式”而实现互联互通。

铁路交通只是利用钢轨的标准化这种非常简单的方法就从根本上避免了铁路交通孤岛问题的产生。本文解决信息孤岛问题的方法也很简单,本文是通过对数据及数据结构的标准化而从根本上避免信息孤岛问题的产生,犹如火车通过钢轨的标准化而实现互联互通。本文中的方法与当前的信息系统设计的理论体系完全不同,是一种全新的信息系统设计模式。

当前设计各种信息系统的特点:数据及数据结构完全由设计人员自己决定,因此各信息系统中的数据完全是异构的,这犹如全国各地都是分别设计自己的火车,各地的火车钢轨都是不相同的。

本文借鉴了铁路交通的设计思路:在设计各种信息系统时,必须按标准的数据及标准的数据结构为基础而设计,不允许设计人员随意地定义数据及数据结构。万能数据结构表就是标准的数据结构表。万能数据结构表可以存贮各种各样的结构化数据。如果各个信息系统中的数据及数据结构都是标准的,那么数据就可以象火车一样在各个信息系统之间互联互通。

当前的实现数据开放共享、互联互通的方法可称作是“换车轮模式”。

本文实现数据开放共享的方法所采有的模式可称作是“标准化模式”。“标准化模式”是以“独立数据库”为基础而设计的。“独立数据库”是一种与关系数据库理论完全不同的全新的数据库理论。

【作者:269779216@qq.com】

第2章       信息孤岛的根源在于关系数据库理论有问题

在信息化领域,关系数据库独占鳌头!当前的大部分信息系统都是以关系数据库为基础。本文之所以要介绍独立数据库,是因为以关系数据库理论为基础而设计的信息系统都不能有效地实现数据的开放共享、互联互通。

在介绍独立数据之前,非常有必要研究清楚以关系数据库为基础的信息系统为什么都是孤岛型的系统。也可以为什么只有抛弃关系数据库理论才能从根本上解决信息孤岛问题。

2.1 当前的信息孤岛为什么是不治之症

通过下面的分析、计算就会发现当前的信息孤岛是不治之症。这是由当前的信息孤岛的实际情况及解决信息孤岛的方式所决定的。

当前的实际情况:当前的各种信息系统都是孤岛型的,因为设计人员在开发各种信息系统时都没有考虑数据的互联互通问题,没有通用的数据接口。如果需要与某个系统实现数据的互联互通,则需要开发专用的“点对点式的数据接口”。如果与N个系统实现数据的互联互通,那么至少要开发N个数据接口。

用现有的技术为什么不能根除信息孤岛理论上而言,利用现有技术可以通过转换数据结构的方式而实现任意两个信息系统之间的特定数据的互联互通、开放共享,然而由于全球的各种信息系统的数量超过千万,全球所产生的数据超过数万亿条,而且信息系统及数据还在不断地增加,面对如此海量的异构的、不标准的数据,“转换数据结构”的方法所花的成本非常高、不可承受。因此,当前的信息孤岛只能在局部进行缓解,而不能整体上得到根治。利用现有技术设计信息系统时,每增加一个信息系统,就增加了一个孤岛。

两个系统之间的互联互通约需要1个人月的工程量;三个系统之间的互联互通约需要(3-1)+(3-2)=3个人月的工程量;四个系统之间的互联互通约需要(4-1)+(4-2)+(4-3)=6个人月的工程量;N个信息系统之间的互联互通约需要((N-1)+(N-2)+(N-3)+……+3+2+1)个人月的工程量。由计算公式可看出,随着信息系统的数量的增多,系统之间的互联互通的工程量十分巨大,无法承受。因此,当前的信息孤岛是不治之症。这与当前的事实是相符的,自从关系数据库理论产生的40多年来,世界各地的信息孤岛问题都未能得到有效解决。

用关系数据库理论开发信息系统,会产生无穷无尽的数据结构,也会产生无穷无尽的不标准、不规范的数据。对于用关系数据库理论所设计的信息系统而言,随着信息系统的数量的增加,信息孤岛问题也将会更加严重。也可以说关系数据库理论是信息孤岛的发源地,人们虽说想尽各种方法来解决信息孤岛让数据互联互通,然而信息孤岛问题不降反增。

信息孤岛一旦产生,就不可根治。因为当前的信息系统中的数据的数据结构是不标准的、数据是不标准的,数据与数据库系统密不可分,数据与应用程序密不可分,数据只有在原系统中才是有意义的,一旦脱离了原来的系统,就会变成无意义的数据。当前解决信息孤岛实现互联互通的方法(例如BI、EAI、EDI、ETL、ESB等等)都是通过转换数据结构(换车轮模式)、开发点对点式的数据接口而实现,然而这种方法只能治标,不能治本。利用现有技术无法开发出通用的数据接口。

2.2 关系数据库理论是以服务器为中心的孤岛型理论

关系数据库理论建立在封闭的局域网的基础之上:“所有的数据都处于一个完全封闭的系统中”。关系数据库理论中没有互联互通的内容,也没有数据接口的内容。关系数据库理论是一种以自我为中心的孤岛型理论:“我只处理我的数据,不处理你的数据,你只处理你的数据,你也不能处理我的数据,你我之间没关系。”关系数据库理论的创始人根本就没有考虑互联互通的问题,关系数据库理论是一种仅适用于单机、局域网的数据库理论。

互联互通的信息系统没有中心:“我要处理我的数据,还要处理你的数据和他的数据,你要处理你的数据,也要处理我的数据和他的数据,你我他之间的数据要互联互通。”

关系数据库理论是“独立王国”的孤岛型理论,关系数据库设计人员是“独立王国”的国王,国王就是法律,数据类型、数据结构全由国王任意定义。互联互通需要的是没有国王的民主社会的民主型理论,数据库的设计人员不再是国王而是民主社会中的一员,他的一言一行(数据、数据结构)都必须受到民主社会的“法律、行为规范(通信协议)”的制约。问题是当前的关系数据库理论中没有结构化数据互联互通的通信协议。

关系数据库的问题:由设计人员任意定义数据和数据结构,各方的数据和数据结构各不相同。因此,数据的接收方无法直接把数据存贮到自己的数据库中。关系数据库中的数据是一种有结构的数据,然而对方又没有这样的结构,因此,数据发送到对方的数据库之后就是不可识别的数据。只要是用关系数据库理论所设计的信息系统,其数据必定不可能在各个数据库之间互联互通,必定是孤岛型系统。

30多年来关系数据库在结构化数据处理方面独占鳌头,为全球的信息化建设立下了汗马功劳,是信息化社会的大功臣!当前之所以会出现严重的信息孤岛问题、互联互通问题、数据难挖掘问题,与关系数据库密不可分,关系数据库是信息孤岛问题的罪魁祸首!人们曾花费巨额资金,希望通过BI、EAI、ETL、EDI、ESB等技术来解决信息孤岛,实现数据的互联互通,然而全球的大量事实表明,效果很不理想。

2.3 当前的信息系统软件开发模式的特点

当前的信息系统软件开发模式是:先设计出数据结构各不相同的系统,然后再通过转换数据结构而实现互联互通,犹如先设计出“结构各不相同的车轮”的火车,然后再换车轮互通,这种软件开发模式可称作是“换车轮模式”、“后ETL模式”。用本文中的方法设计软件时,其开发模式是:各信息系统必须按照标准的、统一的“事物信息表”而设计信息系统,犹如按标准的钢轨而设计火车,这种软件开发模式可称作是“标准化模式”、“先ETL模式”,按这种模式所开发出的信息系统实现数据的互联互通、开放共享交换非常容易,在技术上不存在信息孤岛问题。

在小数据时代,各行各业的信息系统中的数据及数据结构基本上都是不标准、不规范的,各个信息系统中的数据完全由系统的设计人员任意定义,因此,各信息系统中的数据都是异构的、不标准的,结果导致了非常严重的信息孤岛问题。不同的信息系统要实现互联互通、共享交换,就必须通过转换数据结构的方式来实现。然而面对全球数千万个以上的信息系统,数万亿条以上的异构的、不标准的数据,要实现各个信息系统之间的互联互通、共享交换,用传统的转换数据结构的方法就非常困难,甚至可以说根本不可能在可承受的时间内实现。现有软件开发模式的根本错误在于“数据治理的先后次序”搞反了。当前的BI、EAI、ETL、EDI等技术都是在“疾病”产生了之后再“治疗疾病”。

在大数据时代,应该是在设计各种信息系统之前就对各行各业的数据进行“数据治理”,并形成各行各业的国际数据标准、国家数据标准、行业数据标准,而不是等到数千万个软件系统产生了无比海量的不标准、不规范的数据之后再治理数据。

2.4 从技术上分析关系数据库理论所存在的问题

下面的两张表中的数据对关系数据库而言是合格的,然而这两张表中的数据是普通人难以看懂的:

表3:关系数据库中的表

ID

XM

XB

NL

TZ

SG

1

张三

56

72

180

表4:关系数据库中的表

ID

XM

XB

ZYF

XYF

QTFY

2146

张三

56

72

180

上面两表中的数据的实际含义如下:

表5:表2的实际内容

ID

姓名

性别

所龄

体重

身高

1

张三

56

72

180

表6:表3的实际内容

ID

姓名

性别

中药费

西药费

其它费用

2146

张三

56

72

180

下表是用发明专利技术万能数据结构表“事物信息表”而设计的表,该表中的数据无论是谁,只要懂汉语,就可以看懂表中内容:

事物信息表存贮数据的例子

ID

事物代号

事物属性

事物属性值

超长属性值

单位

附件

时间

 

100

280

事物分类

体育管理系统

 

 

 

2014.3.2

 

101

280

事物分类

教练信息

 

 

 

2014.3.2

 

102

280

事物分类

教练基本情况

 

 

 

2014.3.2

 

103

280

身份证号

XXXXXXXXXX

 

 

 

2014.3.2

 

105

280

姓名

张三

 

 

 

2014.3.2

 

106

280

性别

 

 

 

2014.3.2

 

107

280

年龄

56

 

 

 

2014.3.2

 

108

280

体重

72

 

KG

 

2014.3.2

 

109

280

身高

180

 

CM

 

2014.3.2

 

 

 

 

 

 

 

 

 

 

1100

1280

事物分类

病历

 

 

 

2014.5.3

1101

1280

事物分类

住院病历

 

 

 

2014.5.3

1102

1280

事物分类

医疗费用

 

 

 

2014.5.3

1103

1280

身份证号

XXXXXXXXXX

 

 

 

2014.5.3

1104

1280

住院号

XXXXXXXXXX

 

 

 

2014.5.3

1105

1280

姓名

张三

 

 

 

2014.5.3

1106

1280

性别

 

 

 

2014.5.3

1107

1280

中药费

56

 

 

2014.5.3

1108

1280

西药费

72

 

 

2014.5.3

1109

1280

其它费用

180

 

 

2014.5.3

关系数据库中的数据与数据结构密不可分。关系数据库中的每一个数据都是有数据结构的,一旦失去相应的数据结构,就成了无意义的数据。

关系数据库中的数据与应用程序密不可分。目前的信息系统都是通过应用程序来解读关系数据库中的数据,然而每个应用程序只能解读自己的系统中的数据而无法解读其它系统中的数据。关系数据库中的数据不具独立性、完整性,数据一旦脱离相应的数据库系统及相应的应用程序就变成了无意义的数据。

2.5 关系数据库理论是单机时代的产物,不适应互联网时代

信息孤岛问题是IT领域的一个非常严重的问题。人们在20年前就注意到了信息孤岛问题,并开始寻找解决信息孤岛问题的方法,然而20多年过去了,全世界无数的非常聪明的IT人士想尽了各种方法,例如BI、EAI、EDI、ETL、ESB,然而当前的众多事实表明,信息孤岛问题不但没有从根本上加以解决,反而越来越严重。

人们为什么无法根除信息孤岛问题呢生信息孤岛的根本原因在于关系数据库理论,因为关系数据理论单机时代的产物,创始人当时未考虑数据在各个信息系统之间的互联互通问题!关系数据库理论是在互联网产生之前的单机时代创立的。关系数据库理论于1970年6月由IBM公司的埃德加考特(Edgar Frank Codd)创立。ORACLE诞生于1979年。互联网诞生于1973年至1984年之间。1984年,美国国防部将TCP/IP作为计算机网络的标准。

关系数据库理论中没有数据交换共享的概念,也没有数据接口的概念。关系数据库所关心的只是如何处理自己的数据(单机中的数据),而未考虑如何处理从其它数据库发过来的数据,也未考虑如何把数据发送到其它数据库。关系数据库的特点是:“你的数据库处理你的数据,我的数据库处理我的数据。我不处理你的数据,你也不处理我的数据,你我之间是没有关系的。”

在单机时代、局域网时代,关系数据库在处理结构化数据方面发挥出了巨大的作用。然而,随着互联网时代的到来,人们不但希望信息系统处理自己的数据,还希望各个信息系统之间可以共享交换数据,希望数据可以互联互通。为了解决信息孤岛问题,人们发明了BI、EAI、EDI、ETL、ESB等等很多方法。随着IT技术的飞速发展,全世界的各行各业建立了大量的信息系统,然而20多年来全世界花费了巨大的人力、物力来解决信息孤岛问题,到如今,信息孤岛问题不但没有根除,反而比以前更严重,信息系统之间的互联互通、数据的开放共享还是非常困难!

 

第3章       利用万能数据结构表实现数据开放共享

本文解决信息孤岛实现数据开放共享的方法非常简单,犹如火车通过钢轨的标准化而实现了铁路交通的互联互通,万能数据结构表就是信息系统的标准的钢轨。

3.1 火车的互联互通及机械零部件的互换性对信息系统设计的启示:标准化

火车之所以能够在全国各地互联互通,是因为全国的钢轨都是标准的,我国的各种火车都是以标准的钢轨为基础而设计的。机械零部件的互换性是机械中的一个非常重要特性。机械工程师在设计机械设备时都要尽量采用标准的零部件。火车的互联互通及机械零部件的互换性都是以“标准化”为基础。如果说全国各地的钢轨各不相同,那么无论采用什么样的换车轮的方法,都不可能从根本上解决铁路交通的孤岛问题。这个道理大家都能理解。奇怪的是在IT领域,人们到目前为止还是采用“换车轮的模式”来解决信息孤岛问题。

IT行业的软件工程师几乎没有标准的概念。软件设计人员在设计软件系统时几乎不考虑任何标准,各种信息系统中的数据完全由软件设计人员自己任意定义,其结果就是各种信息系统中的数据全是不标准、不规范的异构数据。

铁路交通以“钢轨的标准化”而从根本上避免了“铁路交通孤岛”问题的产生。如果各种信息系统的数据及数据结构也采用标准化的数据和数据结构,那么,也可以从根本上实现各种信息系统之间的互联互通!然而利用关系数据库技术,不可能使数据结构标准化、统一化。本文中的“事物信息表”可存贮各种各样的结构化数据,可以成为标准的数据结构表。

关系数据库理论存在致命缺陷的一个重要原因在于“由设计人员自己随意定义数据结构”,其结果就产生了大数据时代的“数据类型多”的大问题。为了从根本上解决“数据类型多”的问题,利用本文的方法在设计信息系统时,不充许数据库的设计人员随意地定义数据结构,为了使数据可以互联互通,存贮任何数据都必须采用统一的、标准的、固定的数据结构表“万能数据结构表”来存贮。本文之所以自始至终强调“只用一张表或若干张结构完全一样的事物信息表存贮数据、数据的完整性”,目的就是让数据可以在不同的信息系统之间互联互通”。

 

3.2 数据结构的标准化:万能数据结构

下面的表1是“事物信息表”,“事物信息表”是万能数据结构表,可以只用一张表而存贮各种关系数据库中的任意结构的数据。表1只用一张表就存贮了“1、动物档案;2、销售订单表;3、销售订单明细表;4、患者基本情况;5、症状;6、员工身高体重;7、通信录;8、医疗费用”的数据。若用关系数据库理论中的方法来存贮这些数据就需要8张结构各不相同的表。

1:事物信息表只用一张即可存贮各种各样的结构化数据

来源:fanyzidb

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2017年1月20日
下一篇 2017年1月20日

相关推荐

ID

事物代号

事物特征

事物特征值

超长特征值

单位

附件

时间

65

2367

事物分类

动物管理系统

 

 

 

 

66

2367

事物分类

企鹅

 

 

 

 

67

2367

事物分类

帝企鹅

 

 

 

 

68

2367

事物分类

动物档案

 

 

 

 

69

2367

动物编号

3

 

 

 

 

70

2367

名字

汉武帝

 

 

 

 

81

2367

动物简介

 

帝企鹅(学名:Aptenodytes forsteri):也称皇帝企鹅,是企鹅家族中个体最大的,一般身高在90厘米以上,最大可达到120厘米,体重可达50千克。其形态特征是脖子底下有一片橙黄色羽毛,向下逐渐变淡,耳朵后部最深。全身色泽协调。颈部为淡黄色,耳朵的羽毛鲜黄橘色,腹部乳白色,背部及鳍状肢则是黑色,鸟喙的下方是鲜桔色。