数据管理
数据管理,是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程。其目的在于充分有效地发挥数据的作用。
数据管理 | |
---|---|
实现数据有效管理的关键是数据组织。随着计算机技术的发展,数据管理经历了人工管理、文件系统、数据库系统三个发展阶段。
目录
定义
数据管理[1]数是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程。其目的在于充分有效地发挥数据的作用。实现数据有效管理的关键是数据组织。随着计算机技术的发展,数据管理经历了人工管理、文件系统、数据库系统三个发展阶段。在数据库系统中所建立的数据结构,更充分地描述了数据间的内在联系,便于数据修改、更新与扩充,同时保证了数据的独立性、可靠、安全性与完整性,减少了数据冗余,故提高了数据共享程度及数据管理效率。
管理阶段
人工管理阶段
20世纪50年代中期以前,计算机主要用于科学计算,这一阶段数据管理的主要特征是:
(1)不能长期保存数据。在20世纪50年代中期之前,计算机一般在关于信息的研究机构里才能拥有,当时由于存储设备(纸带、磁带)的容量空间有限,都是在做实验的时候暂存实验数据,做完实验就把数据结果打在纸带上或者磁带上带走,所以一般不需要将数据长期保存。
(2)数据并不是由专门的应用软件来管理,而是由使用数据的应用程序自己来管理。作为程序员,在编写软件时既要设计程序逻辑结构,又要设计物理结构以及数据的存取方式。
(3)数据不能共享。在人工管理阶段,可以说数据是面向应用程序的,由于每一个应用程序都是独立的,一组数据只能对应一个程序,即使要使用的数据已经在其他程序中存在,但是程序间的数据是不能共享的,因此程序与程序之间有大量的数据冗余。[1]
(4)数据不具有独立性。应用程序中只要发生改变,数据的逻辑结构或物理结构就相应的发生变化,因而程序员要修改程序就必须都要做出相应的修改,给程序员的工作带来了很多负担。
文件系统阶段
20世纪50年代后期到60年代中期,计算机开始应用于数据管理方面。此时,计算机的存储设备也不再是磁带和卡片了,硬件方面已经有了磁盘、磁鼓等可以直接存取的存储设备了。软件方面,操作系统中已经有了专门的数据管理软件,一般称为文件系统,文件系统一般由三部分组成:与文件管理有关的软件、被管理的文件以及实施文件管理所需的数据结构。文件系统阶段存储数据就是以文件的形式来存储,由操作系统统一管理。文件系统阶段也是数据库发展的初级阶段,使用文件系统存储、管理数据具有以下4个特点:
(1)数据可以长期保存。有了大容量的磁盘作为存储设备,计算机开始被用来处理大量的数据并存储数据。
(2)有简单的数据管理功能。文件的逻辑结构和物理结构脱钩,程序和数据分离,是数据和程序有了一定的独立性,减少了程序员的工作量。
(3)数据共享能力差。由于每一个文件都是独立的,当需要用到相同的数据时,必须建立各自的文件,数据还是无法共享,也会造成大量的数据冗余。
(4)数据不具有独立性。在此阶段数据仍然不具有独立性,当数据的结构发生变化时,也必须修改应用程序,修改文件的结构定义;而应用程序的改变也将改变数据的结构。
数据库系统阶段
20世纪60年代后期以来,计算机管理的对象规模越来越大,应用范围又越来越广泛,数据量急剧增长,同时多种应用、多种语言互相覆盖地共享数据集合的要求越来越强烈,数据库技术便应运而生,出现了统一管理数据的专门软件系统--数据库管理系统。
用数据库系统来管理数据比文件系统具有明显的优点,从文件系统到数据库系统,标志着数据库管理技术的飞跃。
面向应用
前面讲到数据管理经历了人工管理、文件管理、数据库管理等三个阶段,主要是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程。随着信息技术的进步,管理信息系统将面向大规模的组织提供业务支持,不仅要覆盖整个组织的各类业务,而且要覆盖整个组织(全球或者全国)。为此,作为管理信息系统的核心功能,数据管理将要进入一个新的阶段,即面向数据应用的数据管理。
面向数据应用的数据管理概念
数据管理,即对数据资源的管理。按照en:DAMA的定义:"数据资源管理,致力于发展处理企业数据生命周期的适当的建构、策略、实践和程序"。这是一个高层而包含广泛的定义,而并不一定直接涉及数据管理的具体操作(摘自维基百科)。与百度百科的定义比较,百度百科的定义针对的是数据应用过程中数据的管理,即传统的数据管理,而维基百科的定义更高一层,针对的是企业数据全生命周期所涉及应用过程数据的管理,即对数据变化的管理,或者说是针对描述数据的数据(元数据)的管理,在此我们称之为面向应用的数据管理。
根据管理学理论,几个人的团队可以靠自觉、自律,几十个人就要有人管理,几百个人就要有一个团队管理,几千或几万人就必须要依靠计算机辅助团队管理。通常覆盖全国的企业和机构,其整个组织的管理分为总部机构、省级机构、市级机构、以及基层机构等等各层级机构;在每个层级机构中还设置了直接从事相应业务的管理和职能部门和非直接从事业务的管理和职能部门(如人事、办公、后勤、审计等);每个部门又是由若干员工为管理对象构成的。同时,还制定了一系列的制度去规范和约束机构、部门、人员等管理对象的活动、行为等。
同样,数据管理随着管理对象--数据的增加,管理的方式(阶段)也会随之提升。通常的大型管理信息系统,其整个项目分为总集成、分项目、子项目、每个子项目又有若干内部项目组等等管理层级;在每个管理层级中都涉及直接服务于业务的业务功能(如业务交易、账务处理、行政管理、结果展现等等)和非直接服务于业务的非业务功能(如定义、配置、监控、分析、记录、调度等等);每个业务和非业务性质的功能又分别由若干数据集合为对象(如流程、表单、数据项、算法、元数据、日志等等)所构成的。同时,也需要制定一系列制度、规则和标准去约束项目、功能、数据等管理对象的活动和变化。
由此可见,传统的数据管理侧重的数据对象是流程、表单、数据项、算法等直接面向具体业务需求的数据;面向应用的数据管理所涉及的数据对象,还增加了通过标准化的手段,描述流程、表单、数据项、算法等应用对象的数据(即它们对应的元数据),以及记录各类数据变化结果的档案、记录运行状态的日志等等非直接面向业务的数据,以实现对各类应用业务需求的加载、变化、记录、复用等过程的管理。
面向数据应用的数据管理对象
面向数据应用的数据管理对象。面向数据应用的数据管理所管理的数据对象,主要是那些描述构成应用系统构件属性的元数据,这些应用系统构件包括流程、文件、档案、数据元(项)、代码、算法(规则、脚本)、模型、指标、物理表、ETL过程、运行状态记录等等。
通常意义的元数据(Metadata),是描述数据的数据(data about data),主要是描述数据属性(property)的信息。这些信息包括数据的标识类属性,如命名、标识符、同义名、语境等等;技术类属性,如数据类型、数据格式、阈值、计量单位等等;管理类属性,如版本、注册机构、提交机构、状态等等;关系类属性,如分类、关系、约束、规则、标准、规范、流程等等。而面向数据应用的数据管理所涉及的元数据,主要是描述那些应用系统构件属性的信息。除了传统元数据属性以外,每个不同的构件还有其特有的属性,比如流程要有参与者和环节的属性、物理表要有部署的属性、ETL要有源和目标的属性、指标要有算法和因子的属性等等。
每一个构件必然对应一个或多个(一个构件的不同分类)元模型,元模型是元数据的标准,每一个元数据都应该遵循其对应元模型的定义。比如每个数据项(元)都有自己的名字、标识符、数据类型、数据格式、发布状态、注册机构等等属性,这些属性的集合就是这个数据项的元数据。而每个数据项的元数据都是由哪些属性描述、每个属性应该如何描述、以及描述的规则等等约束称之为元模型。电子政务数据元标准(GB/T 19488.1-2004)就是电子政务数据项(元)的元模型。
传统的元数据管理通常均在相关业务实现后,通过专门元数据管理系统的抽取功能加载元数据,这种方式由于需要在事后人工地启动加载或维护(事后补录业务属性)元数据的过程,往往很难及时获取元数据的变化,确保元数据与实际情况的一致性。在实现面向应用的数据管理时,应该采用主动的元数据管理模式,即遵循元模型的标准,通过人机交互过程加载元数据(本地元数据),在可能的情况下同时产生数据对象(应用系统构件)的配置或可执行脚本(如果条件不具备,也要利用人机交互所产生的元数据,作为其它相关工具产生可执行脚本的依据)。每当需要变更配置或修改脚本时,也是通过这个人机交互过程实现,同步产生新的元数据,保证了元数据与实际的一致性。
面向数据应用的数据管理意义和方法
传统应用系统(Application Systems)往往是针对特定应用的,需要固化需求的,难以支持变化的管理信息系统。而金税三期项目是建立针对全国性的组织,覆盖整个组织所有管理业务和所有用户的管理信息系统。这样的应用系统,业务需求的"变化"是常态的,"不变"是暂态的;面对整个组织,各部门和层级的业务"不同"是客观存在的,"统一"是逐步实现的,继而持续拓展(开始新的不同)的。为此,必须要有一个不仅能提供业务需求的实现,更要能够提供可支持业务需求的变化,可对它们变化进行跟踪和管理,可以支持持续优化的用户体验的,企业化生产的新型应用系统(AS2.0)产品集合作为支撑。AS2.0中必须对整个组织业务需求的变化过程和结果加以控制、记录和管理,面向数据应用的数据管理就是AS2.0关键基础构件的一个产品,并且是它可行性的基础。
传统应用系统的数据管理所关注的是数据的增值过程,其功能的实现重在关注和强调业务需求内容的加载、内容的ETL、内容的组织、内容的加工以及内容的反映。这些功能的都是通过编码实现的,固化的软件代码。AS2.0的数据管理所关注的增加了元数据的集合、历史数据的集合和状态数据的集合,并且利用主动的元数据管理工具进行配置和加载实现的软件代码。同时,将其对应的本地元数据汇集形成元数据集合,实现对各种业务需求的变化实施加载,加以捕获,进行记录,实现跟踪达到对变化的管理;将与内容和变化相关的历史记录加以标准化的封装形成档案,实现历史资料的组织、复用和卸载等功能达到对历史的管理;将AS2.0各种构件运行状态信息实时捕获,加以记录,综合分析,及时反映,实现整个系统运行时状态的综合管理。
综上所述,随着数据对象拓展了变化的记录、历史的记录、状态的记录,标志着数据管理进入了新的阶段--面向数据应用的数据管理,也标志着应用系统开始进入AS2.0时代。