公司介绍

数据中心杂谈—数据的分类

作者:北京神州宏图科技有限公司   宋秋明
2012年12月11日

摘要:
  数据已经成为企业和政府部门的重要资产,无论是企业还是政府部门的数据中心,都存储着非常重要的数据。要充分发挥和挖掘这些数据的潜在价值,就必须有良好的数据管理,而数据的分类是进行数据管理的基础,如果做不好数据的分类管理,就有可能会导致数据源头不唯一(重复采集),在统计时数出多头等诸多问题。本文从最终用户和数据管理员两个层次对数据分类进行阐述,同时也阐明了这两个分类层次之间的关系,并给出了数据分类的解决方案。
背景:
  中国的企业和政府部门的信息化,是伴随着中国的改革开放逐步发展起来的。相对来说,企业的信息化起步较早,总体水平高于政府部门的信息化。但是,无论是企业还是政府部门的信息化,都已经到了一个关键的阶段,即由多个单项应用系统向集成化的综合应用系统转化的阶段。多个单项应用系统的特征就是各个应用系统是独立的,数据自采自用,数据标准五花八门,没有统一的数据标准体系,各应用系统之间无法实现自动化的数据共享和数据交换,通俗的讲就是"信息孤岛"。这样的应用系统能满足各部门的业务运行,但是对企业或政府部门的整体运行支持较差,无法进一步发挥信息资源的深层价值,制约了企业竞争力及政府部门服务管理能力的提升。而集成化的综合应用系统的特征是在统一的数据平台之上,遵循统一的数据标准体系架构起来的各项应用系统,自然而然就消除了"信息孤岛",使信息资源处于全局的管控之下,从而为企业和政府部门提供更加强有力的IT支撑。
  那么如何从分散的应用系统提升到集成化的综合应用系统呢?数据中心就是一个很好的载体,企业和政府部门通过建设数据中心,可以逐步将分散的应用系统纳入到数据中心之内,为企业或政府部门的所有业务提供统一的、完整的信息化支持。
  顾名思义,数据中心的核心就是"数据",而且应该是完整的、标准统一的数据。由于数据中心所存储的数据涵盖所有职能域,因此必须做好对数据的分类,才能实现对数据的有效管理,否则就会导致数据中心虽然存储了很多数据,但是无从下手,甚至数据之间还会有冲突,无端的浪费了企业和政府部门的资源。
数据分类的误区:
   目前对于数据分类,有一个普遍存在的误区:按子系统(或业务板块)来对数据进行分类管理。很多企业的信息主管经常会这样说:我们现在已经建成了几个数据库,包括财务数据库、人力资源数据库、生产数据库、设备数据库、质量数据库等等。这就是典型的以子系统(或业务板块)来对数据进行分类的例子,而这种分类的成因就是这些系统都是分散设计、独立开发的,能达到支持单个部门或单个业务板块的运行即可,无法兼顾到全局。
  这种数据分类虽然是比较粗粒度的,但是分类本身并没有错,可是如果软件开发人员按这种分类去建立物理的数据库,就无法满足数据中心建设的要求了。就以上所举的生产企业例子而言,各子系统(应用数据库)之间必然会有很多数据的关联关系,比如生产管理系统在编制生产计划时,必然会引用人力资源系统里边的人员定额数据,质量管理系统必然会引用生产数据库里边的产品基础数据,而财务系统要计算成本,也会引用产品产量、人员和设备定额、人员工时、设备工时、废品数量等数据。可以看到,这些子系统之间的数据引用关系十分复杂,如果采取一刀切的方法,按子系统(或业务板块)对数据进行分类管理,就会导致数据重复采集、数出多头等问题,同时也违背了"不重复,不遗漏"的数据分类原则。
正确的数据分类解决方案:
  能满足数据中心建设的数据分类,应该包括两个层次:使用层次(最终用户)和管理层次(数据管理员)。这两个层次对数据分类的诉求是不同的,最终用户要求数据的分类是灵活的,最好能根据需要由使用者来定义,例如既能按专业分类(财务、人力资源、生产、设备等),也能按数据采集加工的性质进行分类(基础数据、过程数据、统计数据等);而数据管理员则希望数据分类越稳定越好,没有一个数据管理员会喜欢每天都去修改数据结构。(说明:数据管理员是DA,而不是DBA,DA的层次比DBA更高些,主要负责整个企业或政府部门的信息资源的规划、控制和管理,详见高复先教授著《信息资源规划》第50页-51页)
  基于以上分析,管理层次的数据组织,不能照抄使用层次的分类,而应该站在数据中心管理者的角度,以建立高档次的数据环境为出发点,打破企业或政府各专业(或部门)的界限,建立主题数据库和基本表。管理层次的数据分类是按主题进行划分的,主题数据库独立于应用系统,在数据中心内支持数据的共建共享。使用层次的分类,则可以在稳定的主题数据库基础上,进行自定义的数据分类,如下图所示:


图1 水利数据中心数据分类层次关系

  

  上图以水利数据中心建设为例,左边稳定的主题数据库可以支持右边多个子系统的自定义数据分类。这样的分类模式,既保证了后台数据结构的稳定性,又能支持最终用户对数据分类的个性化需求。
总结:
  在"十二五"及"十三五"期间,数据中心的建设将成为企业和政府部门信息化的重要内容,能否建成统一的数据平台,以及基于统一数据平台的综合应用系统,将成为企业和政府部门信息化发展水平的重要衡量标志。在数据中心模式下的数据分类,已经不是过去单一式的分类,既要保证数据源头唯一、标准唯一,还要满足用户对数据分类的灵活需要。按照信息工程方法论(IEM),建立覆盖企业和政府部门所有职能域的主题数据库,同时在稳定的数据结构之上,实现对数据分类的灵活配置,就能够充分满足管理层次和使用层次对数据分类的需求,从而进一步发挥数据的潜在价值。