公司介绍

数据中心杂谈—浅析元数据

作者:北京神州宏图科技有限公司   宋秋明
2013年2月9日

摘要:
  在IT界,不管是菜鸟,还是老鸟,看见"元数据"这三个字都会感到很迷茫,更别说客户了。这一方面归功于我们中华文字的博大精深,另一方面则归功于翻译者的直来直去。笔者前几年对元数据也是一知半解,人云亦云,但在世界末日并未如期到来之际,却忽然开窍了,在此将自己的一些粗浅想法写下来,供大家印证。
概念:
  我们不能不说,中华文字真的博大精深,我们不需要新造很多汉字,而只需要把有限的汉字进行排列组合,就能表达近乎无限多的含义。几千年前发明汉字的祖先无论如何也不会想到今天信息技术的发展,但通过汉字的组合依然可以覆盖大多数信息技术概念和名词。比如说,"数据"和"元"就可以组合出两个完全不同的概念:数据元和元数据。只是这两个外来词在翻译成中文之后,竟然具有了意想不到的绕口令效果,不但客户感到绕嘴,就是软件从业人员,也没有哪个敢说百分之百透彻了解的。
  区分数据元和元数据,笔者认为,在翻译上要进行标准化,因为数据元的英文是Data Element,本来翻译成数据元并没有问题(笔者揣测译者应该是一个文化功底很深的人,因为"元"字本身即有"一元初始"的含义),甚至可以说翻译的很好,但为了避免绕口令似的麻烦,不妨按照我国著名信息化专家高复先教授的译法,将Data Element译为"数据元素",既不失其本义(与自然界化学元素类似),又能避免混淆。"数据元素"与"数据元"看似一字之差,但在口头交流或落在文字上,"数据元素"都能更好、更清晰地表达其本义。
  元数据,其英文为Meta Data,可以说翻译的很好,但其英文释义翻译的就太直白了。元数据的英文释义是Data about data,大多数书籍及文章都将其翻译为"关于数据的数据"。以笔者的经历来看,对大多数受众,这样翻译出来的基本就是废话:关于数据的数据是什么?没有表达出来。笔者比较认可的一种译法是将Data about data译为"描述数据的信息"(很抱歉,一时找不到确切的出处,如果您是译者,请与笔者联系,定当注明出处),这种译法很明确指出了元数据是一组信息,这一组信息是用来描述"数据"的,而且是结构化的。
  元数据的释义如此,元数据的概念,笔者认为《数据工程理论与技术》(国防工业出版社,戴建伟、吴照林、朱明东、龚建华等编著)一书中给出的描述比较合适:"在信息界,元数据被定义为提供关于信息资源或数据的一种结构化数据,是对信息资源的结构化描述。其实质是用于描述信息资源或数据的内容、覆盖范围、质量、管理方式、数据的所有者、数据的提供方式等有关的信息"。
目的和用途:
   实际上并没有一个统一格式的元数据来描述所有数据,因为元数据描述的对象可以是不同类别的,最开始元数据只是用来描述图书资源的,大家可以根据这个统一的元数据格式构建自己图书资源的元数据,便于图书的检索和共享。但是今天的元数据,涵盖范围要大得多,其描述的对象可以是数据生命周期中各阶段的多个对象,例如数据元素、主题数据库、报表、地理空间数据等。这里边大家最熟悉的就是数据元素的元数据了,在ISO/IEC 11179中有详细的描述。
  元数据的目的和用途:实现信息资源共享,实现有效的数据管理。如同前面的描述的图书资源一样,我们可以针对企业或政府部门内部的信息资源,实施元数据管理,便于用户发现自己需要的信息资源,实现单位内部或跨单位的信息资源共享。同时,对于数据管理者而言,也等于为自己管理的数据资产建立了更清晰的、结构化的一本帐。
实际应用:
  最典型的元数据应用就是GB/T 18391-2009(基本等同于ISO/IEC 11179-2004)中描述的MDR(Metadata Registries),即元数据注册系统。例如,某单位可以根据自己的需要,建立数据元素标准管理系统,数据元素的元数据包括:数据元素标识、中文名称、英文名称、注册机构、同义名称、相关环境、定义、分类模式、关键字、相关数据参照、关系类型、表示类别、表示形式、数据类型、最大长度、最小长度、表示格式、允许值、主管机构、注册状态、提交机构、备注等。这些元数据又可以分为标识类属性、定义类属性、关系类属性、表示类属性、管理类属性和附件类属性。数据元素标准管理系统,能实现数据元素的注册、审核、审批、发布、修订、废止等功能。通过数据元素标准管理系统,能实现数据元素的一致性管理,便于实现系统整合和信息资源整合。
总结:
  元数据本身并不是玄之又玄的东西,它对于数据标准体系建设,信息资源共享,数据管理,以及数据中心建设,都能起到很大的作用。以上是个人的一点粗浅见解,笔者愿与业界人士一起,对元数据进行更深入的研究和实践,提升我国的数据管理水平。