元数据(Metadata)最抽象的定义是一种用来描述数据的数据,不同领域时元数据的细化定义存在差异。它提高了针对数据对象的定位、管理、检索、评估、选择和交互的能力,是数据治理的重要基础。通过元数据管理,可以准确展现一个组织数据资产的整体
视图。元数据具有描述性、动态性、多样性、多层次性以及支撑性等特点。
元数据的产生原因是与因特网的发展密切相关的,其主要是为了对网络信息进行有效管理。元数据最早出现于美国
美国航空航天局美国航空与
宇宙航行局(National Aeronautics and Space Administration,
美国航空航天局)的《目录交换格式》手册中,成为支持互通性的数据描述所取得一致的准则。20世纪60年代,杰克·迈耶斯(Jack Myers)定义了元数据的概念,将它称为“描述数据” 20世纪90年代中期以后,随着WWW方式和
HTML在网站的普及,网络资源的检索也遇到了困难,元数据便拓展到了因特网世界。2008年,中国标准化管理委员会在《标准文献元数据》给出的定义为“元数据定义和描述其他数据的数据”。随着技术的发展,元数据的安全方面也愈发引起人们的注意,2015年10月,
澳大利亚联邦政府通过了一项有争议的《强制保留元数据法》,要求电信公司在两年内保留客户的元数据。2021年,
高德纳咨询公司发布《主动元数据管理市场指南》,首次出现主动元数据的概念,其是指一组能够持续访问和处理元数据的功能。
元数据有多种类型,如可以按用途、功能、复杂程度进行分类。其中按元数据的用途,元数据可被分为描述性元数据、结构性元数据、存取控制性元数据和管理性元数据。元数据的结构包括语义结构、内容结构和句法结构。其在管理平台上又包括包括元数据采集服务、应用开发支持服务、元数据访问服务、元数据管理服务和元数据分析服务。在应用方面,元数据可以应用于数据治理、数据仓库、应用系统开发过程、地理遥控数据分析、教育资源以及
电子政务组织等方面。
基本定义
元数据是指数据之数据或者代表性的数据,是数据的属性,有利于
信息检索。在不同的领域中,元数据的定义也存在一定的差异,在软件构造领域,通常被定义为通过元数据值得改变来改变进程得数据,不同的位置输入不同的数值的元数据,将得到与原来相同的行为;在图书馆与信息领域,元数据的定义是描述结构化的
信息资源,提供图书等信息资源的一种结构化的数据;在数据仓库领域,元数据用于描述数据仓库中数据及其环境的数据,是在建设数据仓库的过程中所产生的关键数据,例如数据源定义、目标定义、变换规则等。
发展历程
产生背景
元数据的产生原因是与因特网的发展密切相关的,随着网络资源的不断增长,对于网络信息的有效管理将越来越依赖于元数据的管理,元数据的产生背景可以归结于以下几个方面:
发展历程
元数据最早出现于美国航空与
宇宙航行局(National Aeronautics and Space Administration,
美国航空航天局)的《目录交换格式》手册中,成为支持互通性的数据描述所取得一致的准则。20世纪60年代,为了有效地描述
数据集,Jack Myers定义了元数据(Metadata)的概念。根据最简单的定义,元数据又称“描述数据”。
1995年,在
OCLC(Online Computer Library
内角,OCLC)与国家
超级计算机应用中心(National Center for Supercomputer Applications,NCSA)所主办的“Metadata Workshop”研讨会上给出了元数据的基本定义,是指“描述数据的数据”。之后越来越多的领域开始对元数据进行研究。
在20世纪90年代初,档案学界开始对元数据定义进行研究,其经历了三个发展阶段:第一阶段研究认为在电子文件管理中应有元数据的参与,并由
美国电子文学专家戴维·比尔曼首先引进电子文件研究领域,对其最初的定义是:元数据是关于数据的数据。第二阶段是在实践基础上展开了元数据项目研究之后,形成了对元数据的深化认识,例如在英国公共档案馆《电子文件管理指南(1999)》中所提到的,元数据指的是关于某份文件和文件赖以存在的集合体的信息,泛指结构化的描述和著录数据;第三阶段则是根据元数据的实际应用形成对元数据定义的最新成果。
20世纪90年代中期以后,随着WWW方式和
HTML在网站的普及,网络资源的检索也遇到了困难,元数据便拓展到了因特网世界。在因特网世界先后产生了包括
都柏林核心集(
都柏林 Core)、因特网内容挑选平台(PICS)、因特网馆藏(Web collection)、频道定义格式(CDF)、meta内容框架(MCF)等若干种元数据类型。
2008年,中国标准化管理委员会在《标准文献元数据》给出的定义为“元数据定义和描述其他数据的数据”。随着技术的发展,元数据的安全方面也愈发引起人们的注意,2013年,
爱德华·斯诺登泄露的情报披露了
美国国家安全局(National Security Agency,NSA)和全球主要数字公司收集数据的规模和复杂程度,引发了对元数据的关注,也引发了安全与隐私、公开与封闭、问责与保密之间平衡的大辩论。2015年10月,
澳大利亚联邦政府通过了一项有争议的《强制保留元数据法》,要求电信公司在两年内保留客户的元数据。2016年,
高德纳咨询公司发布了第一份元数据管理解决方案包括,指出随着IoT数据的扩散、
大数据和
数据湖的发展,企业获取所需数据的需求增加,多类型数据的获取,
映射数据各元素之间的关系越来越受关注。2021年,Gartner发布《主动元数据管理市场指南》,首次出现主动元数据的概念,其是指一组能够持续访问和处理元数据的功能。
主要分类
用途分类
按照元数据的用途,元数据可被分为描述性元数据、结构性元数据、存取控制性元数据和管理性元数据。
参考文献:
功能分类
按照元数据的用途,元数据可被分为管理性元数据、描述性元数据、技术性元数据、保存性元数据和使用性元数据。
参考文献:
复杂度分类
不同的元数据在结构的复杂程度上是不同的,其可以分为三个级别。
参考文献:
资源类型分类
元数据可以被应用与各个领域,根据通用领域和专用领域的不同可以对元数据进行划分。
参考文献:
文化出版领域分类
按照文化出版领域分为面向非结构化文件格式数据的元数据分类和面向结构化面向结构化关系格式数据的元数据分类。
面向非结构化文件格式数据的元数据分类
非结构化文件格式数据的元数据可分为三类:分别为描述元数据、结构元数据和管理元数据。
参考文献:
面向结构化关系格式数据的元数据分类
在关系型数据库和数据仓库时代,Kimball将元数据划分为业务元数据、技术元数据和操作元数据。
参考文献:
特点
元数据具有描述性、动态性、多样性、多层次性以及支撑性等特点。
元数据区别于其他数据类型的特点有三个:
作用
元数据是描述
信息资源或数据等对象的数据,其使用目的在于:识别资源;评价资源;追踪资源在使用过程中的变化;实现简单高效地管理大量网络化数据;实现信息资源的有效发现、查找、一体化组织和对使用资源的有效管理。而元数据主要有以下作用:
元数据是进行数据集成所必需的
一方面,按照一定的规则从各个系统中抽取的数据,将这些数据按照约定俗成的对应关系及转换规则存储在元数据知识库中;另一方面,在系统项目实施过程中,直接建立系统往往费时、费力,因此在实践当中,人们可能会按照统一的
数据模型,首先建设数据集市,然后在各个数据集市的基础上再建设系统。
元数据有利于提高系统的灵活性
科学技术的高速发展以及企业体系的变化调整,使得信息系统必须具备良好的可扩展功能,随着变化能够灵活调整。元数据将业务的工作流、数据流、信息流以一种更为分散、精细的方式重新组织,使得基于元数据开发的源程序调整更为方便,能够真正做到“以不变应万变”,提高了系统的灵活性。
元数据定义的语义层能够帮助用户理解系统中的数据
系统管理员或开发人员非常熟悉相关开发技术,但是系统的用户并不一定熟悉,元数据恰恰是用户与系统的数据联系的纽带。系统必须通过元数据,实现业务模型与
数据模型之间的
映射,把数据以用户可以理解并需要的方式呈现出来,从而帮助用户理解和使用系统中的数据。
元数据是保证数据质量的关键
元数据具有模块化的特点,使得底层的数据对于用户来说具有不“透明”性,造成了用户在使用的时候,可能会对数据产生怀疑。最终的使用者借助元数据管理系统对各个数据的来龙去脉以及数据抽取和转换的规则都会进行了解,从而使其产生信任,因此能够更便捷地、快速地发现数据所存在的质量问题。国际上有学者甚至还在元数据模型的基础上引入质量维度,从更高的角度上来解决这一问题。
元数据可以支持需求变化
科学技术的高速发展以及企业体系的变化调整,使得企业的需求在不断地改变。传统的系统通过需求的变化来改变系统,这种改变比较缓慢,达不到大数据时代变化的需求。如何构造一个随着需求急速改变而平滑变化的系统,是一个重要问题。成功的元数据管理系统可以实现这种平滑变化,它可以把整个业务的工作流、数据流和信息流有效地结合管理起来,让系统不十分依赖特定的开发人员,从而提高系统的可
变性。
结构
元数据结构一般包括三种,分别是语义结构、内容结构及句法结构。
语义结构
语义结构定义元素的具体描述方式,体现元数据的语义特征。例如描述元素时所采用的标准、遵循的描述规范或自定义的描述要求。在元数据中有许多术语,这些术语还有着不同的定义属性,其主要的术语定义属性包括:
参考文献:
内容结构
元数据的内容结构是指元数据中术语之间的关系,在
数字图书馆工程元数据应用体系模型中,元数据基本内容结构采用核心集元素、资源类型核心元素、用于具体对象的个别元素三种构成。其中,“核心集元素”是对所有类型资源都通用的元素;“资源类型核心元素”是相对于全部类型资源通用而言,有了更加限定的范畴;“用于具体对象的个别元素”只适用于某些特定类型的资源。
句法结构
元数据的句法结构定义格式结构及其描述方式,例如元素的分区分段组织、元素选取使用规则、元素描述方法、元素结构描述方法等。有时句法结构需要标明元数据是与所描述的数据对象捆绑在一起,还是作为单独数据存在但以一定形式与数据对象链接。句法结构还要描述与相关标准、DTD结构和Namespace等的链接关系。
管理
元数据管理是对数据采集、存储、加工和展现等数据全生命周期的描述信息,可以帮助用户理解数据关系和相关属性。元数据管理工具可以了解数据资产分布及产生过程,实现元数据的模型定义并存储,在功能层包装成各类元数据功能,最终对外提供应用及展现;此外,它还提供元数据分类和建模、血缘关系和影响分析,方便数据的追踪和溯源。
元数据管理平台从功能上主要包括元数据采集服务、应用开发支持服务、元数据访问服务、元数据管理服务和元数据分析服务。
规范框架
元数据标准是指为描述某一种特定资源的具体
数据集而设计的元素集合,该标准一般包括完整描述数据集时所需的数据项的集合、各个数据项语义定义、设计规则以及标记语言的语法规定。不得种类的数据资源具有不同的元数据规范,元数据规范框架是定制某种数据资源的元数据规范的标准,是更为抽象化的元数据。
元数据的规范框架分为三类:基于ISO的模型,基于都柏林核心元数据的模型和基于W3C的RDF的模型。
基于ISO的模型采用ISO/IEC 11179-3标准来规范和标准化数据元素,在ISO/IEC 11179-3标准中,它规定元数据注册表是支持注册功能的元数据数据库。基于ISO的元数据规范框架的核心功能是收集、存储和提供元数据规范的描述。DESIRE和CORES是基于ISO模型的两个典型的元数据规范。
基于都柏林核心元数据模型的标准大多是复用并扩展都柏林核心元素集。
都柏林核心元素模型是数字资源元数据描述领域中最具影响力的框架之一,其核心元数据元素共15个,分别为资源的贡献人、覆盖范围、创作者、日期、描述、格式、
标识符、语言、出版者、关联、权限、来源、主题、标题、类型。
RDF全称为资源描述框架,是一种用于描述资源的框架结构。它是
万维网联盟在
XML基础上推出的用于描述资源及其之间关系的语言规范标准,基于RDF的模型使用“资源描述框架”作为元数据规范框架,其语义网和关联数据技术已应用于许多数据资源的目录和存储库,使用资源描述框架RDF可以更好地实现元数据的机器可读功能。
应用领域
数据治理
元数据管理是数据治理的基础,它用于定义和描述数据、数据之间的关系,以及数据如何管理、如何使用。其在数据治理中的实际应用包括:定义和描述业务域、业务主题和数据实体;描述
数据结构和数据关系;描述源系统、目标系统、表、
视图、存储过程和字段属性;定义和描述数据资产目录;定义和描述主数据模型的属性等。
应用系统开发过程
应用系统的开发一般需要3个环境:
开发环境、测试环境和生产环境。在应用系统开发上线的过程中,经常会遇到在开发环境测试没有问题的应用系统,集成到测试环境中或迁移到生产环境中就会出现问题。
通过元数据管理工具对应用系统所涉及的
数据模型、库表结构进行规划设计,落地系统级逻辑模型;基于反向工程将元数据管理工具中的数据模型导入应用系统开发、测试、生产等环境中,应用系统的开发可以在元数据管理工具提供的数据模型基础之上构建物理库表;通过元数据管理工具自动化采集开发、测试、生产三个环境的库结构、表结构、字段结构、
视图与存储过程结构等元数据;在应用系统开发过程中,从开发到测试部署之前,通过元数据管理工具的对比分析功能,迅速找到开发和测试环境中不一致的地方,支持在测试环境快速部署应用系统,并确保数据环境的一致性。
数据仓库
数据仓库是用于数据分析、支持管理决策的系统。元数据是数据仓库的核心组成部分,主要用于记录和管理数据在数据仓库中的整个流转过程,实现对数据仓库各层级数据进行统一管理。
元数据在数据仓库中的应用包括:描述数据源的库表结构、数据关系以及每个数据项的定义;描述数据源中的每个数据项的
值域范围和更新频率;描述数据源与数据仓库之间的数据
映射关系;描述数据仓库中有哪些数据以及它们来自哪里等。
地理
在地理领域,测绘地理信息元数据是关于地理空间相关数据和
信息资源的描述性信息,它它不仅是对数据简单的描述或
索引,更关系到数据成果的最终应用。生产者通过其记录测绘地理信息数据说明;使用者利用其了解测绘地理信息数据的基本特征;管理者通过其可以对测绘地理信息数据进行有效的管理和利用;检查者通过其了解生产过程,并将其与相应成果数据对照检查。
教育
元数据在教育领域的应用可以分为三方面,其一为教育资源组织上,教育资源的多源异构、共享程度低、
互操作性差的问题,元数据技术可供研发教育共享服务平台。其二是
电子书包、
电子课本是目前教育信息化领域的关注热点,电子课本元数据模型定义了电子课本元数据体系的层次结构、内容类别与一致性关系。其三是MOOC(
慕课)和远程教育的发展,系统的复杂性越来越高,需要远程教育领域的知识共享系统而这个系统依赖于元数据和本体技术层面来实现。
电子政府
政府信息共享是电子政府建设的关键内容,然而目前政府资源管理系统比较独立,缺乏统一的资源信息管理,基于元数据的电子管理系统逐渐成为研究重点。语义元数据在电子政府
信息资源目录体系和政府信息资源检索系统的应用,包括政务院数据标准的修订;基于云服务的电子政务框架e
.gov Cloud框架,通过“虚拟资源中心”实现资源物理上的分布存储和逻辑上的集中管理,并建立政务领域的元数据规范作为统一的语义基础设施,进而支持跨部门异构信息资源的共享和统一管理,以此为基础进一步提出支持跨部门业务协同的政府
虚拟组织。