GSB快充网络
元数据一般被定义为:描述数据的数据,对数据及信息资源的描述性信息。GSB快充网络
GSB快充网络
在数据仓库系统和大数据环境中,元数据的定义比一般意义的数据范畴更加广泛。不仅表示数据的类型、名称、值等信息,还可以提供数据的上下文描述信息(比如数据的所属区域、取值范围、 数据间的关系、业务规则、数据来源等等)。GSB快充网络
GSB快充网络
GSB快充网络
在数据仓库和大数据领域中,元数据按用途一般可以分成技术元数据、业务元数据、管理元数据三类。GSB快充网络
GSB快充网络
技术元数据GSB快充网络
– 包含关于系统数据技术层面的信息GSB快充网络
– 数据源元数据GSB快充网络
– ETL元数据GSB快充网络
– 数据仓库元数据GSB快充网络
– 数据集市元数据GSB快充网络
– OLAP SERVER元数据GSB快充网络
– 前端展现元数据GSB快充网络
– 其它类型元数据(挖掘模型、数据质量分析结果等)GSB快充网络
GSB快充网络
业务元数据GSB快充网络
– 业务名称、定义、描述和别名来表示数据仓库和业务系统中的各种属性,直接供业务分析人员使用GSB快充网络
– 业务元数据使系统使用人员能够更好理解、使用数据仓库, 成为系统使用人员在数据仓库中的业务向导GSB快充网络
GSB快充网络
管理元数据GSB快充网络
– 主要是指分析日常工作过程中,涉及开发、运维等管理流程的基本信息GSB快充网络
GSB快充网络
GSB快充网络
GSB快充网络
企业有哪些数据?GSB快充网络
它们在哪里用?GSB快充网络
它的业务定义是什么?GSB快充网络
这个数据还叫什么?GSB快充网络
它与其他数据有什么关系?GSB快充网络
谁用这个数据?GSB快充网络
为什么我们要用它?GSB快充网络
最近修改是什么时候?GSB快充网络
这些数据准确、可靠吗?GSB快充网络
GSB快充网络
GSB快充网络
理解企业内部的信息资源GSB快充网络
建立动态的数据字典GSB快充网络
实现数据的浏览和归纳GSB快充网络
数据在企业内部横向与纵向传递GSB快充网络
保持整个企业的标准(保证企业内部统一的商业定义和商业规则)GSB快充网络
数据生命周期的管理GSB快充网络
GSB快充网络
GSB快充网络
GSB快充网络
元模型可以理解为关于元数据的“元数据”,元模型进一步定义了元数据的语义和结构,是对元数据模型层的进一步抽象。元模型必须能够达到一定的语义要求,以确保它能够对问题领域的各个方面都能够进行建模,进一步方便了元数据管理的扩展。采用元模型驱动的体系结构对于企业建模有重要价值,它解决了数据一致性与信息共享问题。GSB快充网络
GSB快充网络
比较流行的元数据规范包括:GSB快充网络
MDIS (Meta Data Interchange Specification)GSB快充网络
– 元数据联盟发布的元数据交换规范GSB快充网络
GSB快充网络
OIM (Open Information Model)GSB快充网络
– CA和微软的元数据标准GSB快充网络
– OIM组织已经解散GSB快充网络
GSB快充网络
CWM (Common Warehouse Metamodel)GSB快充网络
– OMG组织制定的标准GSB快充网络
– 得到IBM,NCR,SAS,Hyperion等公司支持GSB快充网络
– 利用XMI文件进行交换GSB快充网络
GSB快充网络
GSB快充网络
OMG组织在其已制定的规范UML、MOF、XMI的基础上提出公共仓库元模型(CWM)。GSB快充网络
GSB快充网络
CWM是OMG制定的一个互操作标准,为数据仓库和业务分析领域中使用的元数据定义了一种通用语言和交换机制。CWM不仅提供了极受欢迎的描述数据仓库与业务分析元数据的公共元模型,而且还提供了基于XML的交换工具。CWM本质上是一种交换技术,其目的是促进多个厂商的不同软件工具间的元数据交换活动。GSB快充网络
GSB快充网络
GSB快充网络
CWM的内容按包组织,每个包尽量涉及一个独立的领域,这样极大地方便了开发者的建模工作,因为在建模时只取所需的包即可。每个包都由一系列UML表示的类图组成。虽然这些包描述的领域不尽相同,但它们组织结构并不完全独立,事实上,它们之间有着紧密的依赖关系。在CWM的内容框架中,同层的包的功能角色类似,如第二层中的包描述的都是数据仓库的数据资源。每一层中的包都为同层或上层的包提供服务,如第三层包描述的操作都是基于第二层包描述的数据资源,层次越高描述的内容越抽象。在包的结构方面,或者上层包中的类和关联继承下层包中的类和关联,或者在上层的包直接使用下层包中定义的类或关联,这样做既使整个元模型组织更精练,又使CWM在功能结构上十分清晰。GSB快充网络
GSB快充网络
最底层的是ObjectModel,分析CWM 的继承图,会发现它是整个CWM 的基础。ObjectModel 实际是UML 的一个子集, CWM 最大程度地重用了UML 中与描述数据仓库领域相关的一些模型元素。CWM 所有包的类与关联都是直接或间接地继承ObjectModel 中的类与关联,这样,CWM 可以看作是从ObjectModel 生长出来的一棵大树,树的根部就是ObjectModel。ObjectModel 以上的四个层次依次为:Foundation 层、 Resource 层、 Analysis 层、Management层。每个层次中的包都为高层(或同层)的包提供服务。GSB快充网络
GSB快充网络
Foundation 层的元模型主要是代表上层CWM 包共享的概念与结构,如表达式、索引、数据类型、软件配置信息等,虽然这些都是很基本的信息,但它们与ObjectModel 中的元素又有所不同,因为这些模型元素专有于CWM 领域,而ObjectModel 中的元素则更具一般性和通用性。Foundation 层中的包以字母顺序给出;Resource 层中包含了OLTP系统与数据仓库所使用的各种数据资源,有关系的、层次的、多维的等等,这些数据源都要用到Foundation的通用信息,如关系包中描述索引和关键字的类都是从Foundation 层的Keys and Indexs 包中继承而来。此外,ObjectModel恰好是面向对象的数据源,因此,ObjectModel 在整个CWM 承担着两种角色,一方面作为整个CWM 的基础,另一个方面又代表了面向对象数据源;Analysis 层提供了数据仓库各种操作的元模型,包括OLAP、数据挖掘、转换等,它们会被映射到由Resource 层的包所定义的数据存储中去。GSB快充网络
GSB快充网络
GSB快充网络
GSB快充网络
元数据库就是一个逻辑上的统一存储元数据的地点GSB快充网络
GSB快充网络
元数据存储常见的形式:GSB快充网络
– 分散存储GSB快充网络
– 统一存储,提供不同接口GSB快充网络
– 统一存储,统一接口GSB快充网络
GSB快充网络
现阶段一般采用统一存储、统一接口的方式,如下图所示:GSB快充网络
GSB快充网络
GSB快充网络
GSB快充网络
元数据管理(Meta Data Management)是数据资产管理的重要基础,是为获得高质量的、整合的元数据而进行的规划、实施与控制行为。GSB快充网络
GSB快充网络
元数据管理的内容可以从以下六个角度进行概括,即“向前看”: “我”是谁加工出来的;“向后看”:“我”又支持了谁的加工;“看历史”:过去的“我”长什么样子;“看本体”:“我”的定义和格式是什么;“向上看”:“我”的父节点是谁;“向下看”:“我”的子节点是谁。元数据管理的关键活动包括:GSB快充网络
GSB快充网络
– 理解企业元数据管理需求GSB快充网络
– 开发和维护元数据标准GSB快充网络
– 建设元数据管理工具GSB快充网络
– 创建、采集、整合元数据GSB快充网络
– 管理元数据存储库GSB快充网络
– 分发和使用元数据GSB快充网络
– 元数据分析(血缘分析、影响分析、数据地图等)GSB快充网络
GSB快充网络
通过元数据管理活动,可以使企业数据信息的描述和分类实现格式统一,有助于理解数据的真实含义,为数据资源的管理和数据应用奠定了基础。GSB快充网络
GSB快充网络
元数据管理工具是元数据浏览、展示和管理的平台。知名的元数据管理工具包括:GSB快充网络
GSB快充网络
– DAG的MetacenterGSB快充网络
– IBM的MetastageGSB快充网络
– DB2, Teradata,Oracle等数据仓库中的元数据管理模块GSB快充网络
– Informatica MetaManager(superGlue)GSB快充网络
– Apache AtlasGSB快充网络
GSB快充网络 |