数据仓库和元数据管理

作者&投稿:漕霞 (若有异议请与网页底部的电邮联系)
~      前言   在事务处理系统中的数据 主要用于记录和查询业务情况 随着数据仓库(DW)技术的不断成熟 企业的数据逐渐变成了决策的主要依据 数据仓库是一种面向决策主题 由多数据源集成 拥有当前及历史总结数据 以读为主的数据库系统 其目的是支持决策 数据仓库要根据决策的需要收集来自企业内外的有关数据 并加以适当的组织处理 使其能有效地为决策过程提供信息 数据仓库中的数据是从许多业务处理系统中抽取 转换而来 对于这样一个复杂的企业数据环境 如何以安全 高效的方式来对它们进行管理和访问就变得尤为重要 解决这一问题的关键是对元数据进行科学有效的管理 元数据是关于数据 操纵数据的进程和应用程序的结构和意义的描述信息 其主要目标是提供数据资源的全面指南 元数据不仅定义了数据仓库中数据的模式 来源以及抽取和转换规则等 而且整个数据仓库系统的运行都是基于元数据的 是元数据把数据仓库系统中的各个松散的组件联系起来 组成了一个有机的整体   本文首先介绍了元数据的定义 作用和意义 然后讨论了数据仓库系统中元数据管理的现状和关于元数据的标准化情况 最后提出了建立元数据管理系统的步骤和实施方法      元数据    元数据的概念  按照传统的定义 元数据(Metadata)是关于数据的数据 在数据仓库系统中 元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据 元数据是描述数据仓库内数据的结构和建立方法的数据 可将其按用途的不同分为两类 技术元数据(Technical Metadata)和业务元数据(Business Metadata)   技术元数据是存储关于数据仓库系统技术细节的数据 是用于开发和管理数据仓库使用的数据 它主要包括以下信息   &# ; 数据仓库结构的描述 包括仓库模式 视图 维 层次结构和导出数据的定义 以及数据集市的位置和内容   &# ; 业务系统 数据仓库和数据集市的体系结构和模式   &# ; 汇总用的算法 包括度量和维定义算法 数据粒度 主题领域 聚集 汇总 预定义的查询与报告   &# ; 由操作环境到数据仓库环境的映射 包括源数据和它们的内容 数据分割 数据提取 清理 转换规则和数据刷新规则 安全(用户授权和存取控制)   业务元数据从业务角度描述了数据仓库中的数据 它提供了介于使用者和实际系统之间的语义层 使得不懂计算机技术的业务人员也能够 读懂 数据仓库中的数据 业务元数据主要包括以下信息 使用者的业务术语所表达的数据模型 对象名和属性名 访问数据的原则和数据的来源 系统所提供的分析方法以及公式和报表的信息 具体包括以下信息   &# ; 企业概念模型 这是业务元数据所应提供的重要的信息 它表示企业数据模型的高层信息 整个企业的业务概念和相互关系 以这个企业模型为基础 不懂数据库技术和SQL语句的业务人员对数据仓库中的数据也能做到心中有数   &# ; 多维数据模型 这是企业概念模型的重要组成部分 它告诉业务分析人员在数据集市当中有哪些维 维的类别 数据立方体以及数据集市中的聚合规则 这里的数据立方体表示某主题领域业务事实表和维表的多维组织形式   &# ; 业务概念模型和物理数据之间的依赖 以上提到的业务元数据只是表示出了数据的业务视图 这些业务视图与实际的数据仓库或数据库 多维数据库中的表 字段 维 层次等之间的对应关系也应该在元数据知识库中有所体现      元数据的作用  在数据仓库系统中 元数据机制主要支持以下五类系统管理功能 (1)描述哪些数据在数据仓库中 (2)定义要进入数据仓库中的数据和从数据仓库中产生的数据 (3)记录根据业务事件发生而随之进行的数据抽取工作时间安排 (4)记录并检测系统数据一致性的要求和执行情况 (5)衡量数据质量   与其说数据仓库是软件开发项目 还不如说是系统集成项目[ ] 因为它的主要工作是把所需的数据仓库工具集成在一起 完成数据的抽取 转换和加载 OLAP分析和数据挖掘等 如图 所示 它的典型结构由操作环境层 数据仓库层和业务层等组成     其中 第一层(操作环境层)是指整个企业内有关业务的OLTP系统和一些外部数据源 第二层是通过把第一层的相关数据抽取到一个中心区而组成的数据仓库层 第三层是为了完成对业务数据的分析而由各种工具组成的业务层 图中左边的部分是元数据管理 它起到了承上启下的作用 具体体现在以下几个方面   &# ; 便于集成  &# ; 提高系统的灵活性  &# ; 保证数据的质量  &# ; 帮助用户理解数据的意义     数据仓库元数据管理现状   元数据管理的主要任务有两个方面 一是负责存储和维护元数据库中的元数据 二是负责数据仓库建模工具 数据获取工具 前端工具等之间的消息传递 协调各模块和工具之间的工作   由以上几节我们了解到元数据几乎可以被称为是数据仓库乃至商业智能(BI)系统的 灵魂 正是由于元数据在整个数据仓库生命周期中有着重要的地位 各个厂商的数据仓库解决方案都提到了关于对元数据的管理 但遗憾的是对于元数据的管理 各个解决方案都没有明确提出一个完整的管理模式 它们提供的仅仅是对特定的局部元数据的管理 当前市场上与元数据有关的主要工具见图     如图 所示 与元数据相关的数据仓库工具大致可分为四类    数据抽取工具 把业务系统中的数据抽取 转换 集成到数据仓库中 如Ardent的DataStage CA(原Platinum)的Decision Base和ETI的Extract等 这些工具仅提供了技术元数据 几乎没有提供对业务元数据的支持    前端展现工具 包括OLAP分析 报表和商业智能工具等 如MicroStrategy的DSS Agent Cognos的PowerPlay Business Objects的BO 以及Brio等 它们通过把关系表映射成与业务相关的事实表和维表来支持多维业务视图 进而对数据仓库中的数据进行多维分析 这些工具都提供了业务元数据与技术元数据相对应的语义层    建模工具 为非技术人员准备的业务建模工具 这些工具可以提供更高层的与特定业务相关的语义 如CA的ERwin Sy *** ase的PowerDesigner以及Rational的Rose等    元数据存储工具 元数据通常存储在专用的数据库中 该数据库就如同一个 黑盒子 外部无法知道这些工具所用到和产生的元数据是如何存储的 还有一类被称为元数据知识库(Metadata Repository)的工具 它们独立于其它工具 为元数据提供一个集中的存储空间 包括微软的Repository CA的Repository Ardent的MetaStage和Sybase的WCC等      元数据管理的标准化   没有规矩不成方圆 元数据管理之所以困难 一个很重要的原因就是缺乏统一的标准 在这种情况下 各公司的元数据管理解决方案各不相同 近几年 随着元数据联盟MDC(Meta Data Coalition)的开放信息模型OIM(Open Information Model)和OMG组织的公共仓库模型CWM(Common Warehouse Model)标准的逐渐完善 以及MDC和OMG组织的合并 为数据仓库厂商提供了统一的标准 从而为元数据管理铺平了道路   从元数据的发展历史不难看出 元数据管理主要有两种方法   ( ) 对于相对简单的环境 按照通用的元数据管理标准建立一个集中式的元数据知识库   ( ) 对于比较复杂的环境 分别建立各部分的元数据管理系统 形成分布式元数据知识库 然后 通过建立标准的元数据交换格式 实现元数据的集成管理   下面我们分别介绍数据仓库领域中两个最主要的元数据标准 MDC的OIM标准和OMG的CWM标准      MDC的OIM存储模型  MDC成立于 年 是一个致力于建立与厂商无关的 不依赖于具体技术的企业元数据管理标准的非赢利技术联盟 该联盟有 多个会员 其中包括微软和IBM等著名软件厂商 年 月MDC接受了微软的建议 将OIM作为元数据标准   OIM的目的是通过公共的元数据信息来支持不同工具和系统之间数据的共享和重用 它涉及了信息系统(从设计到发布)的各个阶段 通过对元数据类型的标准描述来达到工具和知识库之间的数据共享 OIM所声明的元数据类型都采用统一建模语言UML(Universal Modeling Language)进行描述 并被组织成易于使用 易于扩展的多个主题范围(Subject Areas) 这些主题范围包括   &# ; 分析与设计(Analysis and Design) 主要用于软件分析 设计和建模 该主题范围又进一步划分为 UML包(Package) UML扩展包 通用元素(Generic Elements)包 公共数据类型(Common Data Types)包和实体关系建模(Entity Relationship Modeling)包等   &# ; 对象与组件(Object and Component) 涉及面向对象开发技术的方方面面 该主题范围只包含组件描述建模(Component Description Modeling)包   &# ; 数据库与数据仓库(Database and Warehousing) 为数据库模式管理 复用和建立数据仓库提供元数据概念支持 该主题范围进一步划分为 关系数据库模式(Relational Database Schema)包 OLAP模式(OLAP Schema)包 数据转换(Data Transformations)包 面向记录的数据库模式(Record Oriented Database Schema)包 XML模式(XML Schema)包和报表定义(Report Definitions)包等   &# ; 业务工程(Business Engineering) 为企业运作提供一个蓝图 该主题范围进一步划分为 业务目标(Business Goal)包 组织元素(Organizational Elements)包 业务规则(Business Rules)包 商业流程(Business Processes)包等   &# ; 知识管理(Knowledge Management) 涉及企业的信息结构 该主题范围进一步划分为 知识描述(Knowledge lishixinzhi/Article/program/Oracle/201311/18587




mysql存储hive元数据有什么好处
一般来说,它有两方面的用途。首先,元数据能提供基于用户的信息,如记录数据项的业务描述信息的元数据能帮助用户使用数据。其次,元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。具体来说,在数据仓库系统中,元数据机制主要支持以下五类系统管理功能:(1...

1.企业经历过两次失败的数据仓库建设,现在是第三次,人们普遍认为这次也...
NoSQL型数据仓库:一般是基于hadoop生态的数据仓库。hadoop生态已经非常强大,可以找到各种开源组件去支持数据仓库。缺点是需要招聘专门人士去摸索,并且相对会存在一些未知隐患。4、最后是设计与实施 设计:包括数据架构中的数据层次划分以及具体的模型设计;也包括程序架构中的数据质量管理、元数据管理、调度管理...

浅析数据仓库的构建方法
数据源,包括企业内部的业务数据、遗留数据、其它业务系统数据及相关WEB数据等;数据转换是数据仓库构建的重要环节,主要是对各种复杂的数据源进行抽取、转换、装载及其他处理,同时要实现数据质量跟踪监控以及元数据抽取与创建等工作;数据仓库主要实现对各种数据的组织、存储及管理等;数据集市是为不同业务而...

“EDW”是什么意思?
EDW的缩写主要用于商业领域,特别是通用商务环境中,它在企业数据管理、主数据管理、移动增值业务运营、电信行业数据设计、元数据集成架构以及运营数据仓储等方面都有应用。例如,"Master Data Management in Enterprise Data Warehouse"研究了如何在企业数据仓库中有效地管理主数据;"Mobile Value-added Service ...

商业智能的核心技术是什么
数据仓库的特点是面向主题的、集成的、与时间相关的、不可修改的数据集合。实施BI首先要从企业内部和企业外部不同的数据源,如CRM、SCM、ERP系统及其他应用系统等搜集有用的数据,进行转换和合并,因此需要数据仓库和数据集市技术的支持。2、ETL数据处理,ETL 的英文全称叫做 Extraction(抽取),...

电子文件元数据是否可以被正常访问
因此,元数据实际上就是对数据进行著录而得到的著录信息,这些著录信息专门用于电子文件的管理,以保证电子文件的真实性、可靠性,元数据就是为了提高电子文件的凭证性而提出来的。基本介绍:元数据(MetaData)是关于数据仓库的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关...

数据仓库分类及开发模式?
自顶向下和自底向上策略的联合使用具有两种策略的优点,既能快速的完成数据仓库的开发与应用,还可建立具有长远价值的数据仓库方案。但在实践中往往难以操作,通常需要能够建立、应用和维护企业模型、数据模型和技术结构的、具有丰富经验的开发人员,能够熟练的从具体(如业务系统中的元数据)转移到抽象(只...

...企业的IT组织经济高效地管理数据仓库中激增的数据量?
根据生产数据仓库的结构变化自动管理存档数据的元数据和结构,Informatica Data Archive减少了存档基础设施所需的维护工作。5.通用连接 如果您的组织与许多其他企业类似,则您的数据仓库和应用程序可能在不同操作系统上的多个数据库系统中运行。为了支持您的企业需求,Informatica?Data?Archive允许您管理数据仓库...

数据仓库与数据挖掘问题
包括数据装载、数据管理和信息访问几个部分,是高端数据仓库市场最有力竞争者,主要运行在基于Unix操作系统平台的NCR硬件设备上;Sybase提供了称为Warehouse Studio的一整套覆盖整个数据仓库建立周期的产品包,包括数据仓库的建模、数据集成和转换、数据存储和管理、元数据管理和数据可视化分析等产品;...

为何有人说数据将成为无价之宝?
即使涉及底层数据管理的相关产品也是对Meta元数据、使用日志或写好的shell等的调用。 底层数据加工计算所涉及到的传输效率,直接决定了支撑数据产品高性能、高可靠的自身需求;而应用层的传输影响了用户体验和场景实现。传输机制和体系就像毛细血管一样遍布全身错综复杂,但是流通速率直接决定了大脑供氧是否充足。 2. 数据...

阿坝藏族羌族自治州17722859414: 关于数据仓库中的元数据的问题 -
少桑脂降: (1) 技术元数据 技术元数据是存储关于商业智能系统技术细节的数据,是用于开发和管理商业智能系统使用的数据.它主要包括以下信息:商业智能系统结构的描述,包括对数据源、数据转换、抽取过程、数据加载策略以及对目标数据库的定义...

阿坝藏族羌族自治州17722859414: 元数据库是什么?与数据库有何区别? -
少桑脂降: 关于这个问题,用来描述数据的数据就是元数据! 元数据库是指用来描述其他表信息的数据表. 例如: 存放在学生表中的数据称为数据----Data.而在我们创建表的时候,指定的表的名字,字段的名字,字段的类型,表的约束信息也是数据,这些数据称为表的元数据----MetaData

阿坝藏族羌族自治州17722859414: 什么是元数据 -
少桑脂降: 元数据最本质、最抽象的定义为:data about data .它是一种广泛存在的现象,在许多领域有其具体的定义和应用. 数据仓库 在数据仓库领域中, 元数据按用途分成技术元数据和业务元数据.首先,元数据能提供基于用户的信息,如记录数据...

阿坝藏族羌族自治州17722859414: 什么是元数据管理及其作用? -
少桑脂降: 元数据管理是一个根据使用这些资产的方式来管理组织的数据资产的流程.此流程能集成、链接和集中管理多个来源的元数据,便于在整个组织内妥善维护、分析、消费和解释数据.当从业务元数据和技术元数据中得出数据的含义时,可以更有...

阿坝藏族羌族自治州17722859414: 数据仓库是什么意思啊?通俗的讲
少桑脂降: 数据仓库是一个环境,而不是一件产品,提供用户用于决策支持的当前和历史数据,这些数据在传统的操作型数据库中很难或不能得到.数据仓库技术是为了有效的把操作形数据集成到统一的环境中以提供决策型数据访问,的各种技术和模块的总称.所做的一切都是为了让用户更快更方便查询所需要的信息,提供决策支持. 数据仓库的组成 数据抽数据净化 数据载入 信息发布系统 操作型数据和外界数据 数据集市 报表,查询, EIS工具 OLAP 工具 数据挖掘工具 操纵平台 元数据 管理平台

阿坝藏族羌族自治州17722859414: 元数据标准的意义 -
少桑脂降: 说到元数copy据的意义,可以从其应用目的来谈的.虽然做数据仓库言必称元数据,必称技术、业务元数据,但其到底用于何处?离开了目标去谈元数据,就发现元数据包含太多的东西,因为他是描述数据的数据嘛. 还是那客户关系系统来bai...

阿坝藏族羌族自治州17722859414: 什么是元数据管理系统? -
少桑脂降: 一、系统简介 随着计算机技术和GIS技术的发展,管理和访问大型数据集的复杂性已成为数据生产者和用户共同面临的突出问题,数据生产者需要有效的办法来组织、管理和维护海量数据.元数据作为描述数据的内容、质量、状况和其他特性的信息的作用已变得越来越重要,成为信息资源的有效管理和应用的重要手段.二、系统功能 该系统具有新建元数据、打开元数据、导入文本文件、导入模板、打开质检信息、批处理元数据等功能.

阿坝藏族羌族自治州17722859414: 元数据驱动 什么是元数据驱动 -
少桑脂降: 这个应该是说 通过使用元数据,不断的完善现有的技术元数据与业务元数据.通过完善的过程来指导整个数据仓库的建立.元数据驱动的数据仓库开发过程可以细分为以下阶段:1) 建立元数据 a. 定义元数据的数据源;b. 定义元数据的内容和属性;c. 定义元数据使用规则;d. 声明元数据联合使用的规则;元数据驱动,螺旋上升的数据仓库开发方式优点包括:1. 建立中央数据仓库系统数据的统一视图;2. 统一的元数据管理;3. 灵活的体系结构;4. 可扩展的架构;与之相对的是“模型驱动构架”(MDA),它是OMG定义的一个软件开发框架.MDA的关键之处是,模型在软件开发过程中扮演了非常重要的角色.在MDA中,软件开发过程是由对软件系统的建模行为驱动的.

阿坝藏族羌族自治州17722859414: 元数据是什么 -
少桑脂降: ta,即关于数据的数据.元数据是信息共享和交换的基础和前提,用于描述数据集的内容、质量、表示方式、空间参考、管理方式以及数据集的其他特征. 随着信息技术不断发展,以及人们对信息共享的迫切需求,元数据技术被应用于更多的领域,如:在图书馆与信息界,元数据被定为提供关于信息资源或数据的一种结构化的数据,是对信息资源的结构化的描述;在数据仓库领域中,元数据被 被定义为描述数据及其环境的数据;在软件构造领域,元数据被定义为在程序中不是被加工的对象,而是通过其值的改变来改变程序的行为的数据.

阿坝藏族羌族自治州17722859414: 元数据 是什么 -
少桑脂降: 元数据的作用和意义: 元数据是关于数据的描述性数据信息,说明数据内容、质量、状况和其他有关特征的背景信息.其目的是促进数据集的高效利用,并为计算机辅助软件工程服务. 帮助数据生产单位有效的维护和管理数据; 提供有关数据生产单位的各种有关信息供用户查询; 帮助用户了解数据; 提供有关信息,以便用户处理和转换有用数据. 采用元数据可以便于数据共享. 以上内容均根据学员实际工作中遇到的问题整理而成,供参考,如有问题请及时沟通、指正.

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网