数据仓库技术的进步及体系结构
1 数据仓库技术的发展及概念
传统的数据库技术是以单一的数据资源,即数据库为中心,进行事务处理工作的。然而,不同类型的数据有着不同的处理特点,以单一的数据组织方式进行组织的数据库并不能反映这种差异,满足不了现代商业企业数据处理多样化的要求。总结起来,当前的商、世企业数据处理可以大致地划分为2大类:操作型处理和分析型处理。操作型处理也叫事务型处理,主要是为企业的特定应用服务的(这是目前最为常用的),分析型处理则用于商业企业管理人员的决策分析,这种需求既要求联机服务,又涉及大量用于决策的数据,传统的数据库系统已经无法满足,具体体现在:
1)历史数据量大;
2)辅助决策信息涉及许多部门的数据,而不同系统的数据难以集成;
3)由于访问数据的能力不足,它对大量数据的访问能力明显下降。
数据仓库技术的出现为解决上述问题提供了新的思路。数据仓库的创始人Inmon指出:“数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持经营管理中的决策制定过程”。它从大量的事务型数据中抽取数据,并将其清理、转换为新的存储格式,即为决策目标把数据聚合在一种特殊的格式中,作为决策分析的数据基础,从而在理论上解决了从不同系统的数据库中提取数据的难题。同时,利用联机分析处理(OLAP)技术可以对数据仓库提供的数据进行深入加工。
2 企业数据仓库的体系结构
一个典型的企业数据仓库系统通常包含数据源、数据存储与管理、OLAP服务器以及前端工具与应用4个部分。
1)数据源。
数据源是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于企业操作型数据库中(通常存放在RD-BMS中)的各种业务数据,外部信息包括各类法律法规、市场信息、竞争对手的信息以及各类外部统计数据及各类文档等。
2)数据的存储与管理。
数据的存储与管理是整个数据仓库系统的核心。在现有各业务系统的基础上,对数据进行抽取、清理,并有效集成,按照主题进行重新组织,最终确定数据仓库的物理存储结构,同时组织存储数据仓库元数据(具体包括数据仓库的数据字典、记录系统定义、数据转换规则、数据加载频率以及业务规则等信息)。按照数据的覆盖范围,数据仓库存储可以分为企业级数据仓库和部门级数据仓库(通常称为“数据集市”,Data Mart)。数据仓库的管理包括数据的安全、归档、备份、维护、恢复等工作。这些功能与目前的DBMS基本一致。
3)OLAP服务器。
对分析需要的数据按照多维数据模型进行再次重组,以支持用户多角度、多层次的分析,发现数据趋势。
4)前端工具与应用。
前端工具主要包括各种数据分析工具、报表工具、查询工具、数据挖掘工具以及各种基于数据仓库或数据集市开发的应用。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具既针对数据仓库,同时也针对OLAP服务器。 (编辑:ASP站长网) |