数据仓库
数据仓库的特征
数据仓库之父比尔.恩门将数据仓库定义为面向主题的、集成的、时变的、非易失的数据集合,用于支持管理决策过程。这个定义描述了数据仓库的四个主要特征。
(1)面向主题的是指数据仓库一般是围绕特定主题而建立的,如客户、供应商、产品和销售等。数据仓库是特定主题数据的简明视图。
(2)集成是指数据仓库将多种不同的数据源,例如关系数据库、文本文件或联机事务记录,集成在一起,并统一命名、单位和格式,统一存取,为数据分析提供语法和语义一致的数据源。
(3)时变是指数据仓库中的数据横跨较长的时间段,不但提供历史数据,而且在数据结构中强制使用时间维度,隐式或显式地包含时间元素。
(4)非易失是指数据仓库中的数据和联机运营数据完全物理隔离而单独存储。
2、多维数据模型
数据仓库采用多维数据模型——数据立方体来组织数据。数据立方体由维度和事实来定义,维度是数据的字段名,而事实则是具体的数据。数据仓库将特定主题的所有相关数据集中在一起,不同数据源中的字段被统一整理成数据仓库中的维度。维度和事实也可以理解成“地址”和“内容”。多个维度就像坐标一样确定一个具体的地址,这个位置上的内容是事实。例如,一个销售数据,厦门的张三购买了3部手机。在这个销售主题的数据模型中包含了三个维度:产品(手机)、地点(夏门)和客户(张三),而3部是事实。数据仓库采用多维数据模型是为了方便选取不同维度从不同侧面来分析数据。多维数据模型中包含大量的维度,数据立方只是一个比喻。数据仓库可以理解成围绕特定主题而专门建立的巨型多维数据库。
3、客户管理系统(客户管理软件CRM)与数据仓库
客户管理系统(客户管理软件CRM)的核心是数据,客户管理系统(客户管理软件CRM)需要引入数据仓库技术来提供一致的、面向分析的数据存储和访问环境。
一方面,来自销售、客户服务、运营等部门的数据分散在企业内部各处的数据库中,造成了大量的“信息孤岛”,使得各部门无法全面了解客户,难以在统一的信息基础上对客户进行服务,更不要说对客户关系进行管理。数据仓库可以把各个数据库集成在一起,实现数据共享。有了数据仓库,无论是营销部门的策划、市场部门的预算,或是客户服务部门的支持,用的都是统一的客户数据源。数据仓库为有效利用客户数据提供了基础。
另一方面,传统数据库系统是为企业的日常事务而设计,主要是面向工作流程,而非专门为分析所设计。在客户管理系统(客户管理软件CRM)中,数据的存取一致性、操纵便利性和长时间的跨度是支撑数据分析地进行。在比较成熟的客户管理系统(客户管理软件CRM)中,联机分析处理和数据挖掘等数据分析都以数据仓库为基础。数据仓库为有效分析客户数据提供了优化。