数据仓库,olap与数据挖掘之间的关系

类别:编程语言 点击:0 评论:0 推荐:
要说明他们的关系,不得不说说商务智能。从技术角度看,商务智能的过程是企业的决策人员以企业中的数据仓库为基础,经由数据挖掘工具、联机分析处理工具加上决策规划人员的专业知识,从数据中获得有用的信息和知识,帮助企业获取更多的利润。
      数据仓库是一个用以更好地支持企业或组织的决策分析处理的的数据集合,它有面向主题、集成、相对稳定、随时间不断变化四个特性,将数据仓库与传统的面向事务处理的数据库区分开来。数据仓库的关键技术包括数据的抽取、清洗、转换、加载和维护技术。
    联机分析处理(OLAP)是以海量数据为基础的复杂分析技术。 它支持各级管理决策人员从不同的角度、快速灵活地对数据仓库中的数据进行复杂查询和多维分析处理,并且能以直观易懂的形式将查询和分析结果展现给决策人员。OLAP使用的逻辑数据模型为多维数据模型。常用的OLAP多维分析操作有上钻、下钻、切片、切块、旋转等。多维数据模型在物理实现时,主要有三种方式:ROLAP结构MOLAP结构HOLAP结构。其中ROLAP是基于关系数据库的OLAP实现, MOLAP是基于多维数据组织的OLAP实现,HOLAP是基于混合数据组织的OLAP实现。
  数据挖掘(Data Mining)是从海量数据中,提取隐含在其中的、人们事先不知道的但又可能有用的信息和知识的过程。数据挖掘的数据有多种来源,包括数据仓库、数据库或其他数据源。所有的数据都需要再次进行选择,具体的选择方式与任务相关。挖掘的结果需要进行评价才能最终成为有用的信息,按照评价结果的不同,数据可能需要反馈到不同的阶段,重新进行分析计算。数据挖掘的常用方法包括关联分析、分类和预测、聚类、检测离群点、趋势和演变分析等。可以说:联机分析处理和数据挖掘是数据仓库之上的增值技术。
    在理论研究上,OLAP技术的研究人员主要来自数据库界,重点研究CUBE压缩与计算、实体化视图的选择与维护、多维数据的索引和多维查询处理等技术,以便能够在海量数据上提供秒级的分析请求响应时间。数据挖掘技术的研究人员来自人工智能、统计、数据库界,其研究主要集中在各种挖掘算法和评价方法上,研究可伸缩的数据挖掘方法、基于约束的挖掘方法、复杂数据类型的挖掘等。
    联机分析处理和数据挖掘虽然是数据仓库上获取两种不同目标的数据增值技术,但这两类技术如果能够在一定程度上融合,会使分析操作智能化,使挖掘操作目标化,从而全面提升商务智能技术的实用价值。即:一方面,联机分析技术可以为数据挖掘提供预期的挖掘对象和目标,避免挖掘的盲目性。另一方面,数据挖掘技术可以使联机分析处理智能化,减少分析人员手工操作的繁杂性,减轻分析人员的负担。例如,当分析人员在手工分析操作中发现离群点数据,可以有针对性地直接对此数据利用数据挖掘技术寻找原因,从中找出恶意违规或发现新的需求点。又如,在数据分析过程中,通过跟踪分析人员的操作过程,利用数据挖掘技术预测他可能感兴趣的操作和数据,提前预计算或预取数据,从而提高分析操作的响应时间。
    因此可以说,基于数据仓库的联机分析处理技术与数据挖掘技术的融合和互补,将是商务智能技术发展的未来走向。

本文地址:http://com.8s8s.com/it/it22467.htm