2. 数据挖掘的一般流程
7.1数据挖掘环境
数据挖掘环境可示意如下图:
数据库1
数据库2
数据库n
数据挖掘工具
可视化工具
7.2数据库挖掘过程
1. 确定业务对象
清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步.挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的.
2. 数据准备
1)数据清理
消除噪声或不一致数据。
2)数据集成
多种数据源可以组合在一起
3)数据选择
搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据.
4)数据变换
将数据转换成一个分析模型.这个分析模型是针对挖掘算法建立的.建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键.
3. 数据挖掘
对所得到的经过转换的数据进行挖掘.除了完善从选择合适的挖掘算法外,其余一切工作都能自动地完成.
4. 结果分析
解释并评估结果.其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术.
5. 知识的同化
将分析所得到的知识集成到业务信息系统的组织结构中去.
3. 数据挖掘热点
8.1电子商务网站的数据挖掘
在对网站进行数据挖掘时,所需要的数据主要来自于两个方面:一方面是客户的背景信息,此部分信息主要来自于客户的登记表;而另外一部分数据主要来自浏览者的点击流,此部分数据主要用于考察客户的行为表现。但有的时候,客户对自己的背景信息十分珍重,不肯把这部分信息填写在登记表上,这就会给数据分析和挖掘带来不便。在这种情况之下,就不得不从浏览者的表现数据中来推测客户的背景信息,进而再加以利用。就分析和建立模型的技术和算法而言,网站的数据挖掘和原来的数据挖掘差别并不是特别大,很多方法和分析思想都可以运用。所不同的是网站的数据格式有很大一部分来自于点击流,和传统的数据库格式有区别。因而对电子商务网站进行数据挖掘所做的主要工作是数据准备。
8.2生物基因的数据挖掘
生物基因数据挖掘则完全属于另外一个领域,在商业上很难讲有多大的价值,但对于人类却受益非浅。例如,基因的组合千变万化,得某种病的人的基因和正常人的基因到底差别多大?能否找出其中不同的地方,进而对其不同之处加以改变,使之成为正常基因?这都需要数据挖掘技术的支持。对于生物信息或基因的数据挖掘和通常的数据挖掘相比,无论在数据的复杂程度、数据量还有分析和建立模型的算法而言,都要复杂得多。从分析算法上讲,更需要一些新的和好的算法。现在还远没有达到成熟的地步。
8.3文本的数据挖掘
在现实世界中,可获取的大部分信息是存储在文本数据库中的,由来自各种数据源的大量文档组成。由于电子形式的信息量的飞速增长,文本数据库得到飞速的发展。文档数据库中存储最多的数据是所谓的半结构化数据(semistructure data),它既不是完全无结构的,也不是完全结构化的。在最近数据库领域研究中已由大量有关半结构化数据的建模和实现方面的研究。而且,信息检索技术已经被用来处理费结构化文档。传统的信息检索已经不适应日益增长的大量文本数据处理的需要。因此,文档挖掘就成为数据挖掘中一个日益流行而重要的流行课题。
8.4Web数据挖掘
Web上有海量的数据信息,怎样对这些数据进行复杂的应用成了现今数据库技术的研究热点。数据挖掘就是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题。充分利用有用的数据,废弃虚伪无用的数据,是数据挖掘技术的最重要的应用。显然,面向Web的数据挖掘比面向单个数据仓库的数据挖掘要复杂得多。因为它面临如下诸多挑战:
1. 对于有效的数据仓库和数据挖掘而言,Web的存储量实在是太庞大了。
2. Web页面的复杂性远比任何传统的文本文档复杂得多。
3. Web是一个动态性极强得信息源。
4. Web面对的是一个广泛形形色色的用户群体。
5. Web上的信息只有很小的一部分是相关的或有用的。
一般的,Web数据挖掘可分为三类:Web内容挖掘(Web content mining),Web结构挖掘(Web structure mining),Web使用纪律挖掘(Web usage mining)。
面向Web的数据挖掘是一项复杂的技术,由于上述种种挑战的存在,因而面向Web的数据挖掘成了一个难以解决的问题。而XML的出现为解决Web数据挖掘的难题带来了机会。由于XML能够使不同来源的结构化的数据很容易地结合在一起,因而使搜索多样的不兼容的数据库能够成为可能,从而为解决Web数据挖掘难题带来了希望。XML的扩展性和灵活性允许XML描述不同种类应用软件中的数据,从而能描述搜集的Web页中的数据记录。同时,由于基于XML的数据是自我描述的,数据不需要有内部描述就能被交换和处理。作为表示结构化数据的一个工业标准,XML为组织、软件开发者、Web站点和终端使用者提供了许多有利条件。相信在以后,随着XML作为在Web上交换数据的一种标准方式的出现,面向Web的数据挖掘将会变得非常轻松。
4. 数据挖掘的未来
当前,DMKD研究方兴未艾,其研究与开发的总体水平相当于数据库技术在70年代所处的地位,迫切需要类似于关系模式、DBMS系统和SQL查询语言等理论和方法的指导,才能使DMKD的应用得以普遍推广。DMKD的研究还会形成更大的高潮,研究焦点可能会集中到以下几个方面:
发现语言的形式化描述,即研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化。 寻求数据挖掘过程中的可视化方法,使知识发现的过程能够被用户理解,也便于在知识发现的过程中进行人机交互。 研究在网络环境下的数据挖掘技术(WebMining),特别是在因特网上建立DMKD服务器,并且与数据库服务器配合,实现WebMining。 加强对各种非结构化数据的开采(DataMining for Audio & Video),如对文本数据、图形数据、视频图像数据、声音数据乃至综合多媒体数据的开采。 交互式发现。 知识的维护更新。但是,不管怎样,需求牵引与市场推动是永恒的,DMKD将首先满足信息时代用户的急需,大量的基于DMKD的决策支持软件产品将会问世。只有从数据中有效地提取信息,从信息中及时地发现知识,才能为人类的思维决策和战略发展服务。也只有到那时,数据才能够真正成为与物质、能源相媲美的资源,信息时代才会真正到来。
10. 后记
由于本次实习时间较短,仓促中才把《数据挖掘概念和技术》《Data Minning Concepts and Techniques》这本书看完。同时我也上网查了许多的相关资料,由于国内现在数据挖掘这项技术还未普及,所以大多数相关的网站还是在国外,比如这些比较权威:http://www.datawarehouse.com/ ,http://www.kdnuggets.com/ ,http://www.dmreview.com/ ,http://www.dwinfocenter.org/ , 之后才写完了这篇读书笔记。
本文地址:http://com.8s8s.com/it/it37324.htm