网站制作：自动分类在搜索引擎性能优化中的应用

热点排行

自动分类在搜索引擎性能优化中的应用

类别：网站制作点击：0 评论：0 推荐：

自动分类：按照分类标准，将考察对象划分到各类别下

自动聚类：按照被考察队形的内部特征，把相似、近似、特征相似的对象聚合到一起

信息查询方式：

――分类浏览：基于网站分类目录，浏览对象为网站――成本高，更新维护量大

――关键词检索：检索对象为网页，信息量大，更新及时，不须人工干预――信息量大，质量难以保证

＝＝＝＝》提供对关键字检索结果集网页的分类浏览

文本分类：

――基于知识工程：依据语言学知识编制推理规则――复制而困难

――基于统计：利用词频信息对文本进行加权（简单，准确）向量空间模型――文档相似度由两个向量的夹角余旋决定

自动规类步骤：

网页特征提取和加权：提高分类速度和精度（排除了干扰）词频，位置

机器学习：

Svm：建立在学习理论的结构风险最小化原则基础上，在高维空间寻找超平作为两个类的分割，以满足最小的分类错误率（分类间隙最大）

最近k邻居：对给定的新网页，考虑在训练集中与该网页距离最近的k篇文本，根据这k篇文本所属的类别决定新网页类别。K值一般为学习调整

贝叶斯算法

自动聚类的实现步骤:

网页表示

相似度计算

聚类

给出聚类表示

自动聚类的基本实现方式：

单遍聚类法：设定类相似度阈值；任意取一篇文章做聚类中心，对新的文本，计算与其相似度，在阈值内这聚入此类，调整聚类中心；否则为一新类聚类中心。

逆中心聚类法：任取一向量为聚类中心；有最大最小距的非聚类中心向量为下一个聚类中心。确定聚类中心后在做就近聚类

密度测试法：某网页周围聚集有较多网页，且在较大范围有网页，则可作为聚类中心。网页分为未聚类网页，已聚类网页和松散型网页。初始时所有网页都为未聚类网页。任取未聚类网页，根据测试条件，变为聚类网页或松散型网页知道结束。

自动分类应用实例：

Wwlib自动规类系统

Grouper自动聚类系统

Vivisimo自动聚类系统

应用相关问题：

传统（图书馆）分类法vs网络分类法－》结合

应用时机

应用对象

结果展示

本文地址：http://com.8s8s.com/it/it30950.htm