自动分类在搜索引擎性能优化中的应用[2]

[入库:2005年8月18日] [更新:2007年3月25日]

本文简介:选择自 hwalk 的 blog

最近k邻居:对给定的新网页,考虑在训练集中与该网页距离最近的k篇文本,根据这k篇文本所属的类别决定新网页类别。k值一般为学习调整

贝叶斯算法

自动聚类的实现步骤:

       网页表示

       相似度计算

       聚类

       给出聚类表示

自动聚类的基本实现方式:

       单遍聚类法:设定类相似度阈值;任意取一篇文章做聚类中心,对新的文本,计算与其相似度,在阈值内这聚入此类,调整聚类中心;否则为一新类聚类中心。

       逆中心聚类法:任取一向量为聚类中心;有最大最小距的非聚类中心向量为下一个聚类中心。确定聚类中心后在做就近聚类

       密度测试法:某网页周围聚集有较多网页,且在较大范围有网页,则可作为聚类中心。网页分为未聚类网页,已聚类网页和松散型网页。初始时所有网页都为未聚类网页。任取未聚类网页,根据测试条件,变为聚类网页或松散型网页知道结束。

自动分类应用实例:

       wwlib自动规类系统

       grouper自动聚类系统

       vivisimo自动聚类系统

本文关键:自动分类在搜索引擎性能优化中的应用
 

本站最佳浏览方式为 分辨率 1024x768 IE 6.0(或更高版本的 IE浏览器)

go top