自动分类在搜索引擎性能优化中的应用[1]

[入库:2005年8月18日] [更新:2007年3月25日]

本文简介:选择自 hwalk 的 blog

自动分类:按照分类标准,将考察对象划分到各类别下

自动聚类:按照被考察队形的内部特征,把相似、近似、特征相似的对象聚合到一起

 

信息查询方式:

       ╠╠分类浏览:基于网站分类目录,浏览对象为网站╠╠成本高,更新维护量大

       ╠╠关键词检索:检索对象为网页,信息量大,更新及时,不须人工干预╠╠信息量大,质量难以保证

 

====》提供对关键字检索结果集网页的分类浏览

 

文本分类

       ╠╠基于知识工程:依据语言学知识编制推理规则╠╠复制而困难

       ╠╠基于统计:利用词频信息对文本进行加权(简单,准确)向量空间模型╠╠文档相似度由两个向量的夹角余旋决定

自动规类步骤:

       网页特征提取和加权:提高分类速度和精度(排除了干扰)词频,位置

       机器学习:

svm 建立在学习理论的结构风险最小化原则基础上,在高维空间寻找超平作为两个类的分割,以满足最小的分类错误率(分类间隙最大)

本文关键:自动分类在搜索引擎性能优化中的应用
 

本站最佳浏览方式为 分辨率 1024x768 IE 6.0(或更高版本的 IE浏览器)

go top