自动分类:按照分类标准,将考察对象划分到各类别下
自动聚类:按照被考察队形的内部特征,把相似、近似、特征相似的对象聚合到一起
信息查询方式:
╠╠分类浏览:基于网站分类目录,浏览对象为网站╠╠成本高,更新维护量大
╠╠关键词检索:检索对象为网页,信息量大,更新及时,不须人工干预╠╠信息量大,质量难以保证
====》提供对关键字检索结果集网页的分类浏览
文本分类:
╠╠基于知识工程:依据语言学知识编制推理规则╠╠复制而困难
╠╠基于统计:利用词频信息对文本进行加权(简单,准确)向量空间模型╠╠文档相似度由两个向量的夹角余旋决定
自动规类步骤:
网页特征提取和加权:提高分类速度和精度(排除了干扰)词频,位置
机器学习:
svm: 建立在学习理论的结构风险最小化原则基础上,在高维空间寻找超平作为两个类的分割,以满足最小的分类错误率(分类间隙最大)