搜索引擎维护的两类信息:
网页相关信息(通过信息获取部分获取);用户行为信息(通过log记录获取)
传统ir技术:(information retrieval)
文档的向量空间模型
tf*idf算法
╠╠╠利用web信息本身的特点和用户行为信息补充
╠╠╠分析网页通过超连接形成的有向图
google 随机冲浪模型 pagerank技术排序
ibm clever 权威型&目录型网页 hits计算权值
天网 lhn(link hit number)计算权值
搜索引擎维护的两类信息:
网页相关信息(通过信息获取部分获取);用户行为信息(通过log记录获取)
传统ir技术:(information retrieval)
文档的向量空间模型
tf*idf算法
╠╠╠利用web信息本身的特点和用户行为信息补充
╠╠╠分析网页通过超连接形成的有向图
google 随机冲浪模型 pagerank技术排序
ibm clever 权威型&目录型网页 hits计算权值
天网 lhn(link hit number)计算权值