Web搜索引擎技术综述[1]

[入库:2005年8月18日] [更新:2007年3月25日]

本文简介:选择自 hwalk 的 blog

摘要

随着网络与通信技术的迅速发展,web信息爆炸性的增长,已经成为一个巨大的海量信息空间。如何快速、准确、方便的从如此庞大的信息库中获取自己需要的信息,是互联网用户面临的一个重要问题。web搜索引擎能为用户提供一种查找所需资源的服务,已经成为互联网上仅次于电子邮件的第二大服务。本文首先介绍了搜索引擎的原理和实现技术。然后讨论了搜索引擎技术发展最新前沿技术。最后,结合笔者在这方面的研究,给出了搜索引擎近期的发展方向。

关键词

web,搜索引擎,网络技术

.  导论

随着网络技术的应用与发展,互连网已经成为信息的重要来源地。到1999年底,已经至少有1600万台主机接入互连网,互联网上网页总数已达到10多亿页,并且以每月近千万的数目递增[1]。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的[2],互联网用户使用网络获取信息过程中,搜索引擎也成为必不可少的工具。调查表明,当前的所有互连网应用中,网络信息搜索是仅次于电子邮件的第二大应用,而这些搜索绝大多数是专门的,高度复杂的搜索引擎实现的。

按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类:目录式搜索引擎,以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中,由于web信息的海量性和人工处理能力、经济代价的限制,这类搜索引擎信息的即时性和全面性难以保证它的优秀代表是yahoo[3]等;机器人搜索引擎,由一个称为蜘蛛(spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户,这类搜索引擎实现较为复杂,但能很好的实现信息的全面获取和即时更新,它的优秀代表是google[4],后文如非特别说明,都指这类搜索引擎;元搜索引擎,这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户,这类搜索引擎兼集多个搜索引擎的信息,并且加入新的排序和信息过滤,可以很好的提高用户满意度,它的优秀代表是vivisino[5]等。

本文组织如下:第二部分介绍了web搜索引擎的原理和实现技术;第三部分介绍了web搜索引擎的最新发展动态和前沿技术;第四部分给出了基本展望。最后给出了结论。

二.  web搜索引擎的原理、实现和评价指标

本文关键:Web搜索引擎技术综述
 

本站最佳浏览方式为 分辨率 1024x768 IE 6.0(或更高版本的 IE浏览器)

go top