Web crawler作业报告[10]

[入库:2005年8月19日] [更新:2007年3月24日]

本文简介:选择自 askmyself 的 blog

如果在socket连接后忘了close它,程序运行中建立的socket连接越来越多,当连接多到一定数量时服务器将不能接受,程序将会被abort。所以一定要记住关闭socket连接。

程序的主要时间耗费在网络连接和sfetch上,要提高crawler的速度,可采用多线程技术。由于程序等待时间较多,适于多个线程运行,这样可以同时连接多个urlsfetch多个网页内容。

最后一个问题:如果要我自己写一个模块来取出html网页中浏览器中文本内容(tag的内容),应该怎么写呢?

感想:任何一个看起来很小的东西要做得很完美都不容易。搭建一个web crawler的粗糙框架只需要半天的时间,但要做得很完善可能两个星期都不够。写程序的主要时间用在查在线文档上,其次是调试。

 

10/28/2004

本文关键:Web crawler作业报告
  相关方案
Google
 

本站最佳浏览方式为 分辨率 1024x768 IE 6.0(或更高版本的 IE浏览器)

go top