Web crawler作业报告[9]

[入库:2005年8月19日] [更新:2007年3月24日]

本文简介:选择自 askmyself 的 blog

对其进行sfetch(),从取出的body中取出url,将其中未访问过的加入队列。

当该站点所有url都已遍历完毕,则进行一系列结果输出工作。遍历visited_url并将其中的死链写入deadlink.dat文件(根据visited_url元素的second是否为1判断其是否为死链)。打印出html,doc,pdf,deadlink”net”出现的次数。

7)       程序的主要特点是效率高,准确,严谨,风格好。效率高:建立socket连接请求应答头判断是否为死链及获取content-type,只sfetch html类型的文件;准确,严谨:对一个站点内的url都进行分析,而不对大文件消极地避开;风格好:模块清晰。

 

d.      问题,需要注意的

语言方面的问题主要是至今还搞不清楚为什么用char const char*作为container的元素类型会在container中元素较多的时候无端地消失一些元素。

本文关键:Web crawler作业报告
  相关方案
Google
 

本站最佳浏览方式为 分辨率 1024x768 IE 6.0(或更高版本的 IE浏览器)

go top