Web crawler作业报告[1]

[入库:2005年8月19日] [更新:2007年3月24日]

本文简介:选择自 askmyself 的 blog

web crawler作业报告
 

 

a.      result

net.pku.edu.cn测试的结果:

站点内html文件数:1525

站点内doc文件数:6

站点内pdf文件数:825

单词“net”出现的次数(不区分大小写):306

num of url within the host:8313

站点内死链数(不包括连到站点外的死链):360

//所有的死链保存在文件deadlink.txt中。

本文关键:Web crawler作业报告
  相关方案
Google
 

本站最佳浏览方式为 分辨率 1024x768 IE 6.0(或更高版本的 IE浏览器)

go top