Web crawler作业报告[6]

[入库:2005年8月19日] [更新:2007年3月24日]

本文简介:选择自 askmyself 的 blog

7)       对程序的输出,注释等进行改善。程序完成。进行最后一次crawl(10-28)

 

c.      程序特点

1)       程序一共有五个函数:int str_count(const char* body,int body_len,const char* key )string get_head(curl url)int  isdeadlink(curl url)string content_type(curl url)int main()

2)       int str_count(const char* body,int body_len,const char* key ):用于计数网页内容body中出现了多少个key所存的单词(在本程序中key”net”)。此函数计数的是浏览器中可见的文本内容中出现的key单词数。对于network这样的字符串中出现的”net”不计数,但对net.pku.edu.cn中出现的”net”计数,也就是查看字符串”net”左右的是否为字母,若不是字母,才计数。不区分大小写。返回body中出现key的次数。

本文关键:Web crawler作业报告
  相关方案
Google
 

本站最佳浏览方式为 分辨率 1024x768 IE 6.0(或更高版本的 IE浏览器)

go top