通用网页数据采集系统的架构和运行机理[11]

[入库:2005年8月19日] [更新:2007年3月24日]

本文简介:选择自 zhengyun_ustc 的 blog

2-2 sxh缺点

这样在异端代理服务器环境中,也许需要专门指定代理服务器才可以访问internet。在实施中会是一个风险点。

 

2.2.并发抓取

我们可以设置配置文件,来动态要求网页抓取服务起多少个抓取线程,每个线程针对特定的门户抓取总排行榜。

 

2.3.网页落地

我们规定好网页落地的文件夹规则,抓取线程负责落地。如果文件夹不存在,那么就自动创建。

本文关键:通用网页数据采集系统的架构和运行机理
 

本站最佳浏览方式为 分辨率 1024x768 IE 6.0(或更高版本的 IE浏览器)

go top