自动上网抓数据的机器人[1]

[入库:2005年8月18日] [更新:2007年3月24日]

本文简介:选择自 hsn1982 的 blog

       在大多数情况下,上网冲浪是件令人愉快的事情。但若是数百上千的超链接摆在你面前,而你又不得不一一点击这些链接、进入相应的网页、手工筛选出每页里你需要的信息、最后再将这些信息编进数据库中、....,你将做何感想?如果每天都从事这种繁杂、枯燥的工作会不会让你发疯?
    “自动上网机器人”或许可救你出“苦海”:你可以喝着咖啡、听着音乐、看着“机器人”辛勤地替你工作,那感觉是不是棒极了!
     本文结合实例详尽讨论了用vb实现“上网机器人”的技术细节。我们知道,搜集和下载资料是人们使用互联网的最主要的目的之一,但有些信息资源过于庞大,用手工摘取的方法是困难的或根本就是行不通的。例如,你需要搜集欧洲进口机械设备的公司名录以便给他们发信邀请其参加博览会,在网上找到这些信息并不难,但出于数据安全等方面的考虑,几乎所有提供类似信息的网站都没有提供直接下载数据的功能。
     要想搜集齐想要的数据,唯一可用的方法就是一页一页地浏览每个公司的信息页,摘取其中有用的数据并存入数据库。但当公司总数超过数千时,巨大的工作量会让任何人望而却步!其实,这浩大的工作完全可以由程序来完成,因为这些任务完全是机械的重复性工作。而且,用程序完成比用手工要快得多。本文涉及的技术细节是通用的,即对实例程序稍加修改就可完成任何“自动上网冲浪”任务。

    自动拨号上网、自动处理中途掉线、任务完成后自动挂断,这些都是“上网机器人”的最基本的功能之一。它还能给你带来明显的经济回报:如果你让“机器人”在晚间至凌晨的上网费优惠期内拨号上网去自动冲浪,那真可称得上是典型的“一石三鸟”----你睡觉、它工作、还省钱!有关这方面的细节将在本文的第三部分里讨论。该部分提供了实现上述各功能的若干方法,并比较了这些方法各自的优劣。

    本文的第一和第二部分分别以两个实例讨论了自动浏览的技术细节:在网页上的输入区内自动填入数据以便完成诸如用户登录等的操作、自动更新checkbox、自动选择下拉式列表(combobox)的值、自动点击网页上的按钮、从网页上精确提取有用的数据并存盘、将网页上二维表(table)内的数据一一提取出来并转换且存储成可直接导入数据库或 excel的格式,以及控制浏览进程的技巧等等。

第一部分  从网页上精确提取数据

    本部分的实例是:下载沪深两市全部约1100家个股的基本信息及财务数据。若用手工操作,如上图所示,需要在股票代码区内分别输入1100个股票代码,在下拉式列表(combobox)中分别选择“个股资料”和“财务数据解读”,算下来约是2200次操作!这样的工作当然是由程序来完成划算得多。况且手工提取数据(先选中、再使用ctrl+c拷贝)极容易出错(多选或漏选),又很费眼神。

1. 在输入区内自动填入数据

    为使程序能高效地自动浏览,需引入一些最基本的功能,如在输入区内自动填入数据、自动点击按钮等等。虽然用变换 url地址的方法有时也能完成任务,但往往过于费力,尤其当网页上的输入区较多时更是如此。

    为了在输入区内输入数据,需要先搜索到该对象的名字,然后将该对象的值置为要填入的数据即可。搜索名字的工作可编程完成,亦可用 frontpage轻松获得。

2. 自动在下拉式列表(combobox)中进行选择

    同样地,首先要获得下拉式列表的名字。然后根据下拉式列表的元素总数(length属性)在列表中搜索要设置的值(列表的 options集合中元素的text属性),找到后,将该元素设为选中元素(元素的selected属性)。

3. 自动点击按钮

    对于按钮来讲,可根据其名字访问,亦可根据其值访问。按钮的值就是显示在按钮上的文字。一个按钮可能没有名字,但一定有值。本例的程序就是根据值来访问按钮。执行按钮的 click方法就相当于点击了该按钮。

 

 

    图二中红色箭头所指即为程序自动填入输入框、自动在combobox中选择以及自动点击按钮的情况。

4. 精确提取数据

    仅将有用的数据存储下来才是有意义的。必须研究网页,找出有效数据所在的tag区(可用文本编辑器或 frontpage),然后用该对象的innertext属性获得最终的文本。本例中要存储的数据如下图所示,其所用的tag为“pre”。

 

    下面给出的是实例程序的完整代码:

' 程序一:从网页上精确提取数据
'
' 为运行本程序,应在“菜单->工程->部件”中添加“microsoft internet controls”
' 并在“菜单->工程->引用”中添加“microsoft html object library”
'
' 为了简洁,程序仅下载九只个股的基本信息
option explicit
private const form_id = 1
dim code(9) as string
dim current as long
private sub form_load()
  form1.mousepointer = 11
  ' 以下是个股代码
  ' 为了程序简洁,这里仅使用九只代码。
  ' 而在真实环境中,应从数据文件中读入全部个股代码。
  code(0) = "600001": code(1) = "600002": code(2) = "600003"
  code(3) = "600005": code(4) = "600006": code(5) = "600007"
  code(6) = "600008": code(7) = "600009": code(8) = "600010"
  current = 0
  webbrowser1.navigate "www.stockstar.com.cn"   ' 起始网址
end sub

private sub webbrowser1_documentcomplete(byvalpdisp as object, url as variant)
  dim i, k
  text2 = webbrowser1.locationurl    ' 显示当前网址
  ' 判断当前网页是否全部调入完毕
  if not (pdisp is webbrowser1.object) then exit sub
  on error resume next
  select case text2
  case "http://www.stockstar.com.cn/home.htm"  ' 当进入主页面时执行以下程序
   for i = 0 to webbrowser1.document.forms(form_id).length - 1
      ' 找到代码输入框后填入个股代码
      if webbrowser1.document.forms(form_id)(i).name = "code" then _
        webbrowser1.document.forms(form_id)(i).value = code(current)
      ' 在下拉式列表中进行选择
      if webbrowser1.document.forms(form_id)(i).name = "target" then
        for k = 0 to webbrowser1.document.forms(form_id)(i).length - 1
           if webbrowser1.document.forms(form_id)(i).options(k).text _
                     = "个股资料" then
             webbrowser1.document.forms(form_id)(i).options(k).selected = true
             exit for
           end if
        next k
      end if
      ' 点击按钮
      if webbrowser1.document.forms(form_id)(i).value = " 查询 " then _
        webbrowser1.document.forms(form_id)(i).click
   next
  case else   ' 当进入数据页面时执行以下程序
   for i = 0 to webbrowser1.document.all.length - 1
      if webbrowser1.document.all(i).tagname = "pre" then
        ' 精确提取数据
        text1 = text1 + code(current) + vbcrlf + _
                webbrowser1.document.all(i).innertext + vbcrlf
        exit for
      end if
   next
   ' 数据存盘
   open "c:\data2.txt" for append as #1
   print #1, text1: text1 = "": close #1
   ' 换下一只股票
   current = current + 1
   if current >= 9 then
     ' 上网任务完成后,应在此调用自动挂断过程。
     form1.mousepointer = 0: msgbox "finished!": end
   end if
   ' 回退到主页面,查询下一只股票的信息
   webbrowser1.goback
  end select
end sub

第二部分  将网页上的二维表导入数据库

    在上一部分中,我们讨论了让程序自动在网上浏览并将所需的数据准确、快速地存储下来的方法。现在,我们将迎接更大的挑战:将网页上以表格形式存在的二维数据提取出来,并存成可直接导入数据库的“microsoft excel 逗号分隔值文件”(即.csv文件)。 

    用手工在网页上直接提取类似上图中所示的表格数据是非常困难的。如果这样的表格有数十页甚至上百页之多,手工提取工作将是不可想象的,而且非常容易出错。

    本部分的实例是:将沪深两市全部约1100家个股的财务评分表数据(共54页,每页20家,如上图所示)快速、准确地转换成“.csv”文件。

1. 自动设置checkbox的值

    由于只有注册用户才能访问上述财务评分表,因此实例程序首先演示了自动注册的功能。下图显示的是注册前以及自动注册后的画面。

http://www.ccidnet.com/tech/guide/2001/08/20/image/pic5.jpg

    我们在上一部分中已讨论了自动填写输入区以及自动点击按钮等的方法。对于自动设置checkbox值,其方法完全类似:首先要搜索到该checkbox的名字,然后将该对象的checked属性置为true或false即可。

2. 将网页上的二维表导入数据库

   首先定义一个ihtmlelementcollection对象用于收集网页上所有的 table,然后用getelementsbytagname方法执行收集工作:

dim tables asihtmlelementcollection
   set tables = webbrowser1.document.getelementsbytagname("table")

 

 

    一个网页上往往有多个 table。我们用htmltable对象来处理每个table:

dim table1 ashtmltable
    for each table1 in tables
    next

本文关键:WebBrowser,拨号
 

本站最佳浏览方式为 分辨率 1024x768 IE 6.0(或更高版本的 IE浏览器)

go top