具有自动查找Web页面上所有链接的网络浏览器[1]

[入库:2005年8月18日] [更新:2007年3月24日]

本文简介:选择自 xxsteven 的 blog

具有自动查找web页面上所有链接的网络浏览器

1. 概述
web的应用已经深入到现在社会的方方面面,作为一个软件开发人员或其他技术人员,都有可能遇见在internet上查询大量的资料和信息的情况,一般来说用的最多的就是web的搜索engine。当我们使用它查出大量的资料链接后,还有可能遇到更多的链接,但要自己去看他们是否是链接,那确实是一件很麻烦的事情。这篇文章就是来讲,如何用delphi的mshtml_tlb.pas来开发一个具有自动查找web页面上所有链接的简单网络浏览器。我是在ie5的环境下写的这个程序,当然它可以向下兼容,如ie4。
2.关于mshtml_tlb.pas
mshtml_tlb.pas是deliphi里面自带的一个类。它的含义是microsoft html对象库。它不能够包含在所有的工程或程序中,原因是它实在是太大了,整个文件的代码共有241,899l行,那么长。大小约有12m。下面我们来看看它是如何加入到程序中的。
1. 首先,我们打开delphi,建立一个新的application。我把form1保存为mainfrm.pas,把application保存为findlinks.dpr.
2. 要想实现ie 的功能我们就必须要使用microsoft html对象库(mshtml type library.)如何实现呢?如图1, project->import type library:

然后你会看到关于"microsoft html object library (version 4.0)"的列表,如图2。
接下来可能会遇到一些问题。比如,在列表里面没有出现"microsoft html object library (version 4.0)"。这是为什么呢?那是ie的问题,由于ie版本的不同(我用的是ie5)。我建议最好是先查询你的计算机里面有没有mshtml.tlb这个文件。
在9x里面它是存在与c:\windows\system目录里面,在2000里面它在\winnt\system32目录里面。如果找到了这个文件,就可以用图2的click on the "add..." button,然后选择mshtml.tlb,就可以了,如果没有找到它,那说明你没有安装ie或你的ie版本太低,请升级ie。
最后,当我们选择了倒入的库后,会等待一段时间,因为它实在是太长了,不过请千万不要因为是死机了。它会给自动查找提供很多帮助。
3. 工程实现。
界面设计如下图:

 
使用以下组件:
控件 命名 text
tlabel lblurl 资料网址
tedit edturl http://www.huihu.com
tbutton btnfindlinks 查询连接
tlistbox lstbxlinks null

4. 程序设计
1. 在form1的interface部分,在uses后面加入,olectrls, shdocvw, and oleserver.这些所应用的类,都是基于我们所要创建的tinternetexplorer的,它是ie的activex的对象。但是这里还有其它的方式(tinternetexplorer)进行,我们采用twebbrowser 控制在我们的form1。
2. 我们在private里面加入如下代码:
finternetexplorer: tinternetexplorer;
procedure webbrowserdocumentcomplete(sender: tobject; var pdisp: olevariant;
var url: olevariant);     
最后用ctrl-shift-c完成类的声明。
3. 在impelmentation后面加入如下声明:
uses mshtml_tlb, comobj;
要使用的类。
4. 在form1的oncreate事件中加入如下:
     finternetexplorer := tinternetexplorer.create(self);
  finternetexplorer.ondocumentcomplete := webbrowserdocumentcomplete;
5. 最后在form1的tform1.webbrowserdocumentcomplete里面加入如下代码:
1. procedure tform1.webbrowserdocumentcomplete(sender: tobject;
2.     var pdisp: olevariant; var url: olevariant);
3. var
4.   doc: ihtmldocument2;
5.   elementcollection: ihtmlelementcollection;
6.   htmlelement: ihtmlelement;
7.   i: integer;
8.   anchorstring: string;
9. begin
10.   lstbxlinks.clear;
11.   // 在处理网页的时候发现它没有完全下载,将不会进行处理连接
12.    doc := finternetexplorer.document as ihtmldocument2;
13.   if doc = nil then
14.     raise exception.create('couldn''t convert the ' +
15.       'finternetexplorer.document to an ihtmldocument2');
16.   // 夺取web上的所有元素。
17.   elementcollection := doc.all;
18.   for i := 0 to elementcollection.length - 1 do
19.   begin
20.     file://得到当前的元素
21.     htmlelement := elementcollection.item(i, '') as ihtmlelement;
22.     // 查找网页原代码中的link标记。
23.     // 发现其它的html标记 (例如: table, font, etc.)
24.     if htmlelement.tagname = 'a' then
25.     begin
26.       // 在详细的link里面抓取innertext,innertext就是标记中<href=后面的东西>例如:

27.       // 我们在web里面看见"西南民族学院"
28.       // <a href="http://www.swun.edu.cn"><b>西南民族学院</b></a>.
29.           anchorstring := htmlelement.innertext;
30.       if anchorstring = '' then
31.         anchorstring := '(empty name)';
32.       anchorstring := anchorstring + ' -  ' +
33.         (htmlelement as ihtmlanchorelement).href;
34.       lstbxlinks.items.add(anchorstring);
35.     end;
36.   end;
37. end;

   最后我们在button(btnfindlinks)加入onclick 事件:
1. // 在被浏览的web里面进行查询连接。
2.   finternetexplorer.navigate(edturl.text, emptyparam, emptyparam,
    emptyparam, emptyparam);
从以上的程序里面我们可以看出它的原理了,实际上是很简单的,看过html原代码的人都知道,使网页产生连接的代码就是:<a href="http://www.swun.edu.cn"><b>西南民族学院</b></a>.
我程序的原理就是通过截取href后面的字符串,并在"""号后面截止。
然后把它保存为另外的字符串。然后通过twebbrowser显示出来。

本文关键:Web
  相关方案
Google
 

本站最佳浏览方式为 分辨率 1024x768 IE 6.0(或更高版本的 IE浏览器)

go top