AWStats: 跨平台的日志分析工具使用简介[2]

[入库:2005年8月18日] [更新:2007年3月25日]

本文简介:选择自 chedong 的 blog

windows 2000上:设置每天8点10分运行
d:\perl\bin\perl.exe d:\awstats\tools\awstats_buildstaticpages.pl -update -config=chedong -lang=cn -dir=c:\inetpub\awstats\ -awstatsprog=d:\awstats\wwwroot\cgi-bin\awstats.pl

多站点日志统计

awstats自带了一个批处理工具:tools/awstats_updateall.pl,可以批量地遍历一个目录下所有地配置文件并运行统计。因此剩下的工作就主要是日志的同步问题了。

针对多个站点,很多配置选项是重复的,如果每个配置文件都修改维护起来会很麻烦,awstats从5.4开始提供了配置文件包含的功能,所以我们可以配置一个通用配置,比如:chedong.common.conf

然后其他站点的配置设置为:可以通过后面的选项覆盖和缺省不一致的配置。
awstats.bbs.chedong.conf
include "chedong.common.conf"
logfile "/path/to/bbs_log"
sitename "bbs.chedong.com"

awstats.www.chedong.conf
include "chedong.common.conf"
logfile "/path/to/www_log"
sitename "www.chedong.com"
hostaliases="chedong.com" 

统计指标说明

  • 参观者:按来访者不重复的ip统计,一个ip代表一个参观者;
  • 参观次数:一个参观者可能1天之内参观多次(比如:上午一次,下午一次),所以按一定时间内(比如:1个小时),不重复的ip数统计,参观者的访问次数;
  • 网页数:不包括图片,css, javascript文件等的纯页面访问总数,但如果一个页面使用了多个帧,每个帧都算一个页面请求;
  • 文件数:来自浏览器客户端的文件请求总数,包括图片,css,javascript等,用户请求一个页面是,如果页面中包含图片等,所以对服务器会发出多次文件请求,文件数一般远远大于文件数;
  • 字节:传给客户端的数据总流量;
  • 来自referer中的数据:日志中的参考(referer)字段,记录了访问相应网页之前地址,因此如果用户是通过搜索引擎的搜索结果点击进入网站的,日志中就会有用户在相应搜索引擎的查询地址,这个地址中就可以通过解析将用户查询使用的关键词提取出来:
    比如:
    2003-03-26 15:43:58 123.123.123.123 - get /index.html 200 192 http/1.1 mozilla/4.0+(compatible;+msie+5.01;+windows+nt+5.0) http://www.google.com/search?q=chedong
    awstats在搜索引擎的关键短语和关键词统计方面的功能还是比较完整的:可以对全世界3百多种机器爬虫进行识别,并且可以识别大部分主流国际化搜索引擎和很多地区的本地语言搜索引擎。

hacking awstats

iis按gmt时间的补丁:awstats.pl
iis的日志时间是格林威治之间,中国本地时间和gmt有+8个小时差距,如果直接用timezone插件从格林威治时间转换会有40%的性能下降,这里有一个将时间按本地时间修改时间坐标的补丁:
7696d7695
<                       my $time_zone = 8;
7698,7702c7697
<                           my $ix_local = $ix + $time_zone;
<                           if ($ix_local >= 24) {
<                               $ix_local = $ix_local - 24;
<                         } 
<                         print "<th width=19>$ix_local</th>\n";        # width=19 instead of 18 to avoid a macos browser bug.
---
>                         print "<th width=19>$ix</th>\n";      # width=19 instead of 18 to avoid a macos browser bug.
7708,7712c7703
<                               my $ix_local = $ix + $time_zone;
<                               if ($ix_local >= 24) {
<                                       $ix_local = $ix_local - 24;
<                               }
<                               my $hr= $ix_local + 1 ; if ($hr>12) { $hr=$hr-12; }
---
>                               my $hr=($ix+1); if ($hr>12) { $hr=$hr-12; }

针对中文搜索引擎的补丁:
awstats的搜索引擎中缺省没有中文搜索引擎的定义,因此会漏掉很多来自国内主流搜速引擎的统计:3721,搜狐,新浪,百度,网易等,以下是针对这些的补丁:cgi-bin/lib/search_engine.pm
58a59,60
> # minor chinese search engines
> "baidu\.", "163\.com", "sohu\.","sina\.","3721\.com",
140a143,148
> # minor chinese search engines
> "baidu\.","word=",
> "sina\.", "word=",
> "sohu\.","word=",

本文关键:awstats web log analysis apache iis 日志 分析 open source
  相关方案
Google
 

本站最佳浏览方式为 分辨率 1024x768 IE 6.0(或更高版本的 IE浏览器)

go top