Analog是一款用来快速处理日志的开源工具,具有很高的效率,但是生成的结果并不美观,本文就analog使用过程中的一些问题进行总结,讨论如何对analog进行深度的定制使用。
处理经过压缩的多个日志文件
analog可以读取gz格式压缩的日志文件,并且支持读取多个文件。这个选项在我们有多台前端Web服务器的时候可以用上,读取多个日志文件,可以通过两种方式实现:在配置文件中指定多行LOGFILE,或者在单个文件中使用通配符,后一种方法是最常用到的。
LOGFILE new1.log,old*.log
LOGFILE new2.log
Analog配置文件相关的设置技巧
Analog启动时,会读取配置文件和命令行中的配置信息,配置文件默认是 analog.cfg ,如果想要命令行中的配置信息优先级比较高,需要加上 –G 参数,这样才能在有重复的配置项时,以命令行中的为准。
analog支持读多个配置文件,但是如果多个配置文件中的配置项不同,就会发生混乱。如果真的需要读取多个配置文件,建议将一些基础性的配置信息放在默认配置文件中,一些个性的配置信息通过 +ganalog.x.cfg 包含进来。
analog中的配置项信息非常多,有些在命令行下有缩写的形式,有一些则没有,如果希望在命令行中指定没有缩写的配置信息,可以使用下面的形式,注意命令之间不能有空格。
+C”UNCOMPRESS *.gz gzcat”
./analog/analog -G +ganalog.cfg +Oanalog_reports/bizhouse/bizhouse-110221.html /data0/dpoolapachelog/110221/110221.biz.house.sina.com.cn_*.gz +C”HOSTNAME biz.house.sina.com.cn”
analog中关于日志文件和日志文件格式的配置项都是 cumulative (累加)的。如果我们的日志有两种格式,那么配置文件中写两行 LOGFORMAT 就可以保证不管遇到什么样的日志格式,都可以正常执行,这个特性在处理情况复杂的日志文件时非常有用。
配置HTML报告界面
图标和图标的链接
LOGO http://watchdog.com.cn/static/v1.0/logo.png
LOGOURL http://watchdog.com.cn
如何处理多个网站的日志文件
在我们的环境中,有很多个项目,日志的存储方式如下
1 | /data/logs/2011-02-23/domain.a.com.cn-2011-02-23.ip1.tar.gz |
目录中存在很多日志文件,使用analog进行分析比较麻烦的问题是这些日志的日志格式如果不一样,就不太好办。幸好 analog 的配置文件中对于日志格式的支持是累加的,可以在配置文件中使用这种方式进行配置。
1 | APACHEDEFAULTLOGFORMAT (%h %l %u %t %T \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\" \"%{Cookie}i\") |
只要配置的日志格式包括了所有可能的日志格式,我们就可以使用一个配置文件来进行所有日志文件的分析了。为了分析众多的日志文件,我写了一个脚本,通过读取一个项目列表文件,分析目录中对应的项目日志。然后汇总到一个数据库中进行展示,这样就方便我们查看多个网站的日志统计数据。分享如下:Wd_analog.pl
1 | #!/usr/bin/perl -w |
Analog中几种固定的日志格式
1 | Common format, LOGFORMAT COMMON |
参考资料: