码迷,mamicode.com
首页 > 其他好文 > 详细

使用awk && sed 提取日志中的有效信息

时间:2018-08-21 11:31:39      阅读:166      评论:0      收藏:0      [点我收藏+]

标签:orm   通过   like   sleep   x64   pre   排序   test   日志   

日志信息:

源数据:1.1.1.1 - - [08/Aug/2018:00:00:14 +0800] "GET http://www.test.test/test1/test2/tes3 HTTP/1.1" 200 1306 "http://a.b.cn/test/test?form" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/17.17134"
访问一级目录: http://www.test.test/test1 访问来源: http://a.b.cn


开始处理:
1.先使用awk 提取需要的信息,由于目标站点的域名是固定的 www.test.test 所以这个不做判断,只判断访问来源和访问状态
#取第7 9 11列 状态200 源是b.cn
awk ‘$9 =="200" && $11 ~/^"http:\/\/[a-zA-Z0-9]*\.b\.cn/ {print $7,"\t",$9,"\t",$11}‘

得到如下数据

http://www.test.test/test1/test2/tes3 200 http://a.b.cn/test/test?form

2.再使用sed 对剩下的数据进行处理,只需要源的域名,以及访问目标的一级域名

 sed ‘s/"//g‘ | sed ‘s/\(http:\/\/[a-zA-Z0-9]*\.b\.cn\)\/.*/\1/g‘   #截取b.cn域名信息
 sed ‘s/\(http:\/\/www\.test\.test\/[0-9a-zA-Z_]*\/\).*200/\1/g‘ #取www.test.test的第一级目录

3.通过awk 和 sed 之后,再去重 。去重需要先排序 再使用 uniq去重

sort -k2n | uniq

4.完整脚本

#!/bin/bash
cd /home/log
log=`ls *.log`
for i in $log
do
          cat $i | awk ‘$9 =="200" && $11 ~/^"http:\/\/[a-zA-Z0-9]*\.b\.cn/ {print $7,"\t",$9,"\t",$11}‘ |  sed ‘s/"//g‘ | sed ‘s/\(http:\/\/[a-zA-Z0-9]*\.test\.test\)\/.*/\1/g‘| sed ‘s/\(http:
\/\/www\.test\.test\/[0-9a-zA-Z_]*\/\).*200/\1/g‘ >>test.log
done
sleep 3
cat test.log | sort -k2n | uniq >test1.log

使用awk && sed 提取日志中的有效信息

标签:orm   通过   like   sleep   x64   pre   排序   test   日志   

原文地址:http://blog.51cto.com/bshark/2162227

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!