侯体宗的博客
  • 首页
  • Hyperf版
  • beego仿版
  • 人生(杂谈)
  • 技术
  • 关于我
  • 更多分类
    • 文件下载
    • 文字修仙
    • 中国象棋ai
    • 群聊
    • 九宫格抽奖
    • 拼图
    • 消消乐
    • 相册

利用shell命令统计日志的方法详解

技术  /  管理员 发布于 7年前   121

前言

大家都知道,通过使用 shell 命令可以很方便地对日志进行统计和分析,当服务有异常的时候,需要去排查日志,那么掌握一种统计日志的技巧就是必不可少的了。

假设有一个包含下面内容的日志文件 access.log。我们以统计这个文件的日志为例。

date=2017-09-23 13:32:50 | ip=40.80.31.153 | method=GET | url=/api/foo/bar?params=something | status=200 | time=9.703 | bytes=129 | referrer="-" | user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.7 (KHTML, like Gecko) Chrome/16.0.912.63 Safari/535.7" | cookie="-"date=2017-09-23 00:00:00 | ip=100.109.222.3 | method=HEAD | url=/api/foo/healthcheck | status=200 | time=0.337 | bytes=10 | referrer="-" | user-agent="-" | cookie="-"date=2017-09-23 13:32:50 | ip=40.80.31.153 | method=GET | url=/api/foo/bar?params=anything | status=200 | time=8.829 | bytes=466 | referrer="-" | user-agent="GuzzleHttp/6.2.0 curl/7.19.7 PHP/7.0.15" | cookie="-"date=2017-09-23 13:32:50 | ip=40.80.31.153 | method=GET | url=/api/foo/bar?params=everything | status=200 | time=9.962 | bytes=129 | referrer="-" | user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.7 (KHTML, like Gecko) Chrome/16.0.912.63 Safari/535.7" | cookie="-"date=2017-09-23 13:32:50 | ip=40.80.31.153 | method=GET | url=/api/foo/bar?params=nothing | status=200 | time=11.822 | bytes=121 | referrer="-" | user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.7 (KHTML, like Gecko) Chrome/16.0.912.63 Safari/535.7" | cookie="-"

不同的服务对应的日志可能不一样,本文使用示例日志的格式是:

date | ip | method | url | status | time | bytes | referrer | user-agent | cookie

注意:mac 系统和 linux 系统中的命令行为可能不同,以下命令请在 linux 系统中使用

排除特殊日志

统计日志时,我们可能不关心 HEAD 请求,或者只关心 GET 请求,这里首先需要筛选日志,可以使用 grep 命令。-v 的含义是排除匹配的文本行。

grep GET access.log # 只统计 GET 请求grep -v HEAD access.log # 不统计 HEAD 请求grep -v 'HEAD\|POST' access.log # 不统计 HEAD 和 POST 请求

查看接口耗时情况

我们可以将每行的 time 匹配出来,然后做一个排序。使用 awk 的 match 方法可以匹配正则:

awk '{ match($0, /time=([0-9]+\.[0-9]+)/, result); print result[1]}' access.log

awk 命令使用方法如下:

awk '{pattern + action}' {filenames}

我们实际上只用到了 action:match($0, /time=([0-9]+\.[0-9]+)/, result); print result[1] 这一段。

match 方法接收三个参数:需要匹配的文本、正则表达式、结果数组。$0 代表 awk 命令处理的每一行,结果数组是可选的,因为我们要拿到匹配结果所以这里传入了一个 result 数组,用来存储匹配后的结果。

注意这里的正则我没有使用 \d 来表示数字,因为 awk 指令默认使用 “EREs",不支持 \d 的表示,具体请看 linux shell 正则表达式(BREs,EREs,PREs)差异比较。

result 数组实际上和 javascript 里的结果数组很像了,所以我们打印出第二个元素,即匹配到的内容。执行完这行命令后结果如下:

9.7030.3378.8299.96211.822

当然实际上一天的日志可能是成千上万条,我们需要对日志进行排序,且只展示前 3 条。这里使用到 sort 命令。

sort 命令默认从小到大排序,且当作字符串排序。所以默认情况下使用 sort 命令之后 "11" 会排在 "8" 前面。那么需要使用 -n 指定按数字排序,-r 来按从大到小排序,然后我们查看前 3 条:

awk '{ match($0, /time=([0-9]+\.[0-9]+)/, result); print result[1]}' access.log | sort -rn | head -3

结果:

11.8229.9629.703

查看耗时最高的接口

当然我们一般不会只查看接口耗时情况,还需要把具体日志也打印出来,上面的命令就不能满足要求了。

awk 的打印默认是按空格分隔的,意思是 2017-09-23 GET 这一行如果使用 awk '{print $1}' 会打印出 "2017-09-23",类似地,$2 会打印出 GET。

根据日志特征,我们可以使用 | 来作为分隔符,这样就能打印出各个我们感兴趣的值了。因为我们想找出耗时最高的接口,那么我们把 time、date 和 url 单独找出来。

awk 的 -F 参数用来自定义分隔符。然后我们可以数一下三个部分按 | 分隔后分别是第几个:time 是第 6 个、date 是第 1 个、url 是第 4 个。

awk -F '|' '{print $6 $1 $4}' access.log

这样打出来结果为:

 time=9.703 date=2017-09-23 13:32:50 url=/api/foo/bar?params=something time=0.337 date=2017-09-23 00:00:00 url=/api/foo/healthcheck time=8.829 date=2017-09-23 13:32:50 url=/api/foo/bar?params=anything time=9.962 date=2017-09-23 13:32:50 url=/api/foo/bar?params=everything time=11.822 date=2017-09-23 13:32:50 url=/api/foo/bar?params=nothing

因为我们想按 time 来排序,而 sort 可以按列来排序,而列是按空格分隔的,我们目前第一列是 time=xxx,是不能排序的,所以这里要想办法把 time= 给去掉,因为我们很鸡贼地把耗时放在了第一列,那么其实再通过 time= 进行分隔一下就行了。

awk -F '|' '{print $6 $1 $4}' access.log | awk -F 'time=' '{print $2}'

结果:

9.703 date=2017-09-23 13:32:50 url=/api/foo/bar?params=something0.337 date=2017-09-23 00:00:00 url=/api/foo/healthcheck8.829 date=2017-09-23 13:32:50 url=/api/foo/bar?params=anything9.962 date=2017-09-23 13:32:50 url=/api/foo/bar?params=everything11.822 date=2017-09-23 13:32:50 url=/api/foo/bar?params=nothing

使用 sort 的 -k 参数可以指定要排序的列,这里是第 1 列;再结合上面的排序,就能把耗时最高的日志打印出来了:

awk -F '|' '{print $6 $1 $4}' access.log | awk -F 'time=' '{print $2}' | sort -k1nr | head -3

结果:

11.822 date=2017-09-23 13:32:50 url=/api/foo/bar?params=nothing9.962 date=2017-09-23 13:32:50 url=/api/foo/bar?params=everything9.703 date=2017-09-23 13:32:50 url=/api/foo/bar?params=something

统计请求次数最多的接口

如果需要统计哪些接口每天请求量是最多的,只需要新引入 uniq 命令。

我们已经可以通过 grep -v HEAD access.log | awk -F '|' '{print $4}' 来筛选出所有的 url,uniq 命令可以删除 相邻 的相同的行,而 -c 可以输出每行出现的次数。

所以我们先把 url 排序以让相同的 url 放在一起,然后使用 uniq -c 来统计出现的次数:

grep -v HEAD access.log | awk -F '|' '{print $4}' | sort | uniq -c

因为示例日志数量太少,我们假设日志里有多条,那么结果应该类似下面:

1 url=/api/foo/bar?params=anything19 url=/api/foo/bar?params=everything4 url=/api/foo/bar?params=nothing5 url=/api/foo/bar?params=something

接下来再 sort 即可:

grep -v HEAD access.log | awk -F '|' '{print $4}' | sort | uniq -c | sort -k1nr | head -10

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流,谢谢大家对AIDI的支持。


  • 上一条:
    shell 生成随机数的实现方法总结
    下一条:
    shell字符截取命令之cut命令的实例详解
  • 昵称:

    邮箱:

    0条评论 (评论内容有缓存机制,请悉知!)
    最新最热
    • 分类目录
    • 人生(杂谈)
    • 技术
    • linux
    • Java
    • php
    • 框架(架构)
    • 前端
    • ThinkPHP
    • 数据库
    • 微信(小程序)
    • Laravel
    • Redis
    • Docker
    • Go
    • swoole
    • Windows
    • Python
    • 苹果(mac/ios)
    • 相关文章
    • gmail发邮件报错:534 5.7.9 Application-specific password required...解决方案(0个评论)
    • 2024.07.09日OpenAI将终止对中国等国家和地区API服务(0个评论)
    • 2024/6/9最新免费公益节点SSR/V2ray/Shadowrocket/Clash节点分享|科学上网|免费梯子(0个评论)
    • 国外服务器实现api.openai.com反代nginx配置(0个评论)
    • 2024/4/28最新免费公益节点SSR/V2ray/Shadowrocket/Clash节点分享|科学上网|免费梯子(0个评论)
    • 近期文章
    • 在go语言中使用api.geonames.org接口实现根据国际邮政编码获取地址信息功能(1个评论)
    • 在go语言中使用github.com/signintech/gopdf实现生成pdf分页文件功能(0个评论)
    • gmail发邮件报错:534 5.7.9 Application-specific password required...解决方案(0个评论)
    • 欧盟关于强迫劳动的规定的官方举报渠道及官方举报网站(0个评论)
    • 在go语言中使用github.com/signintech/gopdf实现生成pdf文件功能(0个评论)
    • Laravel从Accel获得5700万美元A轮融资(0个评论)
    • 在go + gin中gorm实现指定搜索/区间搜索分页列表功能接口实例(0个评论)
    • 在go语言中实现IP/CIDR的ip和netmask互转及IP段形式互转及ip是否存在IP/CIDR(0个评论)
    • PHP 8.4 Alpha 1现已发布!(0个评论)
    • Laravel 11.15版本发布 - Eloquent Builder中添加的泛型(0个评论)
    • 近期评论
    • 122 在

      学历:一种延缓就业设计,生活需求下的权衡之选中评论 工作几年后,报名考研了,到现在还没认真学习备考,迷茫中。作为一名北漂互联网打工人..
    • 123 在

      Clash for Windows作者删库跑路了,github已404中评论 按理说只要你在国内,所有的流量进出都在监控范围内,不管你怎么隐藏也没用,想搞你分..
    • 原梓番博客 在

      在Laravel框架中使用模型Model分表最简单的方法中评论 好久好久都没看友情链接申请了,今天刚看,已经添加。..
    • 博主 在

      佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 @1111老铁这个不行了,可以看看近期评论的其他文章..
    • 1111 在

      佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 网站不能打开,博主百忙中能否发个APP下载链接,佛跳墙或极光..
    • 2016-10
    • 2016-11
    • 2017-07
    • 2017-08
    • 2017-09
    • 2018-01
    • 2018-07
    • 2018-08
    • 2018-09
    • 2018-12
    • 2019-01
    • 2019-02
    • 2019-03
    • 2019-04
    • 2019-05
    • 2019-06
    • 2019-07
    • 2019-08
    • 2019-09
    • 2019-10
    • 2019-11
    • 2019-12
    • 2020-01
    • 2020-03
    • 2020-04
    • 2020-05
    • 2020-06
    • 2020-07
    • 2020-08
    • 2020-09
    • 2020-10
    • 2020-11
    • 2021-04
    • 2021-05
    • 2021-06
    • 2021-07
    • 2021-08
    • 2021-09
    • 2021-10
    • 2021-12
    • 2022-01
    • 2022-02
    • 2022-03
    • 2022-04
    • 2022-05
    • 2022-06
    • 2022-07
    • 2022-08
    • 2022-09
    • 2022-10
    • 2022-11
    • 2022-12
    • 2023-01
    • 2023-02
    • 2023-03
    • 2023-04
    • 2023-05
    • 2023-06
    • 2023-07
    • 2023-08
    • 2023-09
    • 2023-10
    • 2023-12
    • 2024-02
    • 2024-04
    • 2024-05
    • 2024-06
    • 2025-02
    Top

    Copyright·© 2019 侯体宗版权所有· 粤ICP备20027696号 PHP交流群

    侯体宗的博客