awk - 4 常見處理案例 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2021 iThome 鐵人賽

DAY 8

Software Development

系統與服務雜談系列第 8 篇

awk - 4 常見處理案例

13th鐵人賽 awk linux

雷N

2021-09-23 00:06:56

2892 瀏覽

分享至

前3篇回顧
awk - 簡介 Linux 製表好工具
 awk-2 Regex搭配淺談
 awk-3 運算符與函數

awk 常見處理案例

計算目前文件夾下檔案所佔用的大小

透過ls -l看到當前目錄下所有檔案跟大小, 檔案大小在第5個欄位
想辦法將這行數字給累加後輸出

# BEGIN區塊宣告size變數
# COMMAND區括做累加
# END區塊做輸出
ls -l | awk 'BEGIN{size=0}{size+=$5} END{print "size:" size}'
> size:219312120

# 計算成MB
ls -l | awk 'BEGIN{size=0}{size+=$5} END{print "size:" size/1024/1024 "M"}'
> size:209.152M

計算/etc/passwd的帳戶總數, 以及除存UID>100的帳戶名稱, 並做顯示

# for in loop
awk -F ':' 'BEGIN{count=0}{if ($3 > 100) name[count++]=$1} END{for (idx in name) print idx, name[idx] }' /etc/passwd
> 3 messagebus
> 10 usbmux
> 27 systemd-coredump
> 8 tcpdump
> 6 tss

# for condition loop
awk -F ':' 'BEGIN{count=0}{if ($3 > 100) name[count++]=$1} END{for (idx=0; idx<count;idx++) print idx, name[idx] }' /etc/passwd
> 0 nobody
> 1 systemd-resolve
> 2 systemd-timesync
> 3 messagebus
> 4 syslog

統計netstat下狀態為LISTEN和CONNECTED的數量

netstat -anp下的輸出, 榨看下LISTEN和CONNECTED是在$5,
但其實中間的[ ]也有個空格, 所以其實在$6
搭配awk-2提到的REGEX做match即可

netstat -anp | awk '$6~/LISTEN|CONNECTED/{sum[$6]++} END{for (idx in sum) print idx, sum[idx]}'
> LISTEN 12
> CONNECTED 1121

找出ifconfig中, 是ipv4格式的ip
我的思路是用space做分隔符號, 找出每行的$2, 搭配之前的grep+Regex做查找顯示

ifconfig | awk '{print $2}' | grep -Eo "([0-9]{1,3}[\.]){3}[0-9]{1,3}"
> 172.29.0.1
> 172.31.0.1
> 127.0.0.1

會發現這裡有127.0.0.1, 但這ip, 每台電腦必有, 沒參考價值, 因此找個方法忽略它
把```lo```開頭的行給忽略就好
```RS```是awk的內建變數, 用來指定行的分隔符號, 預設是```\n```換行符號, 遇到\n為一行
這裡把RS設置為空字串, 表示要遇到一行空字串才做換行輸出; 可以看上圖, 2個網卡中間會個空行
這樣子就能把多行資料, 一直當成同一行讀取, 直到RS指定的行分隔符號
ifconfig | awk 'BEGIN{RS=""}!/lo/{print $6}' | grep -Eo "([0-9]{1,3}[\.]){3}[0-9]{1,3}"
> 172.29.0.1
> 172.31.0.1

去除重複資料後輸出

# 準備假資料
cat > bb.txt <<EOF
heredoc> UID=1
heredoc> UID=2
heredoc> UID=4
heredoc> UID=3
heredoc> UID=2
heredoc> UID=3
heredoc> EOF

awk -F "=" '!arr[$2]++ {print}' bb.txt
> UID=1
> UID=2
> UID=4
> UID=3