Day10: REGEX

15th鐵人賽

c8763yee

團隊NUTC_IMAC_智慧星爆

2023-09-20 00:25:27

707 瀏覽

分享至

regex

正規表示式(Regular expression)可以用簡單的字串作為句法規則而以此描述文章中所有符合該字串的指定格式的字串，這個字串被稱為模式(pattern)。
這概念最初由Unix的工具軟體(sed, grep, ...)普及，換句話說學習正規表示式可以讓你在使用Linux時事半功倍

基本結構

大部分的pattern型式都有以下結構

可當成或邏輯，只要字串中包含該符號分隔的group皆為符合
若無包在括號則
為最低優先級

E.g. Linux|macOS對於包含Linux或macOS的字串皆符合該pattern

匹配任意字元(\r, \n以外)
E.g. Arc. Linux對於包含Arch Linux或Arco Linux的字串皆符合該pattern

[xyz]

匹配中括號中出現的字元集合
集合中除了跳脫字元外皆視為普通字元
若要使用範圍則在範圍初始字元與範圍結束字元中間加上橫線-
在字元前面加上^則是反向匹配(只對所有不包含於中括號內的字元符合)
E.g. [A-Za-z0-9]對於所有英數字字元皆符合

pattern出現任意次數皆符合
預設為貪婪模式(盡量多次搜尋)

{min,max}

指定前面的pattern出現次數(m到n次)
只指定一個數字({n})時則代表出現剛好n次
min或max皆為非負整數且不一定必要
- {min,}代表至少Min次
- {,max}代表最多Max次
- 甚至可以m,n都不給，這樣不管字串中有沒有包含這個pattern都為符合(等價於*)

檢查pattern是否存在最多1次
等價於{,1}
用於數量詞({m,n}, *, ?)可以使用lazy mode以進行盡量少次搜尋

(pattern)

將括號內的pattern包成一個group，並取得符合pattern的子字串

^: 符合輸入字串的開始位置
$: 符合輸入字串的結束位置

在相容POSIX的UNIX系統上，grep和egrep之類的工具都遵循POSIX規範，一些資料庫系統中的正規表示式也符合POSIX規範。grep、vi、sed都屬於BRE，是歷史最早的正規表示式，因此元字元（+, *,|與括號）必須轉譯之後才具有特殊含義。egrep、awk則屬於ERE，元字元不用轉譯