URL 語法圖:
根據圖片,我們可以知道所謂的 URL ,是由 scheme、userinfo、host、port、path、query 及 fragment 組成,我們將這些元素,分成以下五個類別:
scheme:[//authority]path[?query][#fragment]
[userinfo@]host[:port]
username:password
ftp://iThome:123@192.168.0.100:21/
https://www.example.com/user?name=example
對 URL 語法有了解之後,這邊將以 HTTP / HTTPS 協定的 URL 為範例,這部份則是爬蟲最常用到的。
我們用 iThome 來做說明:
https://www.ithome.com.tw/
目前我們對 URI 家族有基本上的了解了,剛剛有提到,當我們要訪問一個服務時,必須通過 port 來存取資源,那這個 port 的定義是什麼?HTTP 傳輸協定,又是什麼呢?後續將一一來介紹,這些可是在規劃爬蟲時,息息相關的知識喔!
[1] Wiki - URL
[2] Wiki - 統一資源定位符
[3] Wiki - URN
[4] Wiki - URI
[5] MDN - Identifying resources on the Web