iT邦幫忙

2021 iThome 鐵人賽

DAY 7
0
IT管理

從 IT 技術面細說 Search Console 的 27 組數字 KPI 系列 第 7

從 IT 技術面細說 Search Console 的 27 組數字 KPI (7) :網頁的排除

SEO 要做到基本工是很簡單的,就是把 Search Console 上面顯示的錯誤都解決掉,上面說的警告或問題都知道原因且是在已知與合理的狀態,這樣流量就起來了。

雖然 Search Console 除了講問題與警告外,也會講已知道且有效的,但事實上有效的部份是最難除錯的,因為若不是透過 SC 的 API,都只能抓到前 1000 筆資料,而無法知道 1000 筆以外的資訊,不要說更知前做錯的事是那些無法知道,在抓不到全部資料時,也不知道那些是不正確有效的,因為也不可能一個個去 Inspect 檢查。

當然可以隨著一次又一次的除錯或『做對』,每隔一段時間去看這些有效或是錯誤警告資訊的累積,這 1000 筆資料還是可以知道一定的問題點,雖然有時要加過濾條件,但持早會解決的,但前題是要找出所有資訊背後的原因,做對事是不須要修正的,但其他就有很多可能性了。

而在涵蓋範圍的項目中有主要的四項,包含前面所說的有效與錯誤,及警告和排除,最重要的是有效是沒有問題的,最該避免的是錯誤,但警告往往也是錯誤的開始,而最麻煩的大概是『排除』這部份。

https://ithelp.ithome.com.tw/upload/images/20210907/20000065mlWO8Rl7NP.png

因為排除這部份就包含幾種狀況:

  1. 替代頁面:這部份指的是有對的 Canonical 制式網址,通常不太會有甚麼問題,除非制式網址本身是錯的就是另一件事。
  2. 頁面會重新導向:這邊雖然看起來是合理,但若網站這部份偏多,代表在連結建立上是有問題的,因為理論上大部份的轉址是可以被制式網址取代的,但為了要指向對的網址而做轉址 Redirect,這是浪費搜尋的預算 (Budget),更者在計算連結時也是不利的,有時這是須要檢討的。
  3. 找不到 404、轉址式 404、403 或其他 4xx 的問題:這邊雖然問題不大,但也是要去思考為甚麼連結建立是如此多的找不到,是否有可能提前一步不要有這個連結或是直接 nofollow,讓網站的品質更好。
  4. 遭到 robots.txt 封鎖及遭到 noindex 標記排除:通常不會有人刻意去做 noindex 或是 disallow,若是有的話一定是有意義的,除非是做錯才是問題,因此這部份該去檢查的是否是失誤,或是歷史性的問題已解決的。
  5. 這是重覆網頁:這包含三種『使用者未選取標準網頁』、『Google 選擇的標準網頁和使用者的選擇不同』及『已提交的網址未獲選為標準網址』這三個,當然若沒有 Canonical 的制式網址是第一種,是最糟糕且可以完全避免的,但後兩者的問題很多元,有時是很難處理的,但大部份都可以解決。
  6. 已檢索 - 目前尚未建立索引:這在網站經營中,這是一個很重要的指標,因此這是排除中會獨立放在每次的檢核表中,因為這往往代表的是格式與內容的問題,甚至是在 CSR 等網頁產生時會發生的問題,這個可能可以獨立一篇專題來討論。
  7. 已找到 - 目前尚未建立索引:這往往是發生在新網站,在 Crawler Budget 不夠時才會有,當然也有可能是這一系列的網址被 Google 認定完全不用爬,是因為之前爬的時候幾乎是沒意義的,若真的是沒意義就還好,若是有意義的話說不定可能要用改網址下手。

前四種狀況都是問題不大,若該是這樣而排除就是正常,後三種問題才是有很大的問題,通常是要避免。

在上面七種中,最麻煩的就是『已檢索 目前尚未建立索引』,因為這原因是最不直覺,且可能性也最多,更不要說解決方法,單單原因就有幾個方向:

  1. 這網頁沒甚麼內容,因此被 Google 認為沒有索引 (Index) 的價值,這個問題是最常見,但甚麼樣的狀況才是沒內容是困難的,有些是一眼就看得出來,有些見看不太出來,尤其是下面幾種原因。
  2. 沒有內容的問題有幾種,最常見的就是 Client Side Render 的問題,也就是主要內容是透過 CSR 產生的,因此第一份 HTML 的確沒內容,只是當然看到產出的頁面又是有很多內容,且是用 Javascript 開發的,Google 雖然可以解出大部份的 CSR,但不代表可以 Render 出所有 CSR 的資訊,而要去跟 Google 挑戰或是抗議,或許也可以先嘗試自己的做法。
  3. 另一種沒有內容的問題是在於支離破碎,其中可能沒有用 的 HTML5 Tag 讓爬蟲較好判斷,甚至沒有較大的 ,或者是 都是不到 100 字,文字中間有一大堆圖,或是用了一大堆的 inline CSS 都會讓爬蟲抓不到主要的段落,都有可能造成檢索未索引的可能。
  4. 除了沒有內容外,重覆的內容也是會出現在檢索未索引常見的事,有時可以用文章的標題去 Google 看看,看能不能 Google 到,有時就會發現 Google 到另一篇相同會類似標題的文章,但不是同一頁,這就是重覆內容,有時這個重覆內容可以用 canonical 解,尤其是語系的不同,但有時因為沒有之間的關係就沒辦法組合在一起,就要花較多的工夫解決。
  5. 而在去年時,更發現 Google 對於列表形的網頁也很容易未檢索,包含搜尋頁、標籤頁等等自動化產生的列表頁,也因為這些列表頁的元素在其它地方都會出現過,因此就會不檢索,其中也包含這個列表頁項目過少,例如不到三項,也會排除。
  6. 當然若網站做得好,有時還是會出現一些新的未檢索,但這些只是暫時性的,有時直接 Inspect 或搜尋就會發現有收錄,但有些是要過幾天才會被收錄,常期看 Search Console 的人就知道,Google 的 Bug 還挺多的。

在這邊會導入兩個重要的指數:

  1. 有效/(有效+排除):當然這邊有一個前題是錯誤與警告都是不該存在的,有就是絕對該立刻處理,因此可以乎略不計,而有效頁面占比可以看到 Google 對於網站的成果觀點,只是這邊會有一個問題,排除越多不代表是錯誤,而排除越少說不定是中間頁或是 Canonical 沒有弄好,因此這數字現在只是做參考看其變化,以前會說到這數字應該是 20%~25% 之間,但現在已經不會把這數值當作是要檢核,只會做參考。
  2. 檢索未索引/有效:被排除並不代表不好的事,但檢索未索引這數字是真的有問題,上面的問題除了第 6 項是 Google 本身檢索判斷效率的問題外,前五項都是或多或少可以避免的,當然有些是用把 CSR 改用 SSR 來解決,有些是豐富內容來解決,或是真的沒辦法就用 noindex 來解決,或是加上 nofollow 避免被檢索到。

在 SEO 的經驗中,無論是檢索未索引這數值太高本身就不是好事,但有時是無法完全避免,畢竟很多內容好壞的判斷這條線雖然 SEO 是 Google 說了算,但有時要考慮到使用者的動線與經營,還是無法避免。

所以有時是用是其『檢索未索引/有效』這個指標來看,雖然隨著網站越來來越到,檢索未索引無法完全消除,但除有效的指標的目的是發生這問題的占比是須要被控制,在實務上這數值越低,Google 對這網站認為越有價值,隨之流量就進來了。


上一篇
從 IT 技術面細說 Search Console 的 27 組數字 KPI (6) :網頁
下一篇
從 IT 技術面細說 Search Console 的 27 組數字 KPI (8) :KPI 層級
系列文
從 IT 技術面細說 Search Console 的 27 組數字 KPI 30

尚未有邦友留言

立即登入留言