從 IT 技術面細說 Search Console 的 27 組數字 KPI (7) ：網頁的排除

2021 iThome 鐵人賽

DAY 7

IT管理

從 IT 技術面細說 Search Console 的 27 組數字 KPI 系列第 7 篇

13th鐵人賽 seo search console kpi 黑貘

食夢黑貘

2021-09-07 22:32:20

3878 瀏覽

分享至

SEO 要做到基本工是很簡單的，就是把 Search Console 上面顯示的錯誤都解決掉，上面說的警告或問題都知道原因且是在已知與合理的狀態，這樣流量就起來了。

雖然 Search Console 除了講問題與警告外，也會講已知道且有效的，但事實上有效的部份是最難除錯的，因為若不是透過 SC 的 API，都只能抓到前 1000 筆資料，而無法知道 1000 筆以外的資訊，不要說更知前做錯的事是那些無法知道，在抓不到全部資料時，也不知道那些是不正確有效的，因為也不可能一個個去 Inspect 檢查。

當然可以隨著一次又一次的除錯或『做對』，每隔一段時間去看這些有效或是錯誤警告資訊的累積，這 1000 筆資料還是可以知道一定的問題點，雖然有時要加過濾條件，但持早會解決的，但前題是要找出所有資訊背後的原因，做對事是不須要修正的，但其他就有很多可能性了。

而在涵蓋範圍的項目中有主要的四項，包含前面所說的有效與錯誤，及警告和排除，最重要的是有效是沒有問題的，最該避免的是錯誤，但警告往往也是錯誤的開始，而最麻煩的大概是『排除』這部份。

因為排除這部份就包含幾種狀況：

替代頁面：這部份指的是有對的 Canonical 制式網址，通常不太會有甚麼問題，除非制式網址本身是錯的就是另一件事。
頁面會重新導向：這邊雖然看起來是合理，但若網站這部份偏多，代表在連結建立上是有問題的，因為理論上大部份的轉址是可以被制式網址取代的，但為了要指向對的網址而做轉址 Redirect，這是浪費搜尋的預算 (Budget)，更者在計算連結時也是不利的，有時這是須要檢討的。
找不到 404、轉址式 404、403 或其他 4xx 的問題：這邊雖然問題不大，但也是要去思考為甚麼連結建立是如此多的找不到，是否有可能提前一步不要有這個連結或是直接 nofollow，讓網站的品質更好。
遭到 robots.txt 封鎖及遭到 noindex 標記排除：通常不會有人刻意去做 noindex 或是 disallow，若是有的話一定是有意義的，除非是做錯才是問題，因此這部份該去檢查的是否是失誤，或是歷史性的問題已解決的。
這是重覆網頁：這包含三種『使用者未選取標準網頁』、『Google 選擇的標準網頁和使用者的選擇不同』及『已提交的網址未獲選為標準網址』這三個，當然若沒有 Canonical 的制式網址是第一種，是最糟糕且可以完全避免的，但後兩者的問題很多元，有時是很難處理的，但大部份都可以解決。
已檢索 - 目前尚未建立索引：這在網站經營中，這是一個很重要的指標，因此這是排除中會獨立放在每次的檢核表中，因為這往往代表的是格式與內容的問題，甚至是在 CSR 等網頁產生時會發生的問題，這個可能可以獨立一篇專題來討論。
已找到 - 目前尚未建立索引：這往往是發生在新網站，在 Crawler Budget 不夠時才會有，當然也有可能是這一系列的網址被 Google 認定完全不用爬，是因為之前爬的時候幾乎是沒意義的，若真的是沒意義就還好，若是有意義的話說不定可能要用改網址下手。

前四種狀況都是問題不大，若該是這樣而排除就是正常，後三種問題才是有很大的問題，通常是要避免。

在上面七種中，最麻煩的就是『已檢索目前尚未建立索引』，因為這原因是最不直覺，且可能性也最多，更不要說解決方法，單單原因就有幾個方向：

這網頁沒甚麼內容，因此被 Google 認為沒有索引 (Index) 的價值，這個問題是最常見，但甚麼樣的狀況才是沒內容是困難的，有些是一眼就看得出來，有些見看不太出來，尤其是下面幾種原因。
沒有內容的問題有幾種，最常見的就是 Client Side Render 的問題，也就是主要內容是透過 CSR 產生的，因此第一份 HTML 的確沒內容，只是當然看到產出的頁面又是有很多內容，且是用 Javascript 開發的，Google 雖然可以解出大部份的 CSR，但不代表可以 Render 出所有 CSR 的資訊，而要去跟 Google 挑戰或是抗議，或許也可以先嘗試自己的做法。
另一種沒有內容的問題是在於支離破碎，其中可能沒有用的 HTML5 Tag 讓爬蟲較好判斷，甚至沒有較大的，或者是都是不到 100 字，文字中間有一大堆圖，或是用了一大堆的 inline CSS 都會讓爬蟲抓不到主要的段落，都有可能造成檢索未索引的可能。
除了沒有內容外，重覆的內容也是會出現在檢索未索引常見的事，有時可以用文章的標題去 Google 看看，看能不能 Google 到，有時就會發現 Google 到另一篇相同會類似標題的文章，但不是同一頁，這就是重覆內容，有時這個重覆內容可以用 canonical 解，尤其是語系的不同，但有時因為沒有之間的關係就沒辦法組合在一起，就要花較多的工夫解決。
而在去年時，更發現 Google 對於列表形的網頁也很容易未檢索，包含搜尋頁、標籤頁等等自動化產生的列表頁，也因為這些列表頁的元素在其它地方都會出現過，因此就會不檢索，其中也包含這個列表頁項目過少，例如不到三項，也會排除。
當然若網站做得好，有時還是會出現一些新的未檢索，但這些只是暫時性的，有時直接 Inspect 或搜尋就會發現有收錄，但有些是要過幾天才會被收錄，常期看 Search Console 的人就知道，Google 的 Bug 還挺多的。

在這邊會導入兩個重要的指數：

有效/(有效+排除)：當然這邊有一個前題是錯誤與警告都是不該存在的，有就是絕對該立刻處理，因此可以乎略不計，而有效頁面占比可以看到 Google 對於網站的成果觀點，只是這邊會有一個問題，排除越多不代表是錯誤，而排除越少說不定是中間頁或是 Canonical 沒有弄好，因此這數字現在只是做參考看其變化，以前會說到這數字應該是 20%~25% 之間，但現在已經不會把這數值當作是要檢核，只會做參考。
檢索未索引/有效：被排除並不代表不好的事，但檢索未索引這數字是真的有問題，上面的問題除了第 6 項是 Google 本身檢索判斷效率的問題外，前五項都是或多或少可以避免的，當然有些是用把 CSR 改用 SSR 來解決，有些是豐富內容來解決，或是真的沒辦法就用 noindex 來解決，或是加上 nofollow 避免被檢索到。

在 SEO 的經驗中，無論是檢索未索引這數值太高本身就不是好事，但有時是無法完全避免，畢竟很多內容好壞的判斷這條線雖然 SEO 是 Google 說了算，但有時要考慮到使用者的動線與經營，還是無法避免。

所以有時是用是其『檢索未索引/有效』這個指標來看，雖然隨著網站越來來越到，檢索未索引無法完全消除，但除有效的指標的目的是發生這問題的占比是須要被控制，在實務上這數值越低，Google 對這網站認為越有價值，隨之流量就進來了。