Google等其他搜尋引擎爬蟲爬取的網頁原始碼是? - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

0

Google等其他搜尋引擎爬蟲爬取的網頁原始碼是?

爬蟲 google chrome 原始碼網頁

Amy 2022-11-16 16:07:46 ‧ 1759 瀏覽

分享至

拿大家最常用的chrome瀏覽器來看，網頁查看原始碼方式有二種
1.鍵盤Ctrl+U查看源代碼：就是網頁服務器發送到瀏覽器的最原始代碼
2.鍵盤F12檢查元素：看到的就是最終的html代碼。即：源代碼 + 網頁js渲染
有些網頁是Javascript渲染的技術建置,所以會有Ctrl+U查不到文字,而F12查的到內文
因此想問大家，Google爬蟲的話,是爬取Ctrl+U還是F12的原始碼?

froce iT邦大師 1 級 ‧ 2022-11-16 16:14:14 檢舉

基本上是 Ctrl+U 的。
這也是為啥會有Server Side Rendering 這項技術產生的原因。

Amy iT邦新手 4 級 ‧ 2022-11-17 09:36:25 檢舉

To froce：您說的Ctrl+U,是指Google,還是其他搜尋引擎都是這樣?

登入發表討論

熱門推薦

{{ item.subject }}

{{ item.channelVendor }} | {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

2 個回答

1

㊣浩瀚星空㊣

iT邦大神 1 級 ‧ 2022-11-16 22:12:59

一定是CTRL+U的東西。

就正確來說。就是初始的HTML文皁內容。
因為~~~爬蟲並不會去執行 JS 的程式。
所以一些靠JS渲染出來的畫面。並不會出現。

至於要如何取得渲染後的網頁資料，這又是另外一門學問就是了。

回應 7
分享
檢舉

看更多先前的回應...收起先前的回應...

Amy iT邦新手 4 級 ‧ 2022-11-17 09:36:59 檢舉

請問您說的爬蟲並不會去執行 JS 的程式-->是只有Google,還是其他搜尋引擎都是這樣?

woeichern iT邦研究生 5 級 ‧ 2022-11-17 10:03:45 檢舉

這個講法不一定正確，因為Google有可能有試著執行JS，但可預期的是它也不會花太多時間去執行

player iT邦大師 1 級 ‧ 2022-11-17 10:34:11 檢舉

只抓http/https傳回的網頁，會無法取得用戶端經由JavaScript動態產生的網頁內容。這樣不利於搜尋，因此後來衍生出"How to SEO for JavaScript Websites"

㊣浩瀚星空㊣ iT邦大神 1 級 ‧ 2022-11-17 13:00:17 檢舉

正常來說，幾乎目前所有爬蟲大多是這樣。

但其實我上面也說了，還是可以用特別的方式去做爬蟲來拿到渲染後的網頁。

其實你也可以用POSTMAN去模擬查看。
像現在使用的SSR/CSR就是為了應付搜尋渲染後的網頁。

Amy iT邦新手 4 級 ‧ 2022-11-17 13:54:16 檢舉

To woeichern：這樣感覺看Ctrl+U的程式碼比較保險

Amy iT邦新手 4 級 ‧ 2022-11-17 13:57:38 檢舉

To player：那如果JavaScript Websites沒特別使用類似Vue.js渲染技術的話,等於Google等搜尋引擎爬蟲還是只看到Ctrl+U原始碼是吧?

Amy iT邦新手 4 級 ‧ 2022-11-17 15:00:46 檢舉

To：POSTMAN：
去模擬查看-->Postman這個工具可以模擬Google還是任何搜尋引擎的爬蟲爬取網頁嗎?
我是用chrome應用程式的,公司電腦無法隨意安裝軟體

登入發表回應

0

揮揮手

iT邦研究生 4 級 ‧ 2022-11-17 17:32:43

我覺得google 兩者都有只是兩件事情目的不一樣
google 有網頁分析的工具換句話說他一定有頁面渲染後的爬取
另一種它是大資料分析他會用設定好的tag標記加json/schema 做分類建索引
以上都可能我用推論的....

不然可能擲筊更快

回應
分享
檢舉

登入發表回應

我要發表回答

立即登入回答

參賽組數

902 組

團體組數

37 組

累計文章數

19860 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙