iT邦幫忙

0

Google等其他搜尋引擎爬蟲爬取的網頁原始碼是?

Amy 2022-11-16 16:07:461150 瀏覽
  • 分享至 

  • xImage

拿大家最常用的chrome瀏覽器來看,網頁查看原始碼方式有二種
1.鍵盤Ctrl+U查看源代碼:就是網頁服務器發送到瀏覽器的最原始代碼
2.鍵盤F12檢查元素:看到的就是最終的html代碼。即:源代碼 + 網頁js渲染
有些網頁是Javascript渲染的技術建置,所以會有Ctrl+U查不到文字,而F12查的到內文
因此想問大家,Google爬蟲的話,是爬取Ctrl+U還是F12的原始碼?

froce iT邦大師 1 級 ‧ 2022-11-16 16:14:14 檢舉
基本上是 Ctrl+U 的。
這也是為啥會有Server Side Rendering 這項技術產生的原因。
Amy iT邦新手 4 級 ‧ 2022-11-17 09:36:25 檢舉
To froce:您說的Ctrl+U,是指Google,還是其他搜尋引擎都是這樣?
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

2 個回答

1

一定是CTRL+U的東西。

就正確來說。就是初始的HTML文皁內容。
因為~~~爬蟲並不會去執行 JS 的程式。
所以一些靠JS渲染出來的畫面。並不會出現。

至於要如何取得渲染後的網頁資料,這又是另外一門學問就是了。

看更多先前的回應...收起先前的回應...
Amy iT邦新手 4 級 ‧ 2022-11-17 09:36:59 檢舉

請問您說的爬蟲並不會去執行 JS 的程式-->是只有Google,還是其他搜尋引擎都是這樣?

woeichern iT邦新手 2 級 ‧ 2022-11-17 10:03:45 檢舉

這個講法不一定正確,因為Google有可能有試著執行JS,但可預期的是它也不會花太多時間去執行

player iT邦大師 1 級 ‧ 2022-11-17 10:34:11 檢舉

只抓http/https傳回的網頁,會無法取得用戶端經由JavaScript動態產生的網頁內容。這樣不利於搜尋,因此後來衍生出"How to SEO for JavaScript Websites"

正常來說,幾乎目前所有爬蟲大多是這樣。

但其實我上面也說了,還是可以用特別的方式去做爬蟲來拿到渲染後的網頁。

其實你也可以用POSTMAN去模擬查看。
像現在使用的SSR/CSR就是為了應付搜尋渲染後的網頁。

Amy iT邦新手 4 級 ‧ 2022-11-17 13:54:16 檢舉

To woeichern:這樣感覺看Ctrl+U的程式碼比較保險

Amy iT邦新手 4 級 ‧ 2022-11-17 13:57:38 檢舉

To player:那如果JavaScript Websites沒特別使用類似Vue.js渲染技術的話,等於Google等搜尋引擎爬蟲還是只看到Ctrl+U原始碼是吧?

Amy iT邦新手 4 級 ‧ 2022-11-17 15:00:46 檢舉

To:POSTMAN:
去模擬查看-->Postman這個工具可以模擬Google還是任何搜尋引擎的爬蟲爬取網頁嗎?
我是用chrome應用程式的,公司電腦無法隨意安裝軟體

0
揮揮手
iT邦研究生 5 級 ‧ 2022-11-17 17:32:43

我覺得google 兩者都有只是兩件事情目的不一樣
google 有網頁分析 的工具 換句話說 他一定有頁面 渲染後的爬取
另一種它是大資料分析 他會用設定好的tag標記 加json/schema 做分類 建索引
以上都可能 我用推論的....

不然 可能擲筊更快

我要發表回答

立即登入回答