走訪HTML網頁取得資料 我們除了可以使用Beautiful Soup中的特定屬性來幫助走訪網頁,也可以使用物件樹或上一個/下一個元素來走訪剖析HTML網頁的標...
將取得的資料儲存成檔案 從HTML網頁擷取出需要的資料後,可以將整理好的資料儲存成檔案。常用的檔案格式有兩種,分別為CSV和JSON檔。 CSV檔案:其檔案...
用Beautiful Soup爬取電影資訊 以Yahoo電影網站為目標網址,用Beautiful Soup物件擷取出電影的中文名稱、英文名稱、上映日期、期待度與...
動態網頁簡介 動態網頁是指網頁內容會隨著每一次瀏覽其出現的資訊可能會有所改變。例如:當日新聞資訊、每日更新的股票資訊等。而動態網頁可以分為兩種形式,如下所示:...
Selenium網頁資料定位函數 find_element(By.XX, “ ”) : 取出HTML網頁中符合的第1筆HTML元素 find_eleme...
與HTML表單進行互動 Selenium可以模擬使用者在網頁中和表單的互動過程。下方整理了以程式來做簡單的網頁搜尋流程: 首先,我們要從程式監測谷歌瀏覽器至指定...
JavaScript動態網頁擷取 Selenium可以幫助我們從JavaScript的動態網頁中取得所需要的資料。可以使用find_element(s)(By....
用Selenium爬取旅館資訊 以Hotels.com網站為目標網址指定前往的地點、入住/退房時間與人數,用Selenium物件擷取出飯店名稱、所在區域名稱、價...
Scrapy簡介 Scrapy是一套開放原始碼的框架,提供多種工具從Web網站擷取資料,主要應用於資料量較大、邏輯處理較複雜的網頁爬取。除了可以剖析與爬取網頁資...
建立Scrapy專案 了解Scrapy Shell的使用與測試擷取所需資料的操作後,實作練習以擷取批批踢股票看板的發文標題、推文數和作者資料為例,建立Scrap...