iT邦幫忙

crawler相關文章
共有 40 則文章
鐵人賽 Software Development DAY 21
糊裡糊塗Python就上手 系列 第 21

技術 [2020鐵人賽Day21]糊裡糊塗Python就上手-蟲蟲進擊之爬蟲取得資訊(下)

今日目標 整合先前幾篇所提到的一些技巧,並運用在一起,實際製作一支星座爬蟲程式 事前準備 當然要先找好我們將要實作的資料來源,這邊我們使用 唐綺陽每日星座運勢...

鐵人賽 Software Development DAY 20
糊裡糊塗Python就上手 系列 第 20

技術 [2020鐵人賽Day20]糊裡糊塗Python就上手-蟲蟲進擊之爬蟲取得資訊(中)

今日目標 今天要來提一下如何把取得回來的網頁原始碼解析 What is Beautiful Soup? Beautiful Soup 可快速的的讀取 HTML...

鐵人賽 Software Development DAY 19
糊裡糊塗Python就上手 系列 第 19

技術 [2020鐵人賽Day19]糊裡糊塗Python就上手-蟲蟲進擊之爬蟲取得資訊(上)

今日目標 了解製作爬蟲功能前,需要一些前置手續與基礎知識 What is Crawler? 一種可以在網路上自動抓取資料的工具,又稱「網路爬蟲」(Web Cra...

鐵人賽 AI & Data DAY 16

技術 【Day16】不藏私,加上5行程式就能優化爬蟲的小技巧 & 學會爬蟲,之後呢?

當技術為你的生活帶來便利,他才有存在的意義 為什麼寫這篇文章 如果你跟著這幾天的教學走還是遇到一些莫名其妙的問題,希望在今天的文章有得到你想要的解答 這...

鐵人賽 AI & Data DAY 15

技術 【Day15】 json x 爬蟲 = 瑣事自動化,生命應該浪費在美好的事情上

即使客戶不懂程式,你也可以讓他學習一點工程師的知識 我們要請客戶將爬蟲的網址列表填寫到什麼檔案呢? 專案在需求規格中有一條是在自己的電腦執行,在分析完各種...

鐵人賽 AI & Data DAY 13

技術 【Day13】重構程式碼,減少歷史業障

數據顯示,工程師完成最後 20% 的工作時間跟之前的 80% 一樣多 完成功能後,重構是另一個開始 昨天我們完成了一個跑得動的程式,但很明顯這不是一個好的程...

鐵人賽 AI & Data DAY 12

技術 【Day12】合體吧!用一隻程式搞定FB、IG爬蟲

有些需求不是複製貼上就能解決的 今日目標 1. 分析實作過程中可能會遇到的問題 1.1 瀏覽器關閉導致無法讀取網頁元件 1.2 跨網域(CORS)錯誤 2...

鐵人賽 AI & Data DAY 11

技術 【Day11】舉一反三,帶你了解IG爬蟲不可忽略的細節

學習,從複製開始 筆者有話先說 有了 Facebook 爬蟲的經驗後,我相信這篇大家是有能力獨自完成的,建議大家先用自己的方式來完成今日目標,這篇文章適合...

鐵人賽 AI & Data DAY 10

技術 【Day10】關閉干擾爬蟲的彈窗,將FB粉專追蹤數納入囊中

遇到困難挫折時,多想一下自己的初衷;如果你沒有初衷,那就想一下薪水吧 筆者有話先說 我的文章是以專案的角度寫作,遇到問題才會分析解決的方案,與專門介紹套件的...

鐵人賽 AI & Data DAY 9

技術 【Day9】爬蟲第一步,FB先登入

⚠️ 在爬蟲前請注意這些事情避免違法 請勿拿來蒐集個人隱私 相片、個人資料 請勿高頻率訪問一個網站 高頻率訪問一個網站可能對導致對方伺服器癱瘓(D...

鐵人賽 AI & Data DAY 8

技術 【Day8】selenium-webdriver:爬蟲起手式,帶你認識所見即所得的爬蟲工具

為什麼選爬蟲作為主題? 在決定以爬蟲作為主題時有朋友勸我不要寫這類有爭議的主題,但因為以下幾點我還是選了這個主題: 爬蟲道德觀:有些網路文章道德觀崩壞,把...

技術 爬蟲crawler -- PChome

PChome線上購物 這篇要介紹的是如何爬取 "PChome線上購物" 中產品的所有資訊! 這裡所寫的程式會從 def Firstlayer...

技術 爬蟲資料清洗 - re 正則表達式

有時候從網路上爬取到的資料型式並不是我們想要的。 ex: "新聞發布於:2020年7月1日 14點20分"。我們只想要後面的時間,並不想要前...

技術 爬蟲 crawler 基礎 - requests + BeautifulSoup (part2)

延續上一章節,當我們用 requests 取得網站內容後, 就可以使用 BeautifulSoup 來解析網頁資料! select 的使用方式 功能 sele...

技術 爬蟲 crawler 基礎 - requests + BeautifulSoup

在爬蟲領域中,最簡單、常使用的套件非 requests 與 BeautifulSoup 莫屬, 只要使用這兩個套件,幾乎95%的資料都可以被爬取! 首先會介紹...

技術 想抓到selector element的資料

#MainContent_Contents_ArticleGridList1_gvList > tbody > tr:nth-child(7) &g...

鐵人賽 AI & Data

技術 【Day 32】Scrapy 爬取 iT 邦幫忙的回文

在 Day 13 的內容中,我們有把回文都爬回來,今天會把相關的邏輯都移植到 Scrapy,同時整理一下目前的程式碼。相關的程式碼都放在 gist 上了,接下來...

鐵人賽 AI & Data

技術 【Day 30】在程式中啟動 Scrapy 爬蟲

目前為止我們都是用 scrapy crawl <spider-name> 指令來啟動爬蟲,但有時候可能需要在程式中來啟動爬蟲(例如提供一個 API...

鐵人賽 AI & Data DAY 27

技術 【Day 26】Scrapy 的結構化資料 - Item

在前幾天的爬蟲中,我們都是以 Python dict 的結構在儲存爬取結果,隨著爬蟲數量增加,會在越來越多的程式中使用到相同的結構來儲存資料,但同時也容易在不同...

鐵人賽 AI & Data DAY 26

技術 【Day 25】用 Scrapy 爬取 iT 邦幫忙的技術文章

大概兩個禮拜前我們已經有用 requests + BeautifulSoup 兩個套件來把文章爬取下來了,今天會把相關的邏輯都移植到 Scrapy 框架中。先附...

鐵人賽 AI & Data DAY 25

技術 【Day 24】第一個 Scrapy 爬蟲

昨天用 scrapy genspider ithome ithome.com 指令建立出來的爬蟲檔案 ithome.py 內容是這樣: import scrap...

鐵人賽 AI & Data DAY 24

技術 【Day 23】準備 Scrapy 開發環境

安裝 安裝套件 pipenv install scrapy 曾經在安裝的時候遇到 Twisted 一直安裝失敗,無法透過 pip 安裝。如果有遇到的讀...

鐵人賽 AI & Data DAY 23

技術 【Day 22】Scrapy 簡介

寫了好幾天的爬蟲,不知道大家有沒有感覺同一支程式中要關注的事情太多。目前我們爬蟲的流程大概是這樣: 發送請求,取得網頁 HTML 原始碼 可能需要額外的重試...

鐵人賽 AI & Data DAY 21

技術 【Day 20】反反爬蟲

有些網站可能不太希望自己的內容被爬取,例如比價網站爬取各個線上購物的網站後,讓消費者很容易比價,就有可能讓某些網站流失消費者。另外如果太多外部的爬蟲在對伺服器發...

鐵人賽 AI & Data DAY 20

技術 【Day 19】資料持久化 - NoSQL (2/2)

先附上完整原始碼。跟 Day 17 的程式碼相比,只修改了 insert_article() 和 insert_responses() 兩個方法,把目標資料庫換...

鐵人賽 AI & Data DAY 19

技術 【Day 18】資料持久化 - NoSQL (1/2)

抓下來的資料通常還要經過一系列的統計分析再呈現結果給使用者。這種資料一般稱為原始資料,大部分情況下抓回來後會儲存在所謂的 NoSQL 中。這兩天就會跟著大家一起...

鐵人賽 AI & Data DAY 18

技術 【Day 17】資料持久化 - RDBMS (4/4)

在前三天的內容中,我們已經把文章和回應都存到資料庫中了,但如果都是用新增的方式,每次執行時如果抓到同一篇文章都會在資料庫中多出一筆,很容易造成後續分析時的誤差。...

鐵人賽 AI & Data DAY 17

技術 【Day 16】資料持久化 - RDBMS (3/4)

延續昨天的內容,今天會把回應的資料存到資料庫中~ 建立資料表 建立 ithome_response 資料表,並定位相關欄位如下: 這張表比較需要注意的是有...

鐵人賽 AI & Data DAY 16

技術 【Day 15】資料持久化 - RDBMS (2/4)

今天來試著把我們從列表頁開始,一路抓到的文章內容和資訊都存到資料庫中! 突然想到還沒整理過完整流程的原始碼,先來整理一下唄~ import requests f...

鐵人賽 自我挑戰組 DAY 13

技術 Day13-網路爬蟲實作II selenium 模擬瀏覽器

昨天我們介紹了使用 requests 來取得網頁原始碼,可是有些透過 JavaScript 渲染的網頁或是防爬蟲做得很好的 ASP.Net 都會讓我們難以取得原...