iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

1 Like 0 留言 2772 瀏覽

鐵人賽 AI & Data DAY 27

爬蟲在手、資料我有 - 30 天 Scrapy 爬蟲實戰系列第 27 篇

技術【Day 26】Scrapy 的結構化資料 - Item

在前幾天的爬蟲中，我們都是以 Python dict 的結構在儲存爬取結果，隨著爬蟲數量增加，會在越來越多的程式中使用到相同的結構來儲存資料，但同時也容易在不同...

Rex Chien ‧ 2019-10-11

1 Like 0 留言 3047 瀏覽

鐵人賽 AI & Data DAY 26

爬蟲在手、資料我有 - 30 天 Scrapy 爬蟲實戰系列第 26 篇

技術【Day 25】用 Scrapy 爬取 iT 邦幫忙的技術文章

大概兩個禮拜前我們已經有用 requests + BeautifulSoup 兩個套件來把文章爬取下來了，今天會把相關的邏輯都移植到 Scrapy 框架中。先附...

Rex Chien ‧ 2019-10-10

2 Like 0 留言 6072 瀏覽

鐵人賽 AI & Data DAY 25

爬蟲在手、資料我有 - 30 天 Scrapy 爬蟲實戰系列第 25 篇

技術【Day 24】第一個 Scrapy 爬蟲

昨天用 scrapy genspider ithome ithome.com 指令建立出來的爬蟲檔案 ithome.py 內容是這樣： import scrap...

Rex Chien ‧ 2019-10-09

1 Like 0 留言 3065 瀏覽

鐵人賽 AI & Data DAY 24

爬蟲在手、資料我有 - 30 天 Scrapy 爬蟲實戰系列第 24 篇

技術【Day 23】準備 Scrapy 開發環境

安裝安裝套件 pipenv install scrapy 曾經在安裝的時候遇到 Twisted 一直安裝失敗，無法透過 pip 安裝。如果有遇到的讀...

Rex Chien ‧ 2019-10-08

1 Like 0 留言 3462 瀏覽

鐵人賽 AI & Data DAY 23

爬蟲在手、資料我有 - 30 天 Scrapy 爬蟲實戰系列第 23 篇

技術【Day 22】Scrapy 簡介

寫了好幾天的爬蟲，不知道大家有沒有感覺同一支程式中要關注的事情太多。目前我們爬蟲的流程大概是這樣：發送請求，取得網頁 HTML 原始碼可能需要額外的重試...

Rex Chien ‧ 2019-10-07

3 Like 0 留言 15891 瀏覽

鐵人賽 AI & Data DAY 21

爬蟲在手、資料我有 - 30 天 Scrapy 爬蟲實戰系列第 21 篇

技術【Day 20】反反爬蟲

有些網站可能不太希望自己的內容被爬取，例如比價網站爬取各個線上購物的網站後，讓消費者很容易比價，就有可能讓某些網站流失消費者。另外如果太多外部的爬蟲在對伺服器發...

Rex Chien ‧ 2019-10-05

2 Like 0 留言 1537 瀏覽

鐵人賽 AI & Data DAY 20

爬蟲在手、資料我有 - 30 天 Scrapy 爬蟲實戰系列第 20 篇

技術【Day 19】資料持久化 - NoSQL (2/2)

先附上完整原始碼。跟 Day 17 的程式碼相比，只修改了 insert_article() 和 insert_responses() 兩個方法，把目標資料庫換...

Rex Chien ‧ 2019-10-04

1 Like 0 留言 2178 瀏覽

鐵人賽 AI & Data DAY 19

爬蟲在手、資料我有 - 30 天 Scrapy 爬蟲實戰系列第 19 篇

技術【Day 18】資料持久化 - NoSQL (1/2)

抓下來的資料通常還要經過一系列的統計分析再呈現結果給使用者。這種資料一般稱為原始資料，大部分情況下抓回來後會儲存在所謂的 NoSQL 中。這兩天就會跟著大家一起...

Rex Chien ‧ 2019-10-03

1 Like 0 留言 1488 瀏覽

鐵人賽 AI & Data DAY 18

爬蟲在手、資料我有 - 30 天 Scrapy 爬蟲實戰系列第 18 篇

技術【Day 17】資料持久化 - RDBMS (4/4)

在前三天的內容中，我們已經把文章和回應都存到資料庫中了，但如果都是用新增的方式，每次執行時如果抓到同一篇文章都會在資料庫中多出一筆，很容易造成後續分析時的誤差。...

Rex Chien ‧ 2019-10-02

1 Like 0 留言 1462 瀏覽

鐵人賽 AI & Data DAY 17

爬蟲在手、資料我有 - 30 天 Scrapy 爬蟲實戰系列第 17 篇

技術【Day 16】資料持久化 - RDBMS (3/4)

延續昨天的內容，今天會把回應的資料存到資料庫中～建立資料表建立 ithome_response 資料表，並定位相關欄位如下：這張表比較需要注意的是有...

Rex Chien ‧ 2019-10-01

1 Like 0 留言 1672 瀏覽

鐵人賽 AI & Data DAY 16

爬蟲在手、資料我有 - 30 天 Scrapy 爬蟲實戰系列第 16 篇

技術【Day 15】資料持久化 - RDBMS (2/4)

今天來試著把我們從列表頁開始，一路抓到的文章內容和資訊都存到資料庫中！突然想到還沒整理過完整流程的原始碼，先來整理一下唄～ import requests f...

Rex Chien ‧ 2019-09-30

1 Like 0 留言 2265 瀏覽

鐵人賽 AI & Data DAY 15

爬蟲在手、資料我有 - 30 天 Scrapy 爬蟲實戰系列第 15 篇

技術【Day 14】資料持久化 - RDBMS (1/4)

寫完蒐集資料的程式後，接著要選擇儲存資料的方式，通常會選擇關聯式資料庫(RDBMS)或非關聯式資料庫(NoSQL) ，應該比較少人會存成本地檔案吧。這個系列會分...

Rex Chien ‧ 2019-09-29

1 Like 0 留言 1569 瀏覽

鐵人賽 AI & Data DAY 14

爬蟲在手、資料我有 - 30 天 Scrapy 爬蟲實戰系列第 14 篇

技術【Day 13】蒐集 iT 邦幫忙的技術文章 (6/6) - 回文

除了原文外，回文常常也是重要的資料來源之一（特別是論壇類型的網站），所以今天來嘗試把回文也抓回來吧！技術文章有回文的不多，找到 30天30碗平民魯肉飯完食!...

Rex Chien ‧ 2019-09-28

0 Like 0 留言 21855 瀏覽

鐵人賽自我挑戰組 DAY 13

原來電腦可以這樣用!? 果蠅也懂的程式語言教學系列第 13 篇

技術 Day13-網路爬蟲實作II selenium 模擬瀏覽器

昨天我們介紹了使用 requests 來取得網頁原始碼，可是有些透過 JavaScript 渲染的網頁或是防爬蟲做得很好的 ASP.Net 都會讓我們難以取得原...

oxygenTW ‧ 2019-09-29 ‧團隊喵喵喵

2 Like 0 留言 2435 瀏覽

鐵人賽 AI & Data DAY 13

爬蟲在手、資料我有 - 30 天 Scrapy 爬蟲實戰系列第 13 篇

技術【Day 12】蒐集 iT 邦幫忙的技術文章 (5/6) - 文章資訊

通常蒐集的資料範圍不會只有文章標題和內文，還會有作者、發文時間、標籤，甚至瀏覽數、回文等等比較詳細的資訊。今天先來抓取比較簡單的幾個資訊吧。區塊定位昨天我們...

Rex Chien ‧ 2019-09-27

1 Like 0 留言 2279 瀏覽

鐵人賽 AI & Data DAY 12

爬蟲在手、資料我有 - 30 天 Scrapy 爬蟲實戰系列第 12 篇

技術【Day 11】蒐集 iT 邦幫忙的技術文章 (4/6) - 內文

今天來試著抓文章的內文吧！這邊就用昨天的文章來作為爬取目標，順便偷人氣。決定選擇器直接在內文中點選「右鍵 > 檢查」打開開發人員工具，可以直接定位到...

Rex Chien ‧ 2019-09-26

2 Like 0 留言 2597 瀏覽

鐵人賽 AI & Data DAY 11

爬蟲在手、資料我有 - 30 天 Scrapy 爬蟲實戰系列第 11 篇

技術【Day 10】蒐集 iT 邦幫忙的技術文章 (3/6) - 換頁

昨天我們只有抓到第一頁的文章標題，今天就來試著讓程式學會「換頁」吧！換頁方式當我們在網頁中按下第二頁或下一頁後，可以發現網址變成 https://ithe...

Rex Chien ‧ 2019-09-25

1 Like 1 留言 2905 瀏覽

鐵人賽 AI & Data DAY 10

爬蟲在手、資料我有 - 30 天 Scrapy 爬蟲實戰系列第 10 篇

技術【Day 9】蒐集 iT 邦幫忙的技術文章 (2/6) - 使用好維護的選擇器

大家還記得昨天的落落長選擇器嗎？ html > body > div > div.row > div.col-md-12.clearfi...

Rex Chien ‧ 2019-09-24

0 Like 0 留言 2286 瀏覽

鐵人賽 Modern Web DAY 27

慢慢帶你了解Flask 系列第 27 篇

技術慢慢帶你了解Flask - Day27 101-Videos(3)：爬影片與預覽圖的真實位置

大家好，我是長風青雲。今天是第二十七天，我已經分類好我們的影片了～那我們先來規劃一下我們的html，再把我們的影片和文案展示在上面～拿出以前的規劃，當時影片是先...

長風青雲 ‧ 2019-09-28

6 Like 0 留言 3767 瀏覽

鐵人賽 AI & Data DAY 1

爬蟲在手、資料我有 - 30 天 Scrapy 爬蟲實戰系列第 1 篇

達標好文技術【Day 0】前言

動機從簡單的商品到價提醒，到複雜的輿情警示、圖形辨識，「資料來源」都是基礎中的基礎。但網路上的資料龐大而且更新很快，總不可能都靠人工來蒐集資料。這時候就是爬蟲...

Rex Chien ‧ 2019-09-15

0 Like 0 留言 1271 瀏覽

技術募的地專題開發日誌2

專題怎麼分工？我們是採用垂直分工的方式，就是從DB建立、前端、後端都是同一個人完成，只是分到的功能不同，可能是購物車、會員系統等等。專題啟動由於是要建置一...

wayne0312 ‧ 2019-06-19

0 Like 1 留言 24219 瀏覽

鐵人賽 Modern Web DAY 30

Node JS-Back end見聞錄系列第 30 篇

技術 Node.js-Backend見聞錄(29)：進階實作-關於爬蟲-以7–11店家資料為例

Node.js-Backend見聞錄(29)：進階實作-關於爬蟲-以7–11店家資料為例前言 Howard之前有在工作室分享爬蟲的議題，並舉出這個有趣的例子。...

penguinrun ‧ 2018-01-18 ‧團隊好想工作室第一屆鐵人賽

技術 【Day 26】Scrapy 的結構化資料 - Item

技術 【Day 25】用 Scrapy 爬取 iT 邦幫忙的技術文章

技術 【Day 24】第一個 Scrapy 爬蟲

技術 【Day 23】準備 Scrapy 開發環境

技術 【Day 22】Scrapy 簡介

技術 【Day 20】反反爬蟲

技術 【Day 19】資料持久化 - NoSQL (2/2)

技術 【Day 18】資料持久化 - NoSQL (1/2)

技術 【Day 17】資料持久化 - RDBMS (4/4)

技術 【Day 16】資料持久化 - RDBMS (3/4)

技術 【Day 15】資料持久化 - RDBMS (2/4)

技術 【Day 14】資料持久化 - RDBMS (1/4)

技術 【Day 13】蒐集 iT 邦幫忙的技術文章 (6/6) - 回文