iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

0 Like 0 留言 545 瀏覽

技術【Python】13.網頁結構照妖鏡：用 BeautifulSoup 提取密密麻麻網頁中的黃金資料

成功用 requests 外交官跨越網際網路，拿到了網頁的原始碼包裹。但把包裹打開時，看到的卻是一堆外星文。 <html lang="zh-Ha...

reneezhu ‧ 2026-07-17

2 Like 0 留言 3705 瀏覽

技術 Python 爬蟲基礎介紹0

大綱爬蟲概述什麼是網路爬蟲：介紹網路爬蟲的基本概念和用途。爬蟲的應用場景：如資料擷取、數據分析等。環境準備安裝 Python：指導如何安裝...

yennefer ‧ 2024-12-03

0 Like 0 留言 1243 瀏覽

鐵人賽生成式 AI DAY 20

智能雲端架構圖生成：結合LangChain&LangGrpah與Rag的創新應用系列第 20 篇

技術 day20 製作給予GenAI的Diagram as Code教科書(二)：Node補充資料

前言昨天我們利用Guides製作教學手冊，使得GenAI懂得如何操作這個函式庫，但是若沒有完整的工具書，也沒辦法發揮出這個工具的強大之處，因此我們這天主要獲取...

jay0810 ‧ 2024-09-19 ‧團隊不時以註解遮羞的實習同學

0 Like 0 留言 1078 瀏覽

鐵人賽生成式 AI DAY 19

智能雲端架構圖生成：結合LangChain&LangGrpah與Rag的創新應用系列第 19 篇

技術 day19 製作給予GenAI的Diagram as Code教科書(一)：課本與爬蟲資料標記

前言在day18我們說明我們的計畫，主要兩部分教科書課本和擴充資料，今天我們會製作課本的內容，主要會將Guide的內容進行整理，並且存成txt檔案。正文...

jay0810 ‧ 2024-09-18 ‧團隊不時以註解遮羞的實習同學

0 Like 0 留言 1023 瀏覽

鐵人賽生成式 AI DAY 9

智能雲端架構圖生成：結合LangChain&LangGrpah與Rag的創新應用系列第 9 篇

技術 day9 打造智能新聞分析系統：從資料抓取到GenAI智慧回應

前言今天我們會展示以抓取新聞為外部資料源，並且用OpenAI的embeddingmodel將資料源轉成向量存入本地的向量資料庫，接著再將使用者詢問的問題，進行...

jay0810 ‧ 2024-09-08 ‧團隊不時以註解遮羞的實習同學

0 Like 0 留言 565 瀏覽

鐵人賽 Kubernetes DAY 21

關於新手會想知道Kubernetes的幾件事情系列第 21 篇

技術 [Dya 21] K8S Lab - 基於 MS COCO 的圖像分類系統 (4)

User Interface 有點陽春今天來簡單設計一下 Icon Icon 的來源是 CoCo Datset 裡面 Overview 的 icon 下面是...

whoami ‧ 2024-08-21

1 Like 0 留言 4127 瀏覽

技術 [Python爬蟲] Beautiful Soup 模組

BeautifySoup 模組 Python 的 Beautiful Soup 模組是一個用來解析 HTML 和 XML 文件的程式庫。這個模組提供了一個方便...

pellok ‧ 2023-12-20

0 Like 0 留言 3471 瀏覽

技術 [Python爬蟲] 分析目標網站

分析目標網站分析網站 - 股市GoodInfo 使用瀏覽器開發工具來分析網站並找出資訊、網頁與可用的 API 是一項實用的技能。以下是一個步驟指南，說明如何...

pellok ‧ 2023-12-06

2 Like 0 留言 9726 瀏覽

技術 Python爬蟲,真的很簡單

首先要先了解什麼是爬蟲：網路爬蟲可理解成，可自動蒐集網頁上資訊的程式。本篇會介紹靜態與動態網頁的爬蟲作法，至於兩場的使用場合，理論上來說動態的相對比較不會有...

zyx ‧ 2021-12-03

0 Like 1 留言 5316 瀏覽

鐵人賽 AI & Data DAY 28

資料三十-那些最基本的資料處理與分析技能系列第 28 篇

技術【Day28-爬蟲】資料分析有時候還是需要自己生資料的——以python自動抓取gif梗圖為例，十分鐘簡單上手爬蟲（含範例程式）

在我們學習資料分析的過程中，很常會被拿到各種各樣的資料集來作為例子，不過有的時候我們也會希望有一些比較不同或是比較實際特定遇到的資料來進行分析，那這個時候具備有...

owo ‧ 2021-10-13

1 Like 0 留言 2534 瀏覽

鐵人賽自我挑戰組 DAY 13

Python 30天自我挑戰系列第 13 篇

技術 Day13 - 使用爬蟲套件擷取網頁內容

接續昨天的內容，今天要實作使用爬蟲技術，根據給定的小說網址，抓取其書名和作者資訊。這次會使用兩個套件： requests：用來發出HTTP請求，透過HTTP...

Sylvia ‧ 2021-09-25

0 Like 0 留言 2230 瀏覽

鐵人賽 Mobile Development DAY 11

長照小幫手 - 從 0 開始建置 Chatbot 的筆記 & 走錯路的心得系列第 11 篇

技術 Day 11 - [爬蟲] 01-蒐集訓練資料以衛服部長照常見問題為例

撰寫 Python 程式碼蒐集網路上的長照相關問答資訊，相比使用人工蒐集的方式，程式自動化蒐集方便又快速，也比較不會有缺漏。本研究將程式蒐集到的資料彙整成 C...

YR ‧ 2021-09-25 ‧團隊來自行雲者研發基地的菁英們

0 Like 0 留言 4684 瀏覽

鐵人賽自我挑戰組 DAY 18

從HTML到Python爬蟲的30天之旅系列第 18 篇

技術 Day 18：專案03 - PTT 八卦版爬蟲03 | 文章標題、作者、時間

哎呀哎呀，開學後變得好忙阿，連一天寫一篇的時間都沒有，果然先預留點文章是對的。參賽前還以為30天很短，實際參賽後才覺得真的是很漫長的過程，離結束還剩12天，好久...

Andy Chiang ‧ 2021-09-23

0 Like 0 留言 5652 瀏覽

鐵人賽自我挑戰組 DAY 15

從HTML到Python爬蟲的30天之旅系列第 15 篇

技術 Day 15：專案02 - PTT C_Chat版爬蟲02 | BeautifulSoup

大家安安，歡迎來到鐵人賽的第15天! 不知不覺已經過完一半了，再努力堅持下去吧! 昨天已經將網站的原始碼抓下來了，然而我們只需要原始碼中特定的幾筆資料而已，所以...

Andy Chiang ‧ 2021-09-20

1 Like 0 留言 2075 瀏覽

技術 Day15 參加職訓(機器學習與資料分析工程師培訓班)，Python程式設計

今天教seaborn真的覺得比matplotlib厲害好多，也教了Requests跟bs4 import seaborn as sns sns.set_them...

aheating0918 ‧ 2021-07-20

9 Like 4 留言 2996 瀏覽

技術學校體溫自動上傳爬蟲（學習記錄）

動機因為疫情，這學習開始學校要求大家每天都要在九點前到學校網站上傳體溫，我覺得非常麻煩。動點，果沒傳要被記警告！?這種麻煩的要求我當然是不會每天乖乖上傳的，於...

the_shy_of_bush ‧ 2021-04-30

1 Like 0 留言 5312 瀏覽

鐵人賽 Software Development DAY 21

糊裡糊塗Python就上手系列第 21 篇

技術 [2020鐵人賽Day21]糊裡糊塗Python就上手-蟲蟲進擊之爬蟲取得資訊(下)

今日目標整合先前幾篇所提到的一些技巧，並運用在一起，實際製作一支星座爬蟲程式事前準備當然要先找好我們將要實作的資料來源，這邊我們使用唐綺陽每日星座運勢...

Old Siao ‧ 2020-10-06 ‧團隊迷途羔羊

1 Like 0 留言 6326 瀏覽

鐵人賽 Software Development DAY 20

糊裡糊塗Python就上手系列第 20 篇

技術 [2020鐵人賽Day20]糊裡糊塗Python就上手-蟲蟲進擊之爬蟲取得資訊(中)

今日目標今天要來提一下如何把取得回來的網頁原始碼解析 What is Beautiful Soup？ Beautiful Soup 可快速的的讀取 HTML...

Old Siao ‧ 2020-10-05 ‧團隊迷途羔羊

0 Like 0 留言 7241 瀏覽

技術使用requests方法進行網路爬蟲(2)

安裝BeautifulSoup4!!! 承上篇文章，我們要來分析我們爬蟲爬到的網頁，以及以自動登入it邦發表文章為例子來撰寫我們的爬蟲程式。 Beautiful...

tarrant777 ‧ 2020-07-21

0 Like 0 留言 2159 瀏覽

鐵人賽 AI & Data DAY 30

Hands on Data Cleaning and Scraping 資料清理與爬蟲實作系列第 30 篇

技術 Day30 Scraping from IMDb with Selenium 2/2 用Selenium爬取IMDb 2/2

本篇文章是使用Chrome瀏覽器搭配Selenium爬取電影評分網站IMDb資料，一些前置作業如下：先進到這個網站確定目前所使用的Chrome版本。到Ch...

kyt ‧ 2019-10-01

0 Like 0 留言 3768 瀏覽

鐵人賽 AI & Data DAY 28

Hands on Data Cleaning and Scraping 資料清理與爬蟲實作系列第 28 篇

技術 Day28 BS4: Scrape from Youtube 2/2 用美麗的湯爬取Youtube 2/2

延續昨日的文章，今天要把Berge的Youtube搜尋頁面縮圖連結存下來。Today we will continue last article to scra...

kyt ‧ 2019-09-29

0 Like 0 留言 4233 瀏覽

鐵人賽 AI & Data DAY 27

Hands on Data Cleaning and Scraping 資料清理與爬蟲實作系列第 27 篇

技術 Day27 BS4 Scrape from Youtube 1/2 用美麗的湯爬取Youtube 1/2

今天嘗試來用美麗的湯從Youtube爬取影片標題、連結、觀看次數與簡介。爬取的資料是一個好聽德國樂團Berge的Youtube搜尋頁面(是想趁機推坑吧笑死)。T...

kyt ‧ 2019-09-28

0 Like 0 留言 3373 瀏覽

鐵人賽 AI & Data DAY 25

Hands on Data Cleaning and Scraping 資料清理與爬蟲實作系列第 25 篇

技術 Day25 Beautiful Soup Try Out: Stepstone Posting 美麗的湯爬蟲初體驗：達石職缺

初次嘗試使用美味的湯爬資料，先做小一點的試試水。今天是從德國求職網站達石來下載職缺列表，先試看看不翻頁只爬第一頁100筆職缺訊息。Today is my fir...

kyt ‧ 2019-09-26

0 Like 0 留言 2604 瀏覽

鐵人賽 Modern Web DAY 26

慢慢帶你了解Flask 系列第 26 篇

技術慢慢帶你了解Flask - Day26 101-Videos(2)：爬蟲預備資料

大家好，我是長風青雲。今天是第二十六天，昨天表現完敬意後，我們就要開始動手了。現在我們面對的問題是──如何動手？難不成我們要一個一個把影片下載下來，再將他放在...

長風青雲 ‧ 2019-09-27

1 Like 0 留言 7395 瀏覽

鐵人賽 AI & Data DAY 6

爬蟲在手、資料我有 - 30 天 Scrapy 爬蟲實戰系列第 6 篇

技術【Day 5】剖析網頁原始內容 (1/2) - HTML

在昨天的內容中，我們已經了解了基本的 HTML 結構，今天我們來試著剖析網頁原始碼並找出我們需要的資料。常見剖析 HTML 原始碼的方式有三種：正則表示式...

Rex Chien ‧ 2019-09-20

0 Like 0 留言 5823 瀏覽

達標好文技術 1. Python大數據特訓班_爬取與分析_使用Requests與BeautifulSoup練習簡單爬取

今天使用python練習簡單的爬取博客來即時榜爬取內容:1.榜單排名2.書名3.書的圖片網址 import requests from bs4 import B...

Zoey ‧ 2019-04-10

2 Like 1 留言 69005 瀏覽

鐵人賽 Data Technology DAY 23

使用Python進行資料分析系列第 23 篇

技術 [Day23]Beautiful Soup網頁解析！

哈囉！今天是鐵人賽的第23天！今天要來說明Beautiful Soup這個Python的套件！ Beautiful Soup is a Python libr...

plusone ‧ 2018-01-11 ‧團隊i.m.a.c_wishing_well

0 Like 0 留言 25926 瀏覽

鐵人賽 Software Development DAY 10

[行銷也要自動化] 用 Python Selenium + NodeJS + Amazon EC2 打造簡易關鍵字搜尋報表應用！系列第 12 篇

技術 Day11：selenium 實作網站換頁爬蟲｜Kearch 1.0 爬蟲關鍵字報表工具

本專題爬蟲系列文章： Python scrapy 爬取 Y combinator BlogPython requests 模擬網站登入爬蟲Python req...

Kyle ‧ 2017-12-27

0 Like 0 留言 5318 瀏覽

鐵人賽 Software Development DAY 1

[行銷也要自動化] 用 Python Selenium + NodeJS + Amazon EC2 打造簡易關鍵字搜尋報表應用！系列第 1 篇

技術 Day0：KeywordSearch 1.0 教學文概覽 + 核心功能(Selenium)前情提要

嗨大家好！我是阿寶，大概半年前開始碰前後端和Python，同時間相對擅長數位行銷、網站分析、社群經營等。最近因為被重要的老師啟蒙，而有了把行銷領域重複性的工作，...

Kyle ‧ 2017-12-16

2 Like 0 留言 92753 瀏覽

鐵人賽 Big Data DAY 16

R 語言使用者的 Python 學習筆記系列第 16 篇

達標好文技術 [第 16 天] 網頁解析

並不是所有的資料都能這麼方便地以表格式資料（Tabular data），EXCEL 試算表或者 JSON 載入工作環境，有時候我們的資料散落在網路不同的角落裡，...

tonykuoyj ‧ 2016-12-16

技術 【Python】13.網頁結構照妖鏡：用 BeautifulSoup 提取密密麻麻網頁中的黃金資料