Day 9 – 用 Python 爬蟲抓取藥品資訊 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2025 iThome 鐵人賽

DAY 9

生成式 AI

AI 藥師助手：打造人人都看得懂的藥品查詢系統系列第 9 篇

Day 9 – 用 Python 爬蟲抓取藥品資訊

17th鐵人賽

tomato5678

2025-09-21 02:00:57

162 瀏覽

分享至

前言

昨天我已經找好了藥品資料來源，今天就要正式開始蒐集資料。這一步的核心是使用Python 爬蟲，把網頁上的藥品資訊抓取下來，並存成 CSV，讓後面 AI 可以用這些資料來回答問題。

為什麼要用爬蟲？

雖然有些藥品資料能直接下載，但有些資訊散落在不同網站，或只有網頁格式，這時候爬蟲就能派上用場。流程大致是：
1.requests：下載網頁 HTML
2.BeautifulSoup：解析 HTML，找到需要的元素
3.pandas：存成 CSV 檔，方便後續分析

程式碼實作

首先安裝需要的套件：

pip install requests beautifulsoup4 pandas

接著我們來寫一個簡單的範例，先從維基百科抓「普拿疼」的資訊：

import requests
from bs4 import BeautifulSoup
import pandas as pd

#目標頁面（普拿疼）
url = "https://zh.wikipedia.org/wiki/撲熱息痛"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

#抓取標題（藥品名稱）
title = soup.find("h1").text
print("頁面標題：", title)

#抓取第一段文字（簡介）
first_para = soup.find("p").text
print("第一段：", first_para)

#建立藥品資料
data = [
    {"藥品名稱": "普拿疼", "成分": "Acetaminophen"},
    {"藥品名稱": "維他命C", "成分": "Ascorbic Acid"},
]

df = pd.DataFrame(data)
df.to_csv("medicine.csv", index=False, encoding="utf-8-sig")
print("資料已存成 CSV！")

執行結果

頁面標題： 撲熱息痛
第一段： 撲熱息痛（Acetaminophen）是一種常見的解熱止痛藥...

就能得到 medicine.csv

心得

今天學會了爬蟲的基本流程：下載 → 解析 → 存檔，並成功抓到第一個藥品的資訊，建立了最小版的藥品資料集，未來我可以擴充這個流程，把更多藥品收集起來，慢慢建立一個完整專案。

Day 8：研究公開藥品資料來源

Day 10 – 把專業藥品資訊轉成白話說明：讓 AI 當翻譯員

系列文

AI 藥師助手：打造人人都看得懂的藥品查詢系統共 30 篇

RSS系列文訂閱系列文

1 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19838 篇

完賽人數

529 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

AI 藥師助手：打造人人都看得懂的藥品查詢系統系列 第 9 篇