昨天我已經找好了藥品資料來源,今天就要正式開始蒐集資料。這一步的核心是使用Python 爬蟲,把網頁上的藥品資訊抓取下來,並存成 CSV,讓後面 AI 可以用這些資料來回答問題。
雖然有些藥品資料能直接下載,但有些資訊散落在不同網站,或只有網頁格式,這時候爬蟲就能派上用場。流程大致是:
1.requests:下載網頁 HTML
2.BeautifulSoup:解析 HTML,找到需要的元素
3.pandas:存成 CSV 檔,方便後續分析
首先安裝需要的套件:
pip install requests beautifulsoup4 pandas
接著我們來寫一個簡單的範例,先從維基百科抓「普拿疼」的資訊:
import requests
from bs4 import BeautifulSoup
import pandas as pd
#目標頁面(普拿疼)
url = "https://zh.wikipedia.org/wiki/撲熱息痛"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")
#抓取標題(藥品名稱)
title = soup.find("h1").text
print("頁面標題:", title)
#抓取第一段文字(簡介)
first_para = soup.find("p").text
print("第一段:", first_para)
#建立藥品資料
data = [
{"藥品名稱": "普拿疼", "成分": "Acetaminophen"},
{"藥品名稱": "維他命C", "成分": "Ascorbic Acid"},
]
df = pd.DataFrame(data)
df.to_csv("medicine.csv", index=False, encoding="utf-8-sig")
print("資料已存成 CSV!")
頁面標題: 撲熱息痛
第一段: 撲熱息痛(Acetaminophen)是一種常見的解熱止痛藥...
就能得到 medicine.csv
今天學會了爬蟲的基本流程:下載 → 解析 → 存檔,並成功抓到第一個藥品的資訊,建立了最小版的藥品資料集,未來我可以擴充這個流程,把更多藥品收集起來,慢慢建立一個完整專案。