iT邦幫忙

2025 iThome 鐵人賽

DAY 9
0
生成式 AI

AI 藥師助手:打造人人都看得懂的藥品查詢系統系列 第 9

Day 9 – 用 Python 爬蟲抓取藥品資訊

  • 分享至 

  • xImage
  •  

前言

昨天我已經找好了藥品資料來源,今天就要正式開始蒐集資料。這一步的核心是使用Python 爬蟲,把網頁上的藥品資訊抓取下來,並存成 CSV,讓後面 AI 可以用這些資料來回答問題。

為什麼要用爬蟲?

雖然有些藥品資料能直接下載,但有些資訊散落在不同網站,或只有網頁格式,這時候爬蟲就能派上用場。流程大致是:
1.requests:下載網頁 HTML
2.BeautifulSoup:解析 HTML,找到需要的元素
3.pandas:存成 CSV 檔,方便後續分析

程式碼實作

首先安裝需要的套件:

pip install requests beautifulsoup4 pandas

接著我們來寫一個簡單的範例,先從維基百科抓「普拿疼」的資訊:

import requests
from bs4 import BeautifulSoup
import pandas as pd

#目標頁面(普拿疼)
url = "https://zh.wikipedia.org/wiki/撲熱息痛"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

#抓取標題(藥品名稱)
title = soup.find("h1").text
print("頁面標題:", title)

#抓取第一段文字(簡介)
first_para = soup.find("p").text
print("第一段:", first_para)

#建立藥品資料
data = [
    {"藥品名稱": "普拿疼", "成分": "Acetaminophen"},
    {"藥品名稱": "維他命C", "成分": "Ascorbic Acid"},
]

df = pd.DataFrame(data)
df.to_csv("medicine.csv", index=False, encoding="utf-8-sig")
print("資料已存成 CSV!")

執行結果

頁面標題: 撲熱息痛
第一段: 撲熱息痛(Acetaminophen)是一種常見的解熱止痛藥...

就能得到 medicine.csv

心得

今天學會了爬蟲的基本流程:下載 → 解析 → 存檔,並成功抓到第一個藥品的資訊,建立了最小版的藥品資料集,未來我可以擴充這個流程,把更多藥品收集起來,慢慢建立一個完整專案。


上一篇
Day 8:研究公開藥品資料來源
下一篇
Day 10 – 把專業藥品資訊轉成白話說明:讓 AI 當翻譯員
系列文
AI 藥師助手:打造人人都看得懂的藥品查詢系統10
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言