DAY2:爬蟲 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2024 iThome 鐵人賽

DAY 2

0

Python

Python自修系列第 2 篇

DAY2:爬蟲

16th鐵人賽

2024-08-05 12:38:48

617 瀏覽

分享至

下載所需要的庫

pip install requests beautifulsoup4

程式碼

import requests
from bs4 import BeautifulSoup

# 目標網頁URL
url = 'https://www.wikipedia.org/'

# 發送HTTP GET請求
response = requests.get(url)

# 確認請求成功
if response.status_code == 200:
    # 解析HTML內容
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # 找到所有語言鏈接
    languages = soup.find_all('a', {'class': 'link-box'})

    # 打印語言鏈接和名稱
    for lang in languages:
        lang_name = lang.find('strong').text
        lang_link = lang['href']
        print(f'{lang_name}: {lang_link}')
else:
    print(f'無法訪問 {url}, 狀態碼: {response.status_code}')

導入庫：

requests：用於發送HTTP請求。
BeautifulSoup：用於解析HTML內容。

發送HTTP GET請求：

使用requests.get(url)發送GET請求，獲取網頁內容。

解析HTML內容：

使用BeautifulSoup解析獲取的HTML內容。
soup = BeautifulSoup(response.text, 'html.parser')將網頁內容轉換為BeautifulSoup對象，方便進行解析。

提取所需信息：

使用find_all方法找到所有帶有class屬性為link-box的標籤，這些標籤包含了各語言的鏈接。
遍歷提取出的標籤，分別打印語言名稱和鏈接。

DAY1:參賽理由

DAY3:增加功能，爬取更多頁面，學習如何處理分頁

系列文

Python自修共 30 篇

目錄

RSS系列文訂閱系列文

4 人訂閱

完整目錄

熱門推薦

{{ item.subject }}

{{ item.channelVendor }} | {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙