iT邦幫忙

2024 iThome 鐵人賽

DAY 2
0
Python

Python自修系列 第 2

DAY2:爬蟲

  • 分享至 

  • xImage
  •  

下載所需要的庫

pip install requests beautifulsoup4

程式碼

import requests
from bs4 import BeautifulSoup

# 目標網頁URL
url = 'https://www.wikipedia.org/'

# 發送HTTP GET請求
response = requests.get(url)

# 確認請求成功
if response.status_code == 200:
    # 解析HTML內容
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # 找到所有語言鏈接
    languages = soup.find_all('a', {'class': 'link-box'})

    # 打印語言鏈接和名稱
    for lang in languages:
        lang_name = lang.find('strong').text
        lang_link = lang['href']
        print(f'{lang_name}: {lang_link}')
else:
    print(f'無法訪問 {url}, 狀態碼: {response.status_code}')

https://ithelp.ithome.com.tw/upload/images/20240805/20162215BnM24QPtpt.png

導入庫:

requests:用於發送HTTP請求。
BeautifulSoup:用於解析HTML內容。

發送HTTP GET請求:

使用requests.get(url)發送GET請求,獲取網頁內容。

解析HTML內容:

使用BeautifulSoup解析獲取的HTML內容。
soup = BeautifulSoup(response.text, 'html.parser')將網頁內容轉換為BeautifulSoup對象,方便進行解析。

提取所需信息:

使用find_all方法找到所有帶有class屬性為link-box的標籤,這些標籤包含了各語言的鏈接。
遍歷提取出的標籤,分別打印語言名稱和鏈接。


上一篇
DAY1:參賽理由
下一篇
DAY3:增加功能,爬取更多頁面,學習如何處理分頁
系列文
Python自修30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言