Day 21：專案04 - Facebook爬蟲02 | Selenium - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2021 iThome 鐵人賽

DAY 21

自我挑戰組

從HTML到Python爬蟲的30天之旅系列第 21 篇

Day 21：專案04 - Facebook爬蟲02 | Selenium

13th鐵人賽網路爬蟲 facebook selenium python

Andy Chiang

2021-09-26 09:04:28

10166 瀏覽

昨天結束在Facebook登入之後，今天就接續昨天的內容，以木棉花的粉絲專頁為例，來講怎麼爬下來貼文的內容吧!

進到木棉花粉專

time.sleep(5)

# 進入木棉花專頁
driver.get("https://www.facebook.com/emuse.com.tw")

time.sleep(5)

其實就跟昨天一樣，使用get()函數進到木棉花的粉專。

time.sleep()設定延遲是為了讓Facebook有處理資料的時間，這點在使用Selenium時很重要，如果你都不給延遲時間，就有可能因為資料還沒載入而出錯。

模擬滾輪下滑

昨天已經講過了Facebook必須往下滑動才會載入資料，所以現在就要讓Selenium模擬出使用者滑鼠往下滑動的行為。

# 往下滑3次，讓Facebook載入文章內容
for x in range(3):
    driver.execute_script("window.scrollTo(0,document.body.scrollHeight)")
    print("scroll")
    time.sleep(5)

這邊是讓Selenium執行JavaScript的程式，雖然我沒有講過JavaScript，但你只要知道這段程式就是控制瀏覽器向下滑1頁。而且每次下滑後都要給一點延遲時間載入資料。

擷取貼文內容

接下來，我們對貼文右鍵>>檢查，發現到內容放在一個class="kvgmc6g5 cxmmr5t8 oygrvhab hcukyx3x c1et5uql ii04i59q"的<div>中。

再往下看，每一行文字都是放在dir="auto"的<div>中。

好，那麼程式碼就是這樣。

# 定位文章標題
titles = soup.find_all(
    "div", class_="kvgmc6g5 cxmmr5t8 oygrvhab hcukyx3x c1et5uql ii04i59q")
for title in titles:
    # 定位每一行標題
    posts = title.find_all("div", dir="auto")
    # 如果有文章標題才印出
    if len(posts):
        for post in posts:
            print(post.text)

    print("-" * 30)

執行結果：

下載圖片

呀咧呀咧，發現今天的內容有點太少了，再加碼講個下載圖片好了。

首先，我們觀察到Facebook的圖片有兩種，一種是單純一張圖片，另一種是相簿，然後這兩種的class分別是"i09qtzwb n7fi1qx3 datstx6m pmk7jnqg j9ispegn kr520xx4 k4urcfbm bixrwtb6"和"i09qtzwb n7fi1qx3 datstx6m pmk7jnqg j9ispegn kr520xx4 k4urcfbm"。

所以就用find_all()搜尋所有的圖片吧! 將兩種class放在list中就可以了。

images = root.find_all(
    "img", class_=["i09qtzwb n7fi1qx3 datstx6m pmk7jnqg j9ispegn kr520xx4 k4urcfbm bixrwtb6", "i09qtzwb n7fi1qx3 datstx6m pmk7jnqg j9ispegn kr520xx4 k4urcfbm"])

下載圖片前，我們要先取得圖片的來源位置，就放在src屬性中，並且用requests將圖片內容給抓下來。接著，我們要在我們的電腦中開啟新檔來存這個圖片，因為我們知道圖片其實就是由很多pixel所組成的二進位檔案，所以模式要設為wb。最後，將圖片內容寫進檔案就完成了!

因為檔名如果相同的話會被覆蓋過去，所以給每張圖片一個流水號。另外，因為圖片應該會滿多的，所以將圖片集中儲存在images這個資料夾內。

# 下載圖片
images = root.find_all(
    "img", class_=["i09qtzwb n7fi1qx3 datstx6m pmk7jnqg j9ispegn kr520xx4 k4urcfbm bixrwtb6", "i09qtzwb n7fi1qx3 datstx6m pmk7jnqg j9ispegn kr520xx4 k4urcfbm"])
if len(images) != 0:
    for index, image in enumerate(images):
        img = requests.get(image["src"])
        with open(f"images/img{index+1}.jpg", "wb") as file:
            file.write(img.content)
        print(f"第 {index+1} 張圖片下載完成!")

成果展示：