iT邦幫忙

0

爬蟲小問題

https://ithelp.ithome.com.tw/upload/images/20191213/20116868bFKjSPglTF.png
如圖中 印出後會是沒整理過的原始碼 請問若我想弄成好檢視的話需怎麼做
而下方則會有報錯 似乎是名叫html的變數和find_all有衝突 請問該如何改善
麻煩各位大大了 python爬蟲

發問不要標題都是 XXX小問題. 描述不清楚, 不利後續的人查找.

你的路徑有 猛騎D乳婦, 雖說是自由的國度,但是來資訊專業網站討論,
還是要注意一下比較好.
另外就放張圖片, 沒有程式碼,這真是不太好的習慣.
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

1 個回答

1
ccutmis
iT邦高手 2 級 ‧ 2019-12-13 09:29:54
最佳解答

土炮作法提供您參考

import re
import urllib.request
url="https://www.wxnmh.com/thread-1650230.htm"
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0;'}
page1=urllib.request.Request(url,headers=headers)
page=urllib.request.urlopen(page1)
html=page.read()
img_links=re.findall("<img data-s=\"300,640\" data-type=\"jpeg\" data-original=\"([^\"]+)",str(html))
for link in img_links:
  print(link)

另外建議您在it邦發問時,多利用編輯器的</>功能貼上原本有問題的源碼,
儘量不要用貼圖的
(十行程式碼還好,若是幾十行程式讓人重key會有點浪費時間,有的網友可能就不會理你了)

echochio iT邦高手 1 級 ‧ 2019-12-15 11:53:31 檢舉

哈哈 看到圖片當程式碼 ... 還真的不想仔細看 ....

我要發表回答

立即登入回答