iT邦幫忙

1

python 如何利用 for 迴圈 印出table內所有 td值?

import requests
from bs4 import BeautifulSoup

payload = {
    '_EVENTTARGET':'',
    '__EVENTARGUMENT':'',
    '__LASTFOCUS':'',
    '__VIEWSTATEGENERATOR': '02BC70F4',
    '__SCROLLPOSITIONX': 0,
    '__SCROLLPOSITIONY': 791.2000122070312,
    '__VIEWSTATE':'',
    '__EVENTVALIDATION':'/wEdALIB+tCT0j963R5gH77mhKCIO8uqrlOvjGbeK3Kejm0PYRJOfSuEl5g7yXUwS6ZETTwgotu/Y3EykpHi+8YB7qZnzHoMd6I/WrX7g+80YsNS+q7Juy4ZedNRfWYgfV8n1mAdhHofKVSmLmaSynodQaHwL8YXdmWyOHJ/ZtDM9ox/c0o5Fw8t2KHuNKN+kcpoVOCK9oH4cJyS5tK7cGqEEugICDYRtft9xqdIWoyx8uguGe4r1BHwTpmbd03lgvTAEkRSdOO2gIxp9XYzJdDx28Mrs+R4nbiIxhANJoBc4/D96g+sulvF5uuYwcUN6yskSUU99bJkmKy3m+dqkYOzCOWPXtn/mvqHLFRXlUsIq5do0H0/D9wTf10afzG7XCzRMxcJLDhMt5sFqro97xh0IQVfLu7fs0c5VglWvBBVh669xXlinqluy/89i66mZXuiLvCFvbrFAPpmVEJetG0XteF0Wug4dixyofLqf39nu9wCtvgVjDiRAyjQmspkvPusGAU2bS7Fge7IOpaeSeaM/gr2X+OcWQNHg0lupenQKr2Tsr0h2aJE45WwYzXNx8y9x3euNnDXrkuI5ae9uY5lo4PnLhuDB4CJWh6Jk4Dihu3tnkAyNGYBpfEW+B5fSjR7YppFlsfjOu5n0yV/C0f4ajU9jK2Iiooq8fcAig9XauhJA+EL9ZN70chL6XQGJDUfJf/tp9aYKOMxpgYovMNS7Qo8WmHMh+jyvuPzJO+2Ta/Jcr/MOtdh4j/2q4wlijhNwfnLpGoYav3soFpXGV+S183UjCjcAvSdecOS1I37DGfJG8/qJWj+IE+3iFTQVK+3qR9Jsl27w6VRotCagC8CBG7jPmztIMC5OT0gjmA9X0CpwS382KrToRiGuHyRXk7wlKCL0aK/XGLm5yAKxu5tRRhNJufGoWfUalVEYJ3pLvJpKB5Vbd2ubW9fdxglMqBHo/OkpWKtrzr9cy+5+2ZMg8HLKzcAkLTYSw945J/G/YlLY4Dw4Dd5vql86U8ehX02aRm5dxghBsVsuESiTbQRZZyBKHvuE2yljg8K1tJV/kiCickWtc4r/rSp85rsxpHecA/MPzYHVEhq9I8ALemP8TNbrgxwzzmX+apShlDEmgiQ5J27hTgoN40NIKAVTYOVg9KYrTCLDL8DnJqsbZcCC4y6z5FR4cS4WC0Ylb/Q/41i0Hukvcmc1I5kT/eGhRM21Wpeq76XfojAhj3UDEug32RHTbrmdYyFBd8xKy+Ko8pb7G7SjvZED5OlxRAcSZ0OGNTIH7dCVm8nhk9dCegtiIGmEnkq1rDPWg9DbL3krlTtmdrg/D+y8MbBnDuOY9v5eLB9FF1JqPD8XNYbk+KD2mDMhdYlsvX/dBSGzlXCGVs0Dh3/V+qiRAGcRADQvfZbWt36CpomechNH1GSFUIyTY9+LutvzNLQPxQnvBEo9A0jgCwpfIr/K7lW/POJAEUbJD1FZ5YR6ki6fgW+kwZ+lJInoWE3FCnaDXHvu6JKr+uIk52lA4vHX0WTyEC3IMoxY0XXhxLgrL+sfZfjILSWh/YHgL+gDJU+hzZTySgRORjNxaMhtJma84p2Y2qn7CHvuirInDDboR9mAfBEseoxcFtyywjULQfZFoe1aj+eMLRLS+fCw69DSeAv4QzEkyXwnEfixzBjm5bQ+WRO1A9AlKe1jYn5q11biUhoUqAeFaVzBUeB0vRAd33xm1vmn8HD8CYIFCr00yN9YsB1ILDXjkQ8haZp6T4u5c6bo1ylvqeWyAdqsGHs0eVsNY/lnMWBxPnY5+IIWQSIATzfFrL5cU7m3HvSCjBTPwIVsDkUWd8GkLWnQnyd+BxImJS0BIpeon4XDgERAkHzF2+h+qgtudjfTDllAqsdka+gvQXE27VZYs2iFvPZSwFpBz2ydnw4D90uwQZ4w28t4w7FGgTn7bptTzBw5XjME294Ne8wBHPr4aRrsu15+TP8vql1+Jp1A69JcQJDfpx6MFYOe2NlGpOtT+pC9uZ4VUAsLnXcxHvyzeA08jGUPd7TyHhpbbVrvIlWdqq6yttGJazRTSzXqZ2OetGohNvCPEQ9l3OYGGqWnR3jqNVeUOmh0tvcaRNBI88W/bS1JivJmDJjhX7Dt5lX6Iu6FTKulhwwn7G/JrsDYypC1FNLG7FQu1F5AI+5ba34qy2fCcz8SX+tyx4mo11ov3SfNkRBHEC7wKleJKNPggFx/Kp4SoBWNPq4eagX+A6xe5ECwLz/YtdxsmG8eowTqTFORynbHub1LXuiIid8kzxO5bwJAM83cHPqGHDVxgTpIo5VDfy2Fhq4Xj9Re8SUDPUxmEij38jo1kbNMuqjbWuGiZVKBJT41DM8N0y/KrRq0/Hl3GYsYjXfKpE9k5tGyB8D0ykpMJ0xSKvaOuIvPKaDP1Qt4KBQWI0DVax6MTc8E/r9/0WoEDsPGeWyjKo5EWLa52z5YC4I+ltRcgFD2QL/+oraejyTWU3wqHdgFvoovWhZu4GQPlpRQSXflCqWQMtn8z0oiNlKA109ajEUXlOMwWOWo13avtQQQ+bZQA6UM+07oUG/mBdhfoKWB9eOKEP/qar/3FIo9yKotTwlAAGTVlFL5bZE6eMTfUpxQhDC/NLDGPIOO6Gha67a+DKiliI87kehaxe08KLz6LOSFo4fI+JaADllF9OwObePPmawX0yl6sxMlZn5p36Iwxvaz8Mez+KRa0lkJsEIgir96W9gf2n4ihv/hL7DcD4LtfyEnUNEBTg/s8w/uPai9vQDODfRZQGwc14KYW5sZJ7sqOi0l7/Oq0trGBMVL+bixQOQUBEXJA2ChAEsR8QUkkRCaMdPWV9L12TUWZDk1PsXSmZcX3o8boeEPOUrlwlVPBPH0D1zDVVy/eNRdMI94HO1Fxf6DObXjxk1nJAxpW6+go9ltSPcEHjTYnc6Z5f+L4dZL32o8eMLWtTfkSNAeQ+fWeeYWh5smw1CT2cbTOzqE4+qMCj4k6oh0Z72sTeJATMzjEneWV4g/255TG4F1hqF9Pdgl2CR7DhOv0m/iDDDyMEQl0womhnETTsBiS4LoJbGzp/VR9PLbHUKjdkddTafr4Yd2tDu4QXw42VyAqNyboI4GkON+gIRoQSUEE6U3lSs0HU3PeCrxRqoNJdFroFoZblO6TS1O8ObYydjpRVdFhCgRKoFkXxgvHrX3z+NmC8Cu8bNaJFRTlDHnc3q9jlx1fbAt5qk9sdeBdXKDZ2gfgaAqv+r8fcSCW+sKOegHMkRBuyUu7Z1u5DB49zqRnSxL1RWrNLS1pNq1J0Kzkd7e5QrzkSANtaECxM5GS0A5MvpX1MKHYinXh3xoSSXRGHXeevlfhi6G0AqErGdp2iDPa/4+HvxQJyNeo4pa2rfqZ+TijV1KhPZ9t112+wKWgCgUx+90LoKanCA5KPcWQfAgoH6KepdFYaEkToqLP8vQk/5Mt1SgLU+UhCEm5dtO/aqHvneN02hRfoErusn7owDi/6EaUR99VWuBLGMeIbAuquA5IigBbI17Rxp7yuFkFI50Mb+9p3THIrOa9ncmClF8noovKG4awSV383ucXO68AYV4R/NAp0Mf1jseZzrICE+kAHE9RDztg5LWrPrAa0v4eW005XcLM4j/U5VK680L6vSj5qzN4MKPJeqofGOT3sknP5NH0RZEqt5a5rKR0Bz9DwotEEVtmE6nxaUjAgbDxxfUOMDkHeZxX3/MLwlCTvwl8r714CO5OwwWsO0xXcjVkWJGCLkFZo/JPVuewb9aXnZN9w6Xmoa1oyZxp76oo1zVd/0USzB8H7Akxx7SciDog/2wbZyWEALgAvCoBCEsGNw',
    'ctl00$ContentPlaceHolder_content$RadioButtonList_resultType': 0,
    'ctl00$ContentPlaceHolder_content$uc_timeSelector$DropDownList_startYear': 2021,
    'ctl00$ContentPlaceHolder_content$uc_timeSelector$DropDownList_endYear': 2021,
    'ctl00$ContentPlaceHolder_content$uc_timeSelector$time':'RadioButton_month',
    'ctl00$ContentPlaceHolder_content$uc_timeSelector$DropDownList_month_startYear': 2018,
    'ctl00$ContentPlaceHolder_content$uc_timeSelector$DropDownList_month_startMonth': 1,
    'ctl00$ContentPlaceHolder_content$uc_timeSelector$DropDownList_month_endYear': 2021,
    'ctl00$ContentPlaceHolder_content$uc_timeSelector$DropDownList_month_endMonth': 5,
    'ctl00$ContentPlaceHolder_content$uc_productList_mixVer$CheckBoxList_priceType$0': 1,
    'ctl00$ContentPlaceHolder_content$uc_productList_mixVer$CheckBoxList_productList_1_0$8': 13,
    'ctl00$ContentPlaceHolder_content$Button_query':'查詢'
}

url = 'http://price.naif.org.tw/Query/Query_now.aspx'

headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}

resp = requests.post(url, data = payload)


# 將 HTML 轉成 BeautifulSoup 物件
soup = BeautifulSoup(resp.text, 'html.parser')

table = soup.find_all("table", {"id":"ContentPlaceHolder_content_GridView_data"})

print(table[0])

我利用上方程式碼印出

<table align="Center" border="1" cellspacing="0" class="queryBoxNew" id="ContentPlaceHolder_content_GridView_data" rules="all" width="100%">
<tr>
<th rowspan="3"><div style="max-width:140px;min-width:100%;">時間</div></th><th colspan="1">產地農場價格</th>
</tr><tr>
<th colspan="1">家禽類</th>
</tr><tr>
<th><div style="max-width:120px;min-width:100%;">雞蛋</div></th>
</tr>**<tr>
<td>2018年1月</td><td>45.35</td>
</tr><tr>
<td>2018年2月</td><td>38.63</td>
</tr><tr>
<td>2018年3月</td><td>38.58</td>
</tr><tr>
<td>2018年4月</td><td>43.06</td>
</tr><tr>
<td>2018年5月</td><td>46.32</td>
</tr><tr>
<td>2018年6月</td><td>44.33</td>
</tr><tr>
<td>2018年7月</td><td>47.34</td>
</tr><tr>
<td>2018年8月</td><td>51.75</td>
</tr><tr>
<td>2018年9月</td><td>55.39</td>
</tr><tr>
<td>2018年10月</td><td>55.83</td>
</tr><tr>
<td>2018年11月</td><td>55.83</td>
</tr><tr>
<td>2018年12月</td><td>55.83</td>
</tr><tr>
<td>2019年1月</td><td>57.93</td>
</tr><tr>
<td>2019年2月</td><td>57.26</td>
</tr><tr>
<td>2019年3月</td><td>59.87</td>
</tr><tr>
<td>2019年4月</td><td>50.78</td>
</tr><tr>
<td>2019年5月</td><td>44.17</td>
</tr><tr>
<td>2019年6月</td><td>38.94</td>
</tr><tr>
<td>2019年7月</td><td>37.39</td>
</tr><tr>
<td>2019年8月</td><td>45.19</td>
</tr><tr>
<td>2019年9月</td><td>45.50</td>
</tr><tr>
<td>2019年10月</td><td>42.18</td>
</tr><tr>
<td>2019年11月</td><td>46.17</td>
</tr><tr>
<td>2019年12月</td><td>46.91</td>
</tr><tr>
<td>2020年1月</td><td>39.22</td>
</tr><tr>
<td>2020年2月</td><td>42.96</td>
</tr><tr>
<td>2020年3月</td><td>48.84</td>
</tr><tr>
<td>2020年4月</td><td>49.17</td>
</tr><tr>
<td>2020年5月</td><td>44.92</td>
</tr><tr>
<td>2020年6月</td><td>40.83</td>
</tr><tr>
<td>2020年7月</td><td>38.47</td>
</tr><tr>
<td>2020年8月</td><td>45.13</td>
</tr><tr>
<td>2020年9月</td><td>46.78</td>
</tr><tr>
<td>2020年10月</td><td>41.05</td>
</tr><tr>
<td>2020年11月</td><td>43.72</td>
</tr><tr>
<td>2020年12月</td><td>43.84</td>
</tr><tr>
<td>2021年1月</td><td>45.67</td>
</tr><tr>
<td>2021年2月</td><td>42.86</td>
</tr><tr>
<td>2021年3月</td><td>51.48</td>
</tr><tr>
<td>2021年4月</td><td>52.94</td>
</tr><tr>
<td>2021年5月</td><td>46.69</td>
</tr>**
</table>

我想要將標粗那些td數值print出來
像這樣呈現

d = {'時間': ['2021年1月', '2021年2月'], '雞蛋產地價格(元/公斤)': [45.67, 42.86]}
df = pd.DataFrame(data = d)
df
      時間	 雞蛋產地價格(元/公斤)
0	2021年1月	       45.67
1	2021年2月	       42.86

我想利用for迴圈來撰寫
我找到這段程式碼可以print下一筆td資料

egg = soup.find("td", text = "2018年1月").find_next_sibling("td").text

可是他的text內要直接打該值

i = soup.find("td", text = egg).find_next_sibling("td").text

若將text = egg,但egg是變數,這方法會失敗,

有什麼方法可以一直print出td的值,
謝謝!

可以考慮搜尋tr中 第二筆td值
tr td:nth-of-type(2)
cgc0800 iT邦新手 5 級 ‧ 2021-07-08 15:51:28 檢舉
找到解法:
tr = soup.find_all('tr')
for trr in tr:
tdlist = trr.find_all('td')
for i in range(len(tdlist)):
print(str(tdlist[i].text))

2 個回答

1
japhenchen
iT邦大師 1 級 ‧ 2021-07-08 16:41:12
最佳解答

使用pandas跟numpy

import requests
from bs4 import BeautifulSoup
import pandas as pd
import numpy as np
# ..........中間一大堆都一樣

# 最後幾行 
soup = BeautifulSoup(resp.text, 'html.parser')
table = soup.find_all("table", {"id":"ContentPlaceHolder_content_GridView_data"})
#上面這幾行還是你自己寫的


#底下才是重點,也是你下一步該學的,DataFrame
table_MN = pd.read_html(str(table[0]))
df = table_MN[0]
for i in df.to_numpy():
    print(f"時間{i[0]}\t價格{i[1]}")

輸出結果(加\t TAB好看一點)

時間2018年1月   價格45.35
時間2018年2月   價格38.63
時間2018年3月   價格38.58
時間2018年4月   價格43.06
時間2018年5月   價格46.32
時間2018年6月   價格44.33
時間2018年7月   價格47.34
時間2018年8月   價格51.75
時間2018年9月   價格55.39
時間2018年10月  價格55.83
時間2018年11月  價格55.83
時間2018年12月  價格55.83
時間2019年1月   價格57.93
時間2019年2月   價格57.26
時間2019年3月   價格59.87
時間2019年4月   價格50.78
時間2019年5月   價格44.17
時間2019年6月   價格38.94
時間2019年7月   價格37.39
時間2019年8月   價格45.19
時間2019年9月   價格45.5
時間2019年10月  價格42.18
時間2019年11月  價格46.17
時間2019年12月  價格46.91
時間2020年1月   價格39.22
時間2020年2月   價格42.96
時間2020年3月   價格48.84
時間2020年4月   價格49.17
時間2020年5月   價格44.92
時間2020年6月   價格40.83
時間2020年7月   價格38.47
時間2020年8月   價格45.13
時間2020年9月   價格46.78
時間2020年10月  價格41.05
時間2020年11月  價格43.72
時間2020年12月  價格43.84
時間2021年1月   價格45.67
時間2021年2月   價格42.86
時間2021年3月   價格51.48
時間2021年4月   價格52.94
時間2021年5月   價格46.69

你也可以用td去拆,但如果你要把表格變成自己能操作的List/tuple的話,還是學pandas來串比較快

0
uobik
iT邦新手 4 級 ‧ 2021-07-08 16:41:02

參數是可以使用變數的,要換text的值可用for遍歷

for key in XXX:
    print(key, table[0].find("td", text = key).find_next_sibling("td").text)

另外想用find_next一直print出td的話,可以這樣

td = table[0].find_next('td')

while td:
    print(td.text)
    td = td.find_next('td')

再找方法區分時間跟價格

while td:
    if '月' in td.text:
        print(td.text ,td.find_next('td').text)
    td = td.find_next('td')

https://ithelp.ithome.com.tw/upload/images/20210708/201389822sc8hFHykm.png

我要發表回答

立即登入回答