python抓網頁data,及做圖表之二十三：當網頁的解析庫（Beautiful Soup)有bug時

DAY 21

用python擷取網頁上的開放資訊（數據資料），分析及畫出圖表系列第 19 篇

python 鐵人賽

timloo

2013-10-10 10:58:07

5763 瀏覽

分享至

[quote＝巴菲特]假如觀念會過時，那就不足以成為觀念。[/quote]

開源的自由軟體，一開始就沒界定，自由就是免費，
自由和免費在中文本來就不是同一個字，只有英文，碰巧是同一個單字（FREE)。
我還是感謝自由軟體帶來的眾多免費軟體，它促進了社會的公平，
尤其是很多人窮得沒有電腦用，沒錢付上網費。這些免費又開源的軟體真好。

不知道，為何在本社群裏流傳著，**免費往往是最貴的，免費的東西你敢用嗎？**這類的城市傳說，
以股市為例，公開資訊上的data, 基本上也是納稅人的錢做出的網站，大家都可以取得，
即使沒納稅的人也可以取用。接近於免費，這是爛的東西嗎？
就算不看基本面，純粹以消息面／分析面來看data, 仍是有很多可看性看的資料。

收費的軟體，鎖這鎖那的，想改都沒得改，付維費合約，還是給你拖拖拉拉，或是修改後的BUG造成你更大的痛。這就是好的。

看到微軟的WIN8可能賣得比VISTA差，這也算是史上奇蹟，當一家公司壟斷，從市場佔有率昇華到思想文化上的壟斷，那公司可以經常出現錯誤的決策，可以背離使用者需求，仍然維持公司正常營運。
因為[url＝http://www.crummy.com/software/BeautifulSoup/]Beautiful Soup[/url]
的API設計的太直白，所以我沒有複習正則表達式，或使用標準庫來解析網頁的資料。

終於，它有了bug, 其實己經第三次出現了。之前會忽略，因為還在思考分析的指標，
描述一下bug, 這樣可以回報給官網。

import urllib.request
from bs4 import BeautifulSoup
url = 'http://www.twse.com.tw/ch/trading/exchange/BWIBBU/BWIBBU_d.php?'\
        'input_date=102%2F10%2F09&select2=ALL&order=STKNO&login_btn=%ACd%B8%DF'
response = urllib.request.urlopen(url)
html = response.read()
sp = BeautifulSoup(html.decode('cp950','ignore'))    
print(sp)


<title>TWSE 臺灣證券交易所  ﹥交易資訊 ﹥盤後資訊 ﹥個股日本益比、殖利率及股價淨值比（依日期查詢）</title><meta content="text/html; charset=utf-8" http-equiv="Content-Type"/><meta content="IE=EmulateIE7" http-equiv="X-UA-Compatible"/><link href="/ch/css/style.css" rel="stylesheet" type="text/css"/><link href="/ch/css/table.css" rel="stylesheet" type="text/css"/><style type="text/css"></style>

筆者本來以為是decode的關係。

拿掉decode

url = 'http://www.twse.com.tw/ch/trading/exchange/BWIBBU/BWIBBU.php?myear=2013&mmon=10&STK_NO=3149&login_btn=%ACd%B8%DF'
response = urllib.request.urlopen(url)
html = response.read()

sp = BeautifulSoup(html)
print(sp)

<title>TWSE 臺灣證券交易所  ﹥交易資訊 ﹥盤後資訊 ﹥個股日本益比、殖利率及股價淨值比（依代碼查詢）</title><meta content="text/html; charset=utf-8" http-equiv="Content-Type"/><meta content="IE=EmulateIE7" http-equiv="X-UA-Compatible"/><link href="/ch/css/style.css" rel="stylesheet" type="text/css"/><link href="/ch/css/table.css" rel="stylesheet" type="text/css"/><style type="text/css"></style>

經過BeautifulSoup，結果一樣。

筆者想想，有沒有可能是urllib.request.urlopen抓網頁，就沒抓完全，
雖然看到抓回來的有****覺得機會不大，
還是求証一下。

url = 'http://www.twse.com.tw/ch/trading/exchange/BWIBBU/BWIBBU.php?myear=2013&mmon=10&STK_NO=3149&login_btn=%ACd%B8%DF'
response = urllib.request.urlopen(url)
html = response.read()
print(html)
－－－－－－－－－－－－－－－－－－－－－－－－－
align=center class=til_2>102 \xa6~10\xa4\xeb \xa5\xbf\xb9F  \xad\xd3\xaa\xd1\xa4\xe9\xa5\xbb\xafq\xa4\xf1\xa1B\xb4\xde\xa7Q\xb2v\xa4\xce\xaa\xd1\xbb\xf9\xb2b\xad\xc8\xa4\xf1\xa1]\xa8\xcc\xa5N\xbdX\xacd\xb8\xdf\xa1^&lt;/div>&lt;/td>&lt;/tr>&lt;tr bgcolor=#EBDCC9>&lt;td height=20 class=basic2 align=center>\xa4\xe9\xb4\xc1&lt;/td>&lt;td height=20 class=basic2 align=center>\xa5\xbb\xafq\xa4\xf1&lt;/td>&lt;td height=20 class=basic2 align=center>\xb4\xde\xa7Q\xb2v(%)&lt;/td>&lt;td height=20 class=basic2 align=center>\xaa\xd1\xbb\xf9\xb2b\xad\xc8\xa4\xf1&lt;/td>&lt;/tr>&lt;tr bgcolor=#FFFFFF>&lt;td height=20 class=basic2 align=center> 102/10/01&lt;/td>&lt;td height=20 class=basic2 align=right> \xa1\xd0&lt;/td>&lt;td height=20 class=basic2 align=right> 1.71&lt;/td><td height=20 class=basic2 align=right> 1.59</td></tr><tr bgcolor=#FFFFFF><td height=20 class=basic2 align=center> 102/10/02</td><td height=20 class=basic2 align=right> \xa1\xd0</td><td height=20 class=basic2 align=right> 1.72</td><td height=20 class=basic2 align=right> 1.58</td></tr><tr 

－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－

還是原汁原味的網頁檔，要抓的data有在裏面。
原來我們的browser還是挺利害的，解析的函式庫，直接整個跳掉的內容，
browser還是能呈現出來。

讓Beautiful Soup整個跳掉的關鍵，值得讓人深思的問題，那些網頁的寫法，
會讓Beautiful Soup解不出來。筆者今年恐怕沒法回答，得要明年鐵人賽。
這個議題，是讓筆者學習除錯的好議題。最近想先把一些想法先落實成程式，這個議題只好延後了。

筆者先試一下標準庫或是Beautiful Soup引用的非常老牌且資深的庫：[url＝http://lxml.de/]lxml[/url]