資料分析工具

2019鐵人賽

odek53r

2018-10-06 23:22:18

1910 瀏覽

分享至

在深度學習當道的現在，許多人可能會認為其中的數學模型很複雜，一般人難以直接拿來應用，對此已經有許多大公司開源相關工具，或是熱心的研究者開發開源工具放在github上面，其主要目的為讓任何使用者都能夠輕鬆分析資料。

資料取得

靜態資料爬蟲
所謂靜態資料是server產生資料回傳到你的電腦後就固定在網頁上的資料，一般回傳的資料是文字資料，裡面很多視覺控制資料，所以瀏覽器才能顯示各種文字大小顏色、和對其方式。通常定義網頁元素是html標籤，爬蟲只要根據網頁上html標籤資訊，找到目標標籤後就能進行擷取。
在python中常先以urllib套件來request server資料，取回充滿html標籤的資料後，再以BeautifulSoup套件解析標籤，最後找到目標標籤擷取出內容。
動態資料爬蟲
不同於靜態資料，動態資料是非同步化的，網頁部分內容可以再任一時間重新更新最新資料，如果以靜態網頁方法處理，會不知道哪部分資料被更新或哪時更新，就有可能取得錯誤資料，最明顯的例子就是Facebook，fb網頁通常不會一次載入，而是動態載入，留言區域內容也是時時更新。
所以對於動態載入、時時更新的資料，必須讓程式像模仿人類瀏覽FB的動作一樣，自動加載資料後才能進行資料擷取。在python中常以Selenium套件來模仿人類的動作完成資料擷取。