資料來源與取得 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2017 iT 邦幫忙鐵人賽

DAY 10

0

Big Data

從學生到職場：菜鳥資料科學家的第一個月系列第 10 篇

資料來源與取得

2017鐵人賽

2016-12-12 22:02:13

4038 瀏覽

分享至

資料來源

跨資料分析能夠結合不同的知識，進而找出資料間無法明顯發覺的關連性。跨資料分析牽涉到不同領域的背景，也需要處理、串聯不同來源的資料集，是一個具有挑戰的工作。尤其當資料來自許多不同的單位，用不同的格式發布。這造成資料搜集更加費時費工，有效地善用工具將可以節省人工成本的損耗。

資訊就像是經過主廚精心烹調的料理，而資料就像是原料一樣。有好的資料價值，一定要有是適合的資料。「找資料」->「整理資料」->「用資料」，是在分析前的標準程序。仰賴於網路科技的普及，搜尋引擎已經覆蓋了大量的網路資源。有效地使用搜尋引擎是找到的資料的基本功。除此之外，隨著開放資料的議題興起，現在也有越來越多的官方或非官方組織將其資料公開讓大家使用。

這邊分享幾個常見的公開資料單位：

資料取得

知道資料在哪裡之後，再來就要學學如何取得資料。一般來說，資料常見幾種公布方式有幾下幾種：

檔案

資料會包成檔案提供下載，格式可能包含前一篇提到的「CSV」、「JSON」等等。如果是已經有提供制式的格式的話，相對容易處理，一般的程式語言或是商業軟體都具備讀取的功能。

不過還有一種很常見的資料格式，PDF，處理上就不是這麼容易，需要更多的工具協助才可以（之後有機會視情況再補充）。

API

API（Application Program Interface，應用程序接口）提供程式化的連接的接口，讓工程師/分析師可以選擇資料中要讀取的特定部分，而不需要把整批資料事先完整下載回來。API 一般都是直接連接到一個資料庫，而資料庫內儲存的都是即時更新最新版本的資料。

簡單來說，API 可以分為兩個動作：使用者呼叫查詢，伺服器根據需求回傳。呼叫的方式有 POST 或是 GET；回傳一般也會使用像是 JSON 的格式。

靜態/動態網頁

最後一種也是很常出現資料的地方，就是網頁上。我們常常會發現我們的資料並不是一個特定的檔案，也沒有 API 可以使用。他就是穩穩地出現在網頁上。這樣的話，就只能自己寫爬蟲，把自己想用的資料從網頁上爬下來。

Reference

資料怎麼存在電腦裡？資料格式解密

資料爬蟲(上) - 靜態網頁篇

系列文

從學生到職場：菜鳥資料科學家的第一個月共 28 篇

目錄

RSS系列文訂閱系列文

89 人訂閱

完整目錄

直播研討會

尚未有邦友留言

立即登入留言

參賽組數

1064 組

團體組數

40 組

累計文章數

22211 篇

完賽人數

600 人

智慧醫療零侵駭-新形態釣魚防護

2023 臺灣醫院資訊主管會議 |

24 分

以開發者資料驅動的 CI/CD 優化策略

DevOpsDays |

32 分

【以Cloud Native雲端原生工具打造雲端安全】

安碁資訊｜資安防護服務．企業營運夥伴 |

29 分

DevOps加入Biz 提現DevOps在企業價值定位

DevOpsDays |

41 分

沙箱中的影武者！利用資料探勘標記惡意程式家族及攻擊技術

奧義智慧科技 |

32 分

開發與產品對立難解之謎，早知道就與敏捷建交

Agile Summit 敏捷高峰會 |

23 分

企業全面數位化後的資安新思維

臺灣資安大會 |

32 分

透過 GitHub Copilot AI 的幫助，讓我成為敏捷開發人

Agile Summit 敏捷高峰會 |

40 分

生成式 AI 對政府部門的挑戰、機會與潛藏的資安風險

2023 數位政府高峰會 |

36 分

金融業雲端轉型實戰經驗 - Container、DevOps、IaC 與維運新模式

Cloud Summit 臺灣雲端大會 |

29 分

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js

IT邦幫忙