跨資料分析能夠結合不同的知識,進而找出資料間無法明顯發覺的關連性。跨資料分析牽涉到不同領域的背景,也需要處理、串聯不同來源的資料集,是一個具有挑戰的工作。尤其當資料來自許多不同的單位,用不同的格式發布。這造成資料搜集更加費時費工,有效地善用工具將可以節省人工成本的損耗。
資訊就像是經過主廚精心烹調的料理,而資料就像是原料一樣。有好的資料價值,一定要有是適合的資料。「找資料」->「整理資料」->「用資料」,是在分析前的標準程序。仰賴於網路科技的普及,搜尋引擎已經覆蓋了大量的網路資源。有效地使用搜尋引擎是找到的資料的基本功。除此之外,隨著開放資料的議題興起,現在也有越來越多的官方或非官方組織將其資料公開讓大家使用。
這邊分享幾個常見的公開資料單位:
知道資料在哪裡之後,再來就要學學如何取得資料。一般來說,資料常見幾種公布方式有幾下幾種:
資料會包成檔案提供下載,格式可能包含前一篇提到的「CSV」、「JSON」等等。如果是已經有提供制式的格式的話,相對容易處理,一般的程式語言或是商業軟體都具備讀取的功能。
不過還有一種很常見的資料格式,PDF,處理上就不是這麼容易,需要更多的工具協助才可以(之後有機會視情況再補充)。
API(Application Program Interface,應用程序接口)提供程式化的連接的接口,讓工程師/分析師可以選擇資料中要讀取的特定部分,而不需要把整批資料事先完整下載回來。API 一般都是直接連接到一個資料庫,而資料庫內儲存的都是即時更新最新版本的資料。
簡單來說,API 可以分為兩個動作:使用者呼叫查詢,伺服器根據需求回傳。呼叫的方式有 POST 或是 GET;回傳一般也會使用像是 JSON 的格式。
最後一種也是很常出現資料的地方,就是網頁上。我們常常會發現我們的資料並不是一個特定的檔案,也沒有 API 可以使用。他就是穩穩地出現在網頁上。這樣的話,就只能自己寫爬蟲,把自己想用的資料從網頁上爬下來。