在先前八天聊了各種民生政府開放資料,雖然大部分的內容只有帶過,也有不少還沒提到的民生公共資料如人口、電力圖、食安、甚至經濟等等。在這幾天的資料搜集並整理的同時,我嘗試思考這些開放資料能夠做出什麼有趣的應用,同時也假想若要做出來,在資料串接上是否會有哪些問題。
為了讓開放資料發布者對於開放的方式有循可機,www 和 Linked Data 的創始者 Tim Berners-Lee 建議了一個開放資料五顆星的分類架構,並列出每個星等的製作成本及即將帶來的效益。
1★: make your stuff available on the Web (whatever format) under an open license
一星等是最基本,也是能夠作為開放資料的最低標準。雖然這麼說,但要從非開放資料變成開放資料,可謂是最需要勇氣的第一步。我們常常希望可以透過擁有資料的所有權去獲利,無論是金錢上還是向使用資料的使用者索取個人資料等等,而目前大多數透過資料獲利的公司也是如此。當心理上的那一步過去了,接下來的開放資料授權就不會是難事,有非常多工具能夠協助你選擇符合你需求的開放授權。
2★: make it available as structured data (e.g., Excel instead of image scan of a table)
3★: make it available in a non-proprietary open format (e.g., CSV instead of Excel)
二星及三星等是為了目前政府開放資料中比例最高的等級,這些資料大多能夠到 政府開放資料平臺 中搜尋的到。這是以開放資料發布者來說是最容易、且最不需要的花費心力的開放方式。只要做到「機器可讀」的等級上,並可以將原始檔案格式上傳到開放資料平台即可。但在一致性上仍然有不少缺陷,即便以 .csv 格式上傳,也因為在格式上沒有說明清楚,導致要使用資料時發現如何解譯都行不通。雖然目前已經有許多自動轉換格式工具,但仍然為了在相同等級上做出一致性,期待政府開放資料能夠建議各部門建立資料時能有建議格式規範遵循,將資料開放時轉換的成本也會相對低很多。
4★: use URIs to denote things, so that people can point at your stuff
目前政府開放資料中有近 600/720 個目錄有提供 API 串接 / Webservices,且大多以 json 格式傳遞,似乎有達到開放資料的四星標準,但其實以 Tim 的五星標準來看,"point at your stuff" 的 "point" 不僅是傳遞整個資料集,而是每一筆資料都能夠透過超連結找到,因此就算是用 API 串接也不一定是四星資料。
在設計四星資料集時,除了要思考要如何切割每份資料,並分派到不同固定網址,如何呈現,以及這些切細後的資料是否容易重複使用且能容易再造。雖然這會比較複雜,但是若資料切割處理得當,甚至有可能減低伺服器負擔,不用再每次都將所有資料傳遞出去,也可以更容易獲取使用者存取資料,進行二次利用。
5★: link your data to other data to provide context
當四星資料開始出現之後,我們可將兩個以上的四星資料透過某種關係連結在一起,並且可以互相指向對方的特定資料,甚至用來做成各種不同應用,是在開放資料中最高的層次。這種關係不僅能夠讓這些更容易被搜尋到,也間接提升了這些開放資料的價值,最終形成熱愛使用這些開放資料的社群,並和這些使用者一同維護資料並相互扶持成長。
在翻找針對台灣政府開放資料的評論文章時,發現其實在十幾年前(甚至更久)當 Tim 發布文章時就引起了不少討論。我很開心能夠生在越來越多政府開放資料的時代,並且這些資料都符合三星以上的開放資料規範,甚至能夠看到非常多在不同四星資料中找到關聯並做到不同應用的工具。在接下來的內容,將會列舉有哪些是身為台灣公民應該知道,且應該要被大家重視的非政府主導之開放資料。
https://www.w3.org/DesignIssues/LinkedData.html
https://5stardata.info/
https://blog.muyueh.com/open-data-portal-problem/
http://opendatahandbook.org/