本文將會跟各位探討彙整資料一些需要注意的部分,上一次在彙整資料中跟各位提到利用python 模組中的 pandas 將抓取下來的資料表格化,並且為了要讓別人看得懂資料,所以將表格資料轉換成圖表形式,也可以藉由 pandas 完成,但是彙整資料中我們會發現甚麼問題呢?
第一 抓取下來的資料是否是自己需要的,也就是說資料的正確性,這種狀況通常會遇到應該是在攝取資料時,所使用的網址發生錯誤,所以必須要利用當初說明的利用 Ctrl + F 來完成找尋自己的資料,並且將資料重新抓取下來換成表格再確認。
第二 有些資料中都會有屬性上的問題,在python上比較常看見這種查看屬性方式的為 dtype,在 pandas 的屬性項目也是有類似的功能,在 pandas.DataFrame()中也可以改變 dtype 的數值,假設今天這個屬性跟你所要的屬性不同可能會沒辦法讓你抓到參數,因為大多數表格參數都會要求一致,盡量是將所有來源的資料屬性統一化,以免造成後續在分析資料上的時候會造成無法判讀的問題。
第三 資料的複雜眾多,有時候我們會很開心的拿到攝取的資料,可是這個時候往往會有一個狀況,無法知道說我們下來的資料所有類型以及資料的分類,所以會在此建議如果要將資料表格化,順便將資料的表格行與列定義好,不然當表格建立完成時,可能會造成誤判的現象。
那以上則是針對這次彙整資料簡單的探討,下一篇會針對彙整資料做一個程式說明,讓各位看一看。
在這謝謝大家,以上為不專業的AI介紹,那我們下篇見~~~~
預告:下一篇將介紹一篇將股票抓取下來 並且呈現圖表的程式。