這本書主要是在 Python 中操作、處理、清理和處理資料的各種細節,雖然本書的名字裡有「資料分析」,但本書的重點仍然是 Python 程式設計、程式庫以及工具,而不是資料分析方法論,它介紹的是用來分析資料的 Python 程式,不過我還是會以 pandas 為主進行介紹。
所謂的資料指的是結構化資料,結構化資料是一種統稱,它包含許多不同的形式。
例如:
以上僅列出部分的資料種類,多資料組乍看之下不屬於結構化資料,但都可以轉成適合用來分析和建立模型的結構,如果資料組無法轉換,我們也可以從中提取特徵,並轉換成結構化的形式。
舉例來說,可以將一堆新聞報導處理成一個單字頻率表格,然後用它來進行情緒分析。
Microsoft Excel 應該是世界上最普及的資料分析工具,Microsoft Excel 等試算表程式的使用者應該很熟悉上述的資料型式。
今日的分享就到這囉,我們明天見,掰掰!