這本書主要是在 Python 中操作、處理、清理和處理資料的各種細節,雖然本書的名字裡有「資料分析」,但本書的重點仍然是 Python 程式設計、程式庫以及工具,而不是資料分析方法論,它介紹的是用來分析資料的 Python 程式,不過我還是會以 pandas 為主進行介紹。
所謂的資料指的是結構化資料,結構化資料是一種統稱,它包含許多不同的形式。
例如:
以上僅列出部分的資料種類,多資料組乍看之下不屬於結構化資料,但都可以轉成適合用來分析和建立模型的結構,如果資料組無法轉換,我們也可以從中提取特徵,並轉換成結構化的形式。
舉例來說,可以將一堆新聞報導處理成一個單字頻率表格,然後用它來進行情緒分析。
Microsoft Excel 應該是世界上最普及的資料分析工具,Microsoft Excel 等試算表程式的使用者應該很熟悉上述的資料型式。
今日的分享就到這囉,我們明天見,掰掰!
哈囉版主,很開心能讀到這篇精彩的分享!
您清楚地闡述了這本書的重點在於 Python 程式設計與相關工具,而非單純的資料分析方法論,讓讀者對內容方向一目瞭然。特別是關於「結構化資料」的定義與多種形式的舉例,讓概念更加清晰易懂。
很高興看到您也提到了即便是不屬於結構化資料的類型,也能透過特徵提取轉換成適合分析的形式,像是將新聞報導處理成單字頻率表進行情緒分析,這點非常有啟發性,也是資料處理實務上非常重要的一環。期待您後續更多以 pandas 為主的分享!
再次感謝您的用心分享!
也歡迎版主有空參考我的系列文「南桃AI重生記」:
https://ithelp.ithome.com.tw/users/20046160/ironman/8311