iT邦幫忙

2022 iThome 鐵人賽

DAY 29
0
自我挑戰組

商業數據分析應用系列 第 29

[Day 29] 分析遇到問題與檢討

  • 分享至 

  • xImage
  •  

今天是倒數第二天了,如果沒有發現這份數據的原始來源,可能就已經結束得差不多了
有餘力時,我還是會來看看整年度甚至跨年度可以有什麼樣新的發現/images/emoticon/emoticon13.gif
今日任務就是會回顧本次小小分析過程中遇到的問題、進行整理,還有沒有善盡的地方,心得就留到明天說吧XD。

分析過程遇到的各種問題集
專案檢討


遇到的問題

(一)日期欄位(D4D7D10)

這次我遇到最多問題的部分應該就是有日期或時間的欄位了吧!/images/emoticon/emoticon28.gif
因為csv檔案是純文字檔,所以在Python中讀取時,都需要依需求去調整欄位屬性以利計算。
1.將字串欄位轉成datetime64[ns],卻發現程式會誤判,將部分月份和日期顛倒。
→ 可在函式中加入format,寫原本欄位的排序方式,以本次專案為例就是 "format="%d-%m-%Y %H:%M""

2.欲拆分時間欄位,想先轉為字串,再新增一欄。使用dt.to.String,結果報錯(AttributeError: 'Timestamp' object has no attribute 'dt')
Stackoverflow解法,可刪除dt嘗試看看。(我後來是直接在資料庫中調整和篩選成功的)

(二)直接拿正式資料來跑程式碼(D6)

這應該也算是檢討(哈)。可能因為以前用的數據兩頂多上萬筆,跑得久一點大概至多一小時就結束了,但這次的資料量蠻大的十倍之多,要測試自己的Code有沒有寫錯,應該先使用測試資料來跑跑看,不然可能會白白浪費時間。

(三)迴圈在大量資料中的運用(D7)

迴圈雖然是蠻常用到的功能,但老實說蠻花時間的(如果遇到需要很多條件判斷時更久XD)
希望以後能寫出更精簡的程式碼囉/images/emoticon/emoticon02.gif

(四)資料庫無法儲存(D12)

想把已清理過的資料存進資料庫,結果報錯(DatabaseError: Execution failed on sql)
→搭配sqlalchemy引擎,用來初始化連線

(五)視覺化表達不清楚(D15)

做視覺化的圖時,一開始沒有考慮到觀者的感受(第一次看到圖、要能馬上理解在幹嘛)
→慢慢地修正內容,加上標籤或是顏色單一化,不然太花了會分散注意力。


專案檢討

這次的小小專案,在每一個步驟,我都有先在腦中思考過
不像以前會比較直接地一頭埋進去整理,但沒想過需要或不需要哪些欄位。
但在比較中後期時,我覺得自己比較疏於規劃接下來的流程/設定每一天要達成的任務
導致文章寫起來感覺亂哄哄的XD
也因為都是很趕的狀態下,品質就比較沒那麼好

另外就是承接上面很趕的狀態,對於「為什麼」的追求程度沒有到很執著
我覺得這一部分也是我了解到,依自己目前的程度(超級菜)
一旦開始鑽研某個不知道的名詞,我就會鑽牛角尖的不斷挖下去
(然後就會...陷入焦慮XDD 覺得自己懂得超少)
所以理解到一個程度我會選擇讓自己先停下來

也很可惜沒有早一點發現其他月份的資料
沒辦法觀察到一個時間序列的變化、挖掘更多insight
但也可能給了我一些理由繼續去專研它吧/images/emoticon/emoticon01.gif

明天就要完賽了~好期待/images/emoticon/emoticon07.gif


上一篇
[Day 28] Google Data Studio其他功能探索
下一篇
[Day 30] 完賽心得
系列文
商業數據分析應用30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言