自從開始學程式後,雖然有做過兩個個人小專案,但希望能加強自己在實際的商業應用場景上,提供「洞見」的能力,為了讓自己能夠練習商業分析的過程,就來試著連續三十天寫寫看文章!
資料來源會選用Kaggle上適合的開放資料來練習,並搭配Python及SQL的應用,最後用視覺化來呈現~ ^_^
自從決定以分析師為職業志向後,都有在關注資料科學相關的座談、文章、書籍等很佩服資料科學工作者總能很有條理地分享他們在職涯道路上的歷程或是工作上的事。也總是在聽完...
在開始分析的旅程前,想要先針對整個流程中最重要的「故事」與「敘事」方法來做統整。最近在閱讀「資料故事時代」這本書,讓我發現自己過去在工作或專題的數據解讀上太過淺...
這次想練習可觀察時間趨勢的數據資料,在Kaggle上鎖定幾個開放資料集,取捨後決定使用:Case Study Bike-Share Company's 12 m...
今天來將資料載入Python中,並進行一些簡單的運算。發現資料共有426887筆數據,因此花了一點時間來跑。 首先使用import匯入所需套件,並載入csv檔案...
關於昨天【#】的未解之題,首先來驗證看看有幾筆資料是需要被清理的。接著再用DataFrame找出他的index來進行刪除。 L1=[] for i in dat...
昨天的程式跑了快一個小時,發現一直都沒結束,才赫然發現原來寫錯了,變成無限循環(好天兵xd)。既然發現了問題,當然是寫出來才能睡覺囉! 被資工系的家人訓了一頓,...
Q1.由昨天的結果可看出租借時間大多在一小時內。進一步了解租借起站最多的是哪幾站? 使用groupby()搭配count()來計算筆數。 a=df1[mask...
計算不重複使用者數量 一開始有計算過不重複使用者,但那是包含#欄位的資料,因此再來一次XD。 df1[mask_5]['ride_id'] 1354...
Day Of Week(DoW) 今天要來解決與星期有關的問題,首先來看三個月以來哪一天租借的次數是最多的。 df1[mask_5]['day_of_the_w...
今天繼續來解決昨天時間的問題,把時間變成字串後放在新增的欄位中,原本想說應該可以只取時間而不管日期,直接使用時間的大小來分組。但發現事情不是憨人想得這麼簡單,這...