昨天有提到,有些耗時的事情我們並不希望每次資料分析時都在重新做一遍,那鐵人賽到今天有,有想到我們之前做的什麼事情需要耗費大量時間嗎?沒錯,在跟Google 要取...
大家可能看了標題會有些不懂,這邊我所指的分段處理意思是,有時候你的原始資料並不是很完善,要先做流程A 產生一定的結果,再去作流程B 去分析流程,或者是流程A 是...
在講各個可操控元件之前,先來講講shiny的佈局方式,不知道有多少讀者寫過前端網頁,前端不是我的main,但之前有稍微玩過bootstrap 的grid lay...
昨天跑了shiny 的程式碼時,有提到他分成ui 和server 兩大塊,今天我們就來實作這兩個檔案,首先,你必須在資料夾內新增兩個R script 檔。 u...
我自己是工程師,所以當公司有不同需求時,大部分的時候我都能靠程式實作去完成任務,但是有些時候資料更新是連續的,每次業務或行銷團隊有需要時,如果每次都找你幫忙解析...
昨天我們只有把結果分出來,今天我們就來比較這樣的方法有哪些差異吧。 首先是多次k-means 的結果如下: 可以看到分成了24組,為了對照方便,單一次k-me...
這個問題的答案並沒有一定的方法,我這邊示範的是我自己的想法,如果讀者有其他idea 也歡迎分享。 首先我們知道當k 值過大時,會有分類過細的問題,k 值過小會有...
圖片來源: https://pixabay.com/en/books-spine-colors-pastel-1099067/ 和 https://pixaba...
圖片來源: https://pixabay.com/en/books-spine-colors-pastel-1099067/ 和 https://pixaba...
分群這個概念除了出現在資料分析以外,在機器學習領域也有相當多應用,簡單地解釋就是把一個未知的資料根據它的特性分成一個個的群組,這邊我想介紹的是K-means ,...
沒錯,在多數情況下,我們手上的資料都是中文地址,如果要轉變成經緯度目標需要透過一些第三方服務,這邊我們用google 提供的Geocoding API 服務來使...
這次要介紹的是分析地址,在R 的套件當中,有個非常有名的套件叫做ggmap ,後面幾天我會一一講解之前我用了哪些功能,首先一樣,你必須要先安裝相關套件。 #in...
今天的內容算是前幾天的複習,如果大家熟悉前幾天介紹的dplyr ,那麼這次老闆交代的任務其實非常簡單,首先,我們使用list.files 把所有下載下來的資料集...
在下載資料的接口中,其實他們有提供參數可以客製化下載的需求,日期也是其中一個參數,不過我已經找不到之前參數的說明頁面了...囧,所以我就只介紹我已知道的參數,F...
沒錯,前一天的教學還只是清理資料而已,真正的分析還沒開始,我們這邊會用到Apriori 演算法,那這邊有幾個名詞要先介紹 Support (支持度) : 意思是...
還記得前一天的練習嗎?要找出這樣狀況的使用者使用filter()並不難,但是在orders.csv 中,我們並沒有儲存使用者的聯絡方式,必須要拿BUYERID...
在資料分析時,很多時候我們都會想去除一些不感興趣的資料,這時我們可以用到filter() 這個函數,用起來也非常簡單,只要把判斷式放入即可,我們先將原始資料如先...
這篇教學會延續上一篇,但在開始之前我們先將上一次的資料保存起來,我們可以使用write.csv() 來儲存資料結構,存放在output資料夾。 write.ta...
Well… 資料分析大概就是這樣,每當你回答了一個疑問,就會再產生更多的疑問等著你去分析...目前我們的商品名稱是這個樣子:”品項(品牌)” ,所以我們要把品名...
前一天的示範中,已經為大家介紹如何分析每個月的會員註冊人數,老闆在看完會員人數後,好奇地問了一句,這些會員中會購買商品的轉換率是多少? 所以啦,負責資料分析的你...
前言 嗨,這是我在iThome 的第一篇文章,在開始介紹之前,我先簡短介紹一下這篇系列文的方向,此系列的文章是我在公司做一些數據分析的經驗為主,因此不會有太多介...
我們今天會練習使用神經網絡的套件 TensorFlow 來建立我們的第一個深度學習模型:卷積神經網絡(Convolutional Neural Network,...
我們今天繼續練習 Python 的 scikit-learn 機器學習套件,延續 [第 25 天] 機器學習(5)整體學習,討論倍受歡迎的分類器隨機森林(Ran...
我們今天仍然繼續練習 Python 的 scikit-learn 機器學習套件,還記得在 [第 23 天] 機器學習(3)決策樹與 k-NN 分類器中我們建立了...
我們今天依舊要繼續練習 scikit-learn 機器學習套件,經過三天的監督式學習(迴歸與分類)實作,稍微變換一下心情來練習非監督式學習中相當重要的分群演算法...
我們今天要繼續練習 scikit-learn 機器學習套件,還記得在昨天有提到 Logistic 迴歸雖然冠有迴歸的名稱,但實際上是一個二元分類(Binary...
我們今天要繼續使用 scikit-learn 機器學習套件延續昨天的線性迴歸,練習一個複迴歸以及一個 Logistic 迴歸。如果你還記得 scikit-lea...
我們在 [第 17 天] 資料角力提過,資料角力的目的是為了視覺化或者機器學習模型需求,必須將資料整理成合乎需求的格式。資料視覺化聽來直觀,那麼關於機器學習呢?...
我們前兩天討論的 matplotlib 與 Seaborn 套件基本上已經可以滿足絕大多數的繪圖需求,唯一美中不足的一點是這些圖形都是靜態(Static)的,如...
使用 matplotlib 建立一個圖表的概念是組裝它提供的基礎元件,像是圖表類型、圖例或者標籤等元件。 Seaborn 套件是以 matplotlib 為基礎...