iT邦幫忙

r相關文章
共有 231 則文章
鐵人賽 Data Technology DAY 25

技術 【25】當老闆扎了兩下眼問:那我們手邊資料有什麼情境適合這樣分段處理的嗎?

昨天有提到,有些耗時的事情我們並不希望每次資料分析時都在重新做一遍,那鐵人賽到今天有,有想到我們之前做的什麼事情需要耗費大量時間嗎?沒錯,在跟Google 要取...

鐵人賽 Data Technology DAY 24

技術 【24】當老闆想了想問:可是有時候資料是分段處理的,這時候該怎麼使用shiny 處理呢?

大家可能看了標題會有些不懂,這邊我所指的分段處理意思是,有時候你的原始資料並不是很完善,要先做流程A 產生一定的結果,再去作流程B 去分析流程,或者是流程A 是...

鐵人賽 Data Technology DAY 22

技術 【22】當老闆疑惑地問:所以我可以在這個網頁調整參數,那有哪些參數可以調?

在講各個可操控元件之前,先來講講shiny的佈局方式,不知道有多少讀者寫過前端網頁,前端不是我的main,但之前有稍微玩過bootstrap 的grid lay...

鐵人賽 Data Technology DAY 21

技術 【21】當老闆眼睛blink blink地問:哦?這看起來很方便,那我們公司的資料怎麼在shiny 上呈現?

昨天跑了shiny 的程式碼時,有提到他分成ui 和server 兩大塊,今天我們就來實作這兩個檔案,首先,你必須在資料夾內新增兩個R script 檔。 u...

鐵人賽 Data Technology DAY 20

技術 【20】當老闆嘟著嘴問:前面幾天你展示了很多資料分析手法,但是公司很多人不會寫程試,你有辦法嗎?

我自己是工程師,所以當公司有不同需求時,大部分的時候我都能靠程式實作去完成任務,但是有些時候資料更新是連續的,每次業務或行銷團隊有需要時,如果每次都找你幫忙解析...

鐵人賽 Data Technology DAY 19

技術 【19】當老闆突然(再)^4問:用了多次k-means 後真的有比較好嗎?說說看啊!

昨天我們只有把結果分出來,今天我們就來比較這樣的方法有哪些差異吧。 首先是多次k-means 的結果如下: 可以看到分成了24組,為了對照方便,單一次k-me...

鐵人賽 Data Technology DAY 18

技術 【18】當老闆突然再再再問:蛤..k值好麻煩喔,那你有什麼辦法可以解決地址分類太細或太廣的問題?

這個問題的答案並沒有一定的方法,我這邊示範的是我自己的想法,如果讀者有其他idea 也歡迎分享。 首先我們知道當k 值過大時,會有分類過細的問題,k 值過小會有...

鐵人賽 Data Technology DAY 16

技術 【16】當老闆突然再問:很好,現在地址很明瞭了,但是我想把在附近的地址當成一組做分群,這有辦法嗎?

分群這個概念除了出現在資料分析以外,在機器學習領域也有相當多應用,簡單地解釋就是把一個未知的資料根據它的特性分成一個個的群組,這邊我想介紹的是K-means ,...

鐵人賽 Data Technology DAY 15

技術 【15】當老闆突然又問:你畫的地點都是用經緯度座標畫的,可是我們會員資料庫存的是地址啊,你可以用地址在地圖上畫點嗎?

沒錯,在多數情況下,我們手上的資料都是中文地址,如果要轉變成經緯度目標需要透過一些第三方服務,這邊我們用google 提供的Geocoding API 服務來使...

鐵人賽 Data Technology DAY 14

技術 【14】當老闆突然問:對了,有沒有什麼辦法可以分析地址啊?可以顯示在地圖上的那種。

這次要介紹的是分析地址,在R 的套件當中,有個非常有名的套件叫做ggmap ,後面幾天我會一一講解之前我用了哪些功能,首先一樣,你必須要先安裝相關套件。 #in...

鐵人賽 Data Technology DAY 13

技術 【13】當老闆很想瞭解:既然現在有了這些農產品行情資料,那你可以幫我找今年一月中,平均上價高於200且交易量前幾名的作物是哪些嗎?

今天的內容算是前幾天的複習,如果大家熟悉前幾天介紹的dplyr ,那麼這次老闆交代的任務其實非常簡單,首先,我們使用list.files 把所有下載下來的資料集...

鐵人賽 Data Technology DAY 12

技術 【12】當老闆想更瞭解:除了抓當天的農產品行情價以外,有沒有辦法抓更早之前的價格啊?

在下載資料的接口中,其實他們有提供參數可以客製化下載的需求,日期也是其中一個參數,不過我已經找不到之前參數的說明頁面了...囧,所以我就只介紹我已知道的參數,F...

鐵人賽 Data Technology DAY 10

技術 【10】當老闆問說:嗯...你只不過是改變資料結構而已,說好的分析呢?

沒錯,前一天的教學還只是清理資料而已,真正的分析還沒開始,我們這邊會用到Apriori 演算法,那這邊有幾個名詞要先介紹 Support (支持度) : 意思是...

鐵人賽 Data Technology DAY 8

技術 【08】當老闆想知道:啊,來個回饋活動好了,你幫我拉出今年五月購買生活家電且消費滿450以上的消費者聯絡資訊給我

還記得前一天的練習嗎?要找出這樣狀況的使用者使用filter()並不難,但是在orders.csv 中,我們並沒有儲存使用者的聯絡方式,必須要拿BUYERID...

鐵人賽 Data Technology DAY 7

技術 【07】當老闆發問:OK,現在加幾個條件,請問公司營收最高的三個月中,而且用信用卡付款中的訂單,賣最好的是哪些種類的商品呢?

在資料分析時,很多時候我們都會想去除一些不感興趣的資料,這時我們可以用到filter() 這個函數,用起來也非常簡單,只要把判斷式放入即可,我們先將原始資料如先...

鐵人賽 Data Technology DAY 6

技術 【06】當老闆問說:嗯...營收最好的是掌上型電玩啊,那第二、第三名呢?能畫個圖嗎?

這篇教學會延續上一篇,但在開始之前我們先將上一次的資料保存起來,我們可以使用write.csv() 來儲存資料結構,存放在output資料夾。 write.ta...

鐵人賽 Data Technology DAY 5

技術 【05】當老闆說了:喔喔喔!那這些月營收之中,又是哪些東西賣的最好啊?

Well… 資料分析大概就是這樣,每當你回答了一個疑問,就會再產生更多的疑問等著你去分析...目前我們的商品名稱是這個樣子:”品項(品牌)” ,所以我們要把品名...

鐵人賽 Data Technology DAY 3

技術 【03】當老闆再問:嗯...話說我們已註冊的會員中有多少人有消費過的?

前一天的示範中,已經為大家介紹如何分析每個月的會員註冊人數,老闆在看完會員人數後,好奇地問了一句,這些會員中會購買商品的轉換率是多少? 所以啦,負責資料分析的你...

鐵人賽 Data Technology DAY 1

技術 【01】前言、先備技能需求以及環境介紹

前言 嗨,這是我在iThome 的第一篇文章,在開始介紹之前,我先簡短介紹一下這篇系列文的方向,此系列的文章是我在公司做一些數據分析的經驗為主,因此不會有太多介...

鐵人賽 Big Data DAY 30

技術 [第 30 天] 深度學習(4)卷積神經網絡與鐵人賽總結

我們今天會練習使用神經網絡的套件 TensorFlow 來建立我們的第一個深度學習模型:卷積神經網絡(Convolutional Neural Network,...

鐵人賽 Big Data DAY 26

技術 [第 26 天] 機器學習(6)隨機森林與支持向量機

我們今天繼續練習 Python 的 scikit-learn 機器學習套件,延續 [第 25 天] 機器學習(5)整體學習,討論倍受歡迎的分類器隨機森林(Ran...

鐵人賽 Big Data DAY 25

技術 [第 25 天] 機器學習(5)整體學習

我們今天仍然繼續練習 Python 的 scikit-learn 機器學習套件,還記得在 [第 23 天] 機器學習(3)決策樹與 k-NN 分類器中我們建立了...

鐵人賽 Big Data DAY 24

達標好文 技術 [第 24 天] 機器學習(4)分群演算法

我們今天依舊要繼續練習 scikit-learn 機器學習套件,經過三天的監督式學習(迴歸與分類)實作,稍微變換一下心情來練習非監督式學習中相當重要的分群演算法...

鐵人賽 Big Data DAY 23

技術 [第 23 天] 機器學習(3)決策樹與 k-NN 分類器

我們今天要繼續練習 scikit-learn 機器學習套件,還記得在昨天有提到 Logistic 迴歸雖然冠有迴歸的名稱,但實際上是一個二元分類(Binary...

鐵人賽 Big Data DAY 22

技術 [第 22 天] 機器學習(2)複迴歸與 Logistic 迴歸

我們今天要繼續使用 scikit-learn 機器學習套件延續昨天的線性迴歸,練習一個複迴歸以及一個 Logistic 迴歸。如果你還記得 scikit-lea...

鐵人賽 Big Data DAY 21

達標好文 技術 [第 21 天] 機器學習 玩具資料與線性迴歸

我們在 [第 17 天] 資料角力提過,資料角力的目的是為了視覺化或者機器學習模型需求,必須將資料整理成合乎需求的格式。資料視覺化聽來直觀,那麼關於機器學習呢?...

鐵人賽 Big Data DAY 20

技術 [第 20 天] 資料視覺化(3)Bokeh

我們前兩天討論的 matplotlib 與 Seaborn 套件基本上已經可以滿足絕大多數的繪圖需求,唯一美中不足的一點是這些圖形都是靜態(Static)的,如...

鐵人賽 Big Data DAY 19

技術 [第 19 天] 資料視覺化(2)Seaborn

使用 matplotlib 建立一個圖表的概念是組裝它提供的基礎元件,像是圖表類型、圖例或者標籤等元件。 Seaborn 套件是以 matplotlib 為基礎...