iT邦幫忙

鐵人檔案

2019 iT 邦幫忙鐵人賽
回列表
AI & Data

機器學習_資料採礦_透過數據協助決策_R語言 系列

統計學是挑戰神的學問,愛因斯坦說過上帝不擲骰子。

如要我詮釋愛因斯坦這句話,人開一間店,不會什麼事前功課都不做就憑運氣開,我相信他會努力,不!他"必須"努力的去蒐集資料,把隨機因素降到最低才行。上帝擲骰子嗎?可能吧上帝可能擲,但它擲的非隨機的骰子,擲出去的那瞬間他就已經知道結果了。

在學生時代曾用計程車司機的各種變數進行資料採礦(營運時間、車況、正/兼職、車隊、平常愛聽的電台、空繞機率等等)找出計程車司機最能賺錢的方法。當年是用"weka(懷卡托智能分析系統)"這個軟體完成預測的。
本篇文章主旨在使用R語言進行預測、採礦,訓練資料做大數據的分析,告訴我最有利的決策因素!

鐵人鍊成 | 共 30 篇文章 | 25 人訂閱 訂閱系列文 RSS系列文
DAY 1

[Day 1] 前言 - 大數據的事前預測

有了數據,我要怎樣把Data(無意義的資料)變成Information(有意義的資訊)呢?我想這就是統計學了吧! AI聽起來很沒方向,舉個例子來說,訓練電腦分辨...

2018-10-13 ‧ 由 yanchen 分享
DAY 2

[Day 2] 政府開放資料_計程車營運狀況調查(資處篇-1)

具備怎樣特質的計程車司機是最賺錢的呢?根據政府提供的計程車營運狀況調查,觀察變數,我試著找到對於收入最有利的變數,變數欄位相當廣,從計費方式、有無加入車隊、平常...

2018-10-14 ‧ 由 yanchen 分享
DAY 3

[Day 3] 政府開放資料_計程車營運狀況調查(資處篇-2)

具備怎樣特質的計程車司機是最賺錢的呢?(開頭都這句哈哈)今天繼續努力做資料處理,昨天我本來想用迴圈處理所有變數,看樣子我太天真了,想要整理好數據,看樣子還是得把...

2018-10-15 ‧ 由 yanchen 分享
DAY 4

[Day 4] 政府開放資料_計程車營運狀況調查(番外-1)(R視覺化資料)

用盒狀圖視覺化數值型態的資料,其實也不是說我今天沒做資料處理,應該說在資處的時候發現有滿多還算有意思的數據,例如下面這個"計程車車輛總價",...

2018-10-16 ‧ 由 yanchen 分享
DAY 5

[Day 5] 政府開放資料_計程車營運狀況調查(資處篇-3)

資處算是完成了吧,現階段想用大概這些變數(列在後面當備註),其中一些是經過運算的,像是保險分成是否有投:強制汽車責任險、任意汽車第三人責任險、乘客責任險、車體損...

2018-10-17 ‧ 由 yanchen 分享
DAY 6

[Day 6] 政府開放資料_計程車營運狀況調查_決策樹篇

決策樹的概念,我想版上很多文章都寫的都比我還清楚,我做的事情就是拿一筆我也不知道會發生什麼事的資料,丟進去,不多說先上第一次結果的結果。 library(rpa...

2018-10-18 ‧ 由 yanchen 分享
DAY 7

[Day 7] 政府開放資料_計程車營運狀況調查_決策樹篇-2

調整變數,賦予決策樹更有正確的價值。今天的幾個重點:1.增加、刪減之前選取的變數。2.把不應該是因子(factor)變數的,改成數型(numeric)型態。3....

2018-10-19 ‧ 由 yanchen 分享
DAY 8

[Day 8] 政府開放資料_計程車營運狀況調查_簡單回歸

統計學最基本的三大估計方法:動差估計、最大概似估計、最小平方法。 回歸分析就是最小平方法最廣為人知的應用了。(不是說決策樹篇結束了,我把書都放在公司忘記帶回家了...

2018-10-20 ‧ 由 yanchen 分享
DAY 9

[Day 9] 政府開放資料_計程車營運狀況調查_回歸診斷

"回歸診斷",其實這是個我很有興趣的命題,但很無奈學校沒教,我也不知道要去哪裡才能學到這些知識,診斷是第一步,重要的是第二步,準診斷之後如何...

2018-10-21 ‧ 由 yanchen 分享
DAY 10

[Day 10] 回歸分析的診斷以及驗證-2

資料+統計+演算法,我們稱為機器學習,如何不斷修正統計模型,達到更好的預測,便是數據分析師的工作。我們確保的一件事情,數據越多,我們就能做出更好的預測。因此模型...

2018-10-22 ‧ 由 yanchen 分享