我覺得 R 只是拿來選模型用的,資料量一大, R 就爆炸了。 雖然 R 有些 parallelization 的技巧,用起來還是不如有內建平行處理的框架來的方便...
我覺得計組是重要的,對於資料工程師來說,知識層級至少要能在遇到效能瓶頸時知道是卡在什麼地方。但是要從這個層級來偷效能,應該是系統工程師的工作範疇。
直接介紹MLlib啦,反正mahout也快死了XD