現在很多公司都有在找有SPARK經驗的開發人員
大多要求要有實際應用在大型cluster經驗(幾百台VM、資料量TB級等等)
這點讓我有點困惑
如果是想要作SPARK應用開發的新人,工作環境沒有在用SPARK,只能自己學。
除了看書和找範例練習,新人應該很少有機會可以有大型cluster的環境去學習
(頂多自己架個4台VM玩玩...)
尤其像是實務上會遇到的效能、HA、Monitor等這些問題,除非是Production環境,不然也很少會有機會遇到。
想請教大家,都是怎麼去培養實務經驗的呢?
小弟已離開此領域多年,怕誤人子弟故刪除解說,但高手的心法還是很有價值值得一看。
高人的方法
http://www.cnblogs.com/lovecindywang/archive/2011/03/02/1969324.html
我覺得應該可以從相關的工作做起,不過要公司有SPARK職位的才行,這樣可以邊做你選擇的相關工作邊請教SPARK的技術人員,學了更多說不定就可以先調部門看看,這樣就能累積經驗了。
也可以搭配類似這些課程,除了上班時間以外下班時間也可以聽聽相關人員的課程。
Spark巨量資料分析實務班
http://www.ithome.com.tw/pr/101382
我是不懂SPARK
不過大型cluster經驗(幾百台VM、資料量TB級等等)
這一聽就知道台灣的公司很多都沒那麼大 扣除掉中小企業
只剩大型企業已經建置出這種架構
這樣會讓我覺得很多公司都在亂開 聽到大數據 物聯網 機器人等等應用的議題
就希望能有人才能幫助公司發展
管市場上有沒有人 管他的 先搶人再說
大型cluster的環境不是每個人都有機會接觸到
除非你原本就待過大公司 看的多做的多
不然這都是機緣 要切入大公司學歷要好語文能力也要強
不一定每個人都可以進去 就像我們不會知道google內部玩到什麼程度了
實務經驗也要先有公司收你才有機會切入
不然一般人也是都只有上過課而已
網路上很多SPARK課程上了就只是了解概念 打了這項基礎之後
再以自己的其他能力切入大公司學習
所以你可以在公司要的其他能力上專精 打出些名氣
用其他能力證明自己
才能找到更好的環境進去玩spark
至於現在的公司怎麽開條件 也不用想太多啦
因為這種職缺也不會那麼快消失 會一直掛在那
不為什麼 因為他們找不到人開著好玩而已
說的很好啊,我們主管也在問這個,但是一聽到要跑這個環境的預算,就傻眼了
其實不光是儲存設備,就連網路環境也要提升到 10G 甚至 40G 的程度才行
就看看每個端點 是 TB 的流量再跑,再去思考網路不弄到那個程度要怎麼跑的動
在去想想,要搞大數據的基本硬體架構要多少錢,搶人,是啊,人有了,硬體環境不行
還不是掛在那而已,真的最後能夠跑什麼也是很有限的
台灣IT外行領導內行很常見,很多主管不學也懶的理解,問題都是下面的人在解,上頭只想找很懂的人進來,想管人的問題就好!!
面試過一間約20人的公司,主管就問業界最新的趨勢
我就回答大數據跟物聯網,然後他又接著問你覺得這些技術可以為這小公司帶來的應用有哪些?
我心裡一想你們也玩不起吧 這主管也沒有很懂
我也只不過在網路上有喵到而已 其實我也沒去上課深入了解
主管沒想懂的 公司就只能停滯不前
大家聽到一個新的名詞就覺得很炫就好了 然後舞照跳 飯照吃
用傳統儲存與運算分離架構與對單點可靠性要求極其苛刻的條件應該是不能玩大數據的,大數據核心就是local storage與local computing 用機器海克服單點容易故障不穩定問題。但這樣不只開發要出力機房管理人員也要重新訓練。我聽過某客戶直接拿一般消費者等級PC串起來玩大數據,因為是跑local儲存與運算,真正的網路流量常只剩下運算參數而非Data本身所以對網路設備要求不高fiber網卡也可RJ45網卡也可。
現在AWS/GCP都有開放不同於傳統架構,專屬給Hadoop/Saprk的專用設備。官網報價都是看看而已,公司真要採購的話價格是不一樣的,厲害一點當白菜賣是有可能的。