動物園之路 -13- 大象在台灣的大拜拜-上半場(又來亂入)

鐵人賽 hadoop

fantasylight 2013-09-28 22:33:44 ‧ 2393 瀏覽

分享至

總之，原本打算要寫的動物園之路，這條路線好像跟當初規劃的不太一樣，哈。
因為今天有去Hadoop in Taiwan 2013，所以就來分享一下這次去參加的心得。

已經打算把鐵人賽當作部落格在寫了
今年的開場是國網中心的王耀聰先生，他對Hadoop在台灣的社群推動可是不留餘力，剛才他在Hadoop in Taiwan的FB社群有放開場投影片，應該是可以分享一下連結(如果有疑慮我在趕快移除)
http://www.slideshare.net/jazzwang/13-0928-hadoopintaiwan2013opening

這次開放的報名人數好像有比較多一點，但是感覺熱度降了不少，我想應該是走入實際應用，發現與期待上的有點落差。但是今年的講題都還算蠻實際，實務上有可能會遭遇與面對的問題。

上半場基本上只有單軌議程，
第一個是Andrew Purtell 所分享的
Architectural patterns for building real time applications with Apache HBase
剛開場就提到關於hadoop無法完全做到Realtime的query，所以要借助HBase的功能來進行RealTime的查詢或分析，接下來他就陸續介紹關於HBase的應用架構，還有Streaming相關的應用。大致上都是把Batch與Streaming的資料存在HBase，然後結合Storm、Samza與Solr來做Realtime的應用。

接著由趨勢Jason Yueh所分享的
Big Data Security
重點就是要Enable Hadoop的kerberos，還有盡量不要放機敏資料在Hadoop上面，
如果要加密的話，要針對Data與網路傳輸進行加密，其中也從OS層的加密到應用層的監控都有講大概的解決方案，Big Data的保護方式其實跟以前的保護差不多，差異就在Big而已XD

The Spark Stack: Lightning-Fast Analytics over Hadoop Data
如果要用Hadoop做MLDM(機器學習與資料探勘)與RTAP(及時應用)，Spark是一個很好的選擇，
簡單來說就是之前在Hadoop裡面做過運算的東西，Spark會keep在記憶體中，下次就不用在進行讀取磁碟，做一些迭代的運算時，就可以增加速度。
這個原理是使用RDDS，有點像是我算過的物件，把它存放在記憶體中，下次再進行運算就不用讀取硬碟，但是也可以藉由撰寫Spark的語法(scala)，預先載入要運算的東西，這樣可以避免第一次比較慢的問題。
講者也有提到過去我們可能會使用MatLab進行ML/DM的運算，但是沒辦法做到ad-hoc的方式，如果使用Mahout其實又太複雜，這時候就可以使用Spark的子專案MLBase，運算的速度較快，寫起來也較容易。

Spark和Shark感覺明年會很多相關的應用出來...

基於 R 加Hadoop的高性能預測分析
基本上R是單機的，如果要能佈道Hadoop的節點上，要進行運算，
我記得是要錢了....所以沒有很大的興趣...
這個產品叫Revolution R。另一個免錢的是叫RMR，不過只能在MapRdeuce v1 執行。

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

動物園之路 -13- 大象在台灣的大拜拜-上半場(又來亂入)

尚未有邦友留言

標記使用者