昨天上半場的部分,我整理完筆記會再補完,下半場跟去年一樣,
分為開發者、營運者與應用案例。
圖片來源:http://www.hadoopintaiwan.com/
我的議程選擇為:
A.Approaching real-time: things you can do before going Impala
C.Apache Mahout 於電子商務的應用
B.Real-time Big Data Analytics Engine using Impala
A.Real-time Big Data Processing with Storm: Using Twitter Streaming as Example
主要是挑選之前自己有玩過或是有感興趣的主題,所以不一定都是聽同類型的場次。
Approaching real-time: things you can do before going Impala / 即時運算: 採用 Impala 之前你能做的事
這一場由(Chris Huang / 趨勢科技)所分享的內容其實沒有講到Impala,並且也提到Impala並不是一個銀彈,能解決所有Realtime會遇到的問題,我覺得講得非常好,因為我自己也有再用Impala,有些問題可以用Impala來解決,但是Realtime會遇到的問題其實不僅僅如此。
講者提到其實大部分的Realtime解決方案,HBase可以解決20%、SolrCloud(60%)最後可靠Streaming解決20%的問題。
還要把計算的data分為batch與delta,其實在短時間內的查詢,其實針對Delta Data做特別的處理就好,不一定都要跑MapReduce。
也提到solr針對delta data 可以做動態的indexing,Streaming則可以使用storm-YARN。
Apache Mahout 於電子商務的應用
講者已經有把投影片釋出了,所以可以Google看看摟~
不過ETU真的是不藏私,整個從使用者行為的擷取,把Log存到HDFS,再透過Mahout Job根據使用者和商品算出所有喜好度,從HDFS取出後計算存回Hbase,如果要做推薦排序,會再啟動一個MR Job讀取Hbase的資料,將排序結果寫回去。
最後透過AP的API讀取Hbase資料,及時回傳推薦結果。
ETU還有提供他們運算的Table...真的是太揪心了..
接著提到這個推薦的Cluster如何跟現有系統做一個結合,還有做轉化率分析。
Real-time Big Data Analytics Engine using Impala
<待補>
Real-time Big Data Processing with Storm: Using Twitter Streaming as Example
<待補>
我先來去幫閃光慶生...晚點會補上XD
完全沒注意到這類的課程,
很有值回票價的感覺。
辦第二屈了,
這個議題很有意思。
議程:無人空中載具(UAV)影像於雲端儲存與處理之實作及後續應用
議程摘要:
近年來災害頻傳,掌握即時影像是最緊迫的,本議題將搭配自行研發的無人空中載具(UAV),於災害發生時進行土石流監測、河川監測等影像辨識任務,另外配合地面站的控制台更可了解即時的飛行情況,但所搭載的相機解析度相當高,所需儲存空間較高,眾多影像資料需要透過雲端技術儲存與處理。本演講將分享遙測影像及時分群辨識的雲端技術,可在Hadoop平台上利用MapReduce實作改良式 K-means 演算法;現地資料收集人員,可透過平板電腦將 UAV 所拍攝的影像,直接呼叫遠端雲端平台並執行 K-means 演算法,進行影像辨識,不用等待事後的分析,大幅提升影像辨識的計算效率。
希望不久後可以看到實況錄影!
好像講者都陸續把投影片釋出了,可以加入Hadoop in Taiwan 搜尋看看