這幾天把單機版的Hadoop環境給架起來了,想試看看實作一個題目,題目是這樣的:
有一個資料庫,裡面有兩個欄位,分別是index 和 name
然後先假設輸入10000筆資料進去,然後我想要找出name內容有abc的index
以SQL語法是寫 select name from tablexx where name="abc"
但我想利用Hadoop的力量幫我分割好幾台運算,那我該怎麼實作呢?我還需要懂什麼呢?
pig Mahout hive hivesql ??
讓hadoop幫我分成10台運算,每台只要運算1000筆的資料,這樣是不是會比較快。
因為網路上找到這種簡易實作的資訊不多,所以才想說上來這邊問一下大家。
可以在 hive 下直接用 SQL 來找你需要的資料. 我測試時是直接 deploy Cloudra 的安裝包. 安裝完後就可以直接使用 beeswax 下的 hive 來搜尋資料. (beeswax 內帶 data/table import 工具, 不須 sqoop)
我推薦可以從 cloudra 的網站下手.
https://ccp.cloudera.com/display/DOC/Documentation#Documentation-ClouderaManager4.5FreeEditionBetaDocumentation
asami1234提到:
然後先假設輸入10000筆資料進去,
然後我想要找出name內容有abc的index
以SQL語法是寫 select name from tablexx where name="abc"
但我想利用Hadoop的力量幫我分割好幾台運算,那我該怎麼實作呢?我還需要懂什麼呢?
我抓到一次
2千萬筆一次解決
分100次不會比較快
請參考我們的先進排程矩陣運算
我們在全台最大電腦公司有完整範例
歡迎加入領 9個月年終獎金哪一家A字頭公司
....