iT邦幫忙

4

【好文分享】迷思止步!資料庫應用大無限-Big Data 掏金就得砸大錢蓋礦場

各位大大,
科技發展的腳步實在太快,好康妹每次都追趕的好辛苦(怕聽不懂大大們討論的話題)…
暈

今天有篇資料庫的好文章要介紹給大大們(很神奇,好康妹竟然看得懂耶!)
不知道大大們覺得內容寫得對不對,跟你們的想法一樣嗎?

盡信書不如無書,自己唸書不如大家一起唸書,跟人家說一下你的想法好不好?
愛你
◆迷思止步!資料庫應用大無限!
Big Data淘金,就得砸大錢蓋礦場?

全球最大零售業者Wal-Mart運用Hadoop技術,針對駐留於Facebook或Twitter等社群媒體的商品討論訊息,加以深入分析,進而快速掌握消費者的真實意向,順勢築起難以踰越的競爭門檻;藉由此例,也讓世人領略到海量資料(Big Data)的奧妙。

不可諱言,「海量資料」是當前最具吸睛效果的IT話題之一;只因多數企業意識到,其賴以提振營運績效的致勝密碼,僅有某部分被蘊含於ERP或CRM等結構化資料,其餘更大的一塊瑰寶,竟潛藏在文字、影像、聲音甚或網頁等大量非結構化資料,這些海量資料就像是豐盛的寶庫,以往未曾有效開採,今後必須勤加蒐集、整合並分析,才不致暴殄天物。

正因如此,舉凡Hadoop、MapReduce等攸關海量資料的技術辭彙,開始成為人們熱切追逐的焦點。但問題來了,Hadoop這個被視為足以取代ETL的技術,絕非三兩下就能輕易上手,要考慮的因素著實不少,而企業縱使有幸突破這些障礙,又得面臨另一大難關,那就是「錢」!為了每月、每季甚至每半年才來這麼一次的Big Data分析,就得大手筆斥資建立分散式處理架構?好比為了應付偶一為之的淘金需求,就砸下重金興建礦場,ROI是否划算,顯得值得商榷。

全球競局如此激烈,凡事都不容磋跎猶豫,企業理應趕緊從海量資料挖寶,但卻又礙於諸多阻撓而遲遲未能出手,如何是好?為此,微軟(Microsoft)提供一系列解決方案,期望幫助企業快速獲取必備工具,從此再無後顧之慮,恣意坐享淘金樂趣!

SQL Server,營造最友善的分析環境
事實上,企業費盡千辛萬苦鑽研海量資料淘金之術,目的就在於修成正果,妥善呈現最終分析結果;而SQL Server堪稱迄今最被廣為使用、也最易上手的商業智慧(BI)與報表工具,能有效提供海量資料分析服務,進而幫助企業,從繁複資料淬煉過濾出寶貴資訊。

SQL Server足以承先啟後,其中一頭介接後端Hadoop運算架構,另一端則可銜接Office、SharePoint或Reporting Service等前端呈現工具,使得原本頗為艱澀的海量資料處理結果,得以化繁為簡,藉由直覺互動、親和易懂的風貌,清清楚楚展現在使用者眼前。

尤其最難能可貴的是,任何前端使用者皆可透過自我服務,從SQL Server的身上取得分析成果,完全無需勞駕IT人代為處理;也難怪若干網購平台的行銷人員,在推出Campaign後短短4小時內,就能鉅細靡遺地向老闆回報成果,即使老闆不厭其煩探究主要消費者族群分布,究竟落在哪一性別、哪些
地區、哪些年齡層,行銷人員都可立即轉換分析維度,輕鬆給出明確答案。

當然,多以非結構化型態呈現的海量資料,與傳統結構化資料有所歧異,倘若沿襲過去關聯式資料慣用的Raw-based資料頁擺放模式,則I/O與搜尋速度恐將「遲緩」到令人不敢領教的地步;有鑑於此,SQL Server 2012轉而採取ColumnStore Index索引方式,藉此發揮10倍以上的增速效果,讓使用者得以快速查詢海量資料,絕不拖泥帶水。

取道公有雲服務,快速挺進Hadoop
海量資料的奧妙精深之處,其實就在於分散式處理,而MapReduce即是實現這個精髓的關鍵技術;只不過,多數程式開發人員有苦難言,撰寫MapReduce程式的難度不低,可稱得上艱困任務。

所幸微軟運用累積多時的資料採礦(Data Mining)、Bing搜尋等經驗與知識,將原本繁複的MapReduce演算法則化為Template,統一集結於一個函式庫,成為Windows Azure Marketplace之中的一支「App」;有了這套垂手可得的法寶,程式開發人員無需絞盡腦汁從零開始,便可快速動手打造MapReduce程式。

既然是分散式處理環境,可以想見,在Hadoop架構裡頭,一定擁有許許多多的運算節點,此時也需要由System Center坐鎮指揮,有效管理眾多節點。而為了協助企業卸除沈重的Hadoop建置成本壓力,微軟別出心栽在Windows Azure公有雲端平台上提供Hadoop租用服務,使得企業不必投資
布建大量伺服器及資料庫,就可隨租即用獲取必要資源,執行海量資料運算任務,開創「數字煉金」的終南捷徑。

不可否認,任何分散式處理環境都有其臨界點,不可能漫無止境地擴張下去,微軟一路橫跨本地資料庫、私有雲、公有雲與混合雲,提供全方位海量資料解決方案,正足以幫助企業卸除臨界壓力,為偌大的海量資料分析需求,找到宣洩的出海口!

T-Drive計畫,堪稱經典應用案例
持平而論,不少供應商端出的海量資料解決方案,屢屢讓人為之目炫神迷,但說到實作案例,卻未必能講出幾件;微軟則不然,透過北京的T-Driv及Urban Planning案例,即已充分顯露深厚的海量資料功力。

時值2009~2010年期間,微軟研究院與北京市政府合作,為該市33,000 輛計程車部署GPS裝置,期望汲取駕駛人的智慧及經驗,進而針對持續累積的龐大導航數據進行分析,一方面找出最佳的行車路徑,二方面發掘交通瓶頸。

爾後發現,北京市區最明顯的交通瓶頸,出現在北四環路,主因在於天通苑、來廣營等兩個地區的居民,皆以此為出入幹道,無怪乎經常出現塞車情況,非得另闢其他出口,方能分散龐大車流量。北京市政府遂根據GPS海量資料分析結果,決定新建長達1.7公里的北湖渠西路,此舉果真一擊中的,有效化解交通堵塞難題,因而造福廣大市民。


0
ted99tw
iT邦高手 1 級 ‧ 2012-09-07 11:59:25

luckymei提到:
好康妹每次都追趕的好辛苦(怕聽不懂大大們討論的話題)

對媽,好康妹早就該跟大家分享都在做什麼事,看什麼書了啊....

我最近都在看H,喔不,是A書..... 是 A 到 A++啦臉紅

花輪 iT邦大師 1 級‧ 2012-09-07 12:28:59 檢舉

泰大應該試看李X瑞吧...逃跑逃跑逃跑

ted99tw iT邦高手 1 級‧ 2012-09-07 13:09:07 檢舉

fran633提到:
泰大應該試看李X瑞吧...

其實我是葷素皆宜,男女不拘,鳥獸同歡.....最後草木同杇~~暈

0
賽門
iT邦超人 1 級 ‧ 2012-09-07 13:56:07

微軟現在把雲端正式區隔成Public、Hybrid、Private三個領域.

在Public Cloud中談的是Windows Azure/SQL Azure/Office 365....

在Private Cloud中談的是Windows Server 2012/SQL Server 2012....

Hybrid主要是說介面, 可以把Windows Server 2012中的Hyper-V 3.0下的虛擬機器上傳到Windwos Azure或由Windows Azure下載, 當然這只是很簡略的說法.

而Hadoop主要在Windows Azure上實現, SQL Server 2012做了個連結SQL Azure的方式(我猜), 可以把存放在SQL Azure(Hadoop)上的資料, 和SQL Server 2012整合.

也因此, Microsoft藉由Windwos Server 2012和SQL Server 2012連結Windows Azure和SQL Azure, 將公有雲(Public Cloud)及私有雲(Private Cloud)藉由混合雲(Hybrid Cloud)來互通...

看更多先前的回應...收起先前的回應...
總裁 iT邦好手 1 級‧ 2012-09-07 14:13:17 檢舉

暈看得我滿頭烏雲....

ted99tw iT邦高手 1 級‧ 2012-09-07 14:27:34 檢舉

賽大說的是星曆3012年共和國考古學家在某星球上所發現的古文明.....

據分析,該星球滅亡主因為各種雲層太厚,導致物種無法喘息所致......

總裁 iT邦好手 1 級‧ 2012-09-07 14:37:16 檢舉

星曆4012年,該星球因為傳說中的泰大為他們帶來了光明,使該文明得以延續,從此以後,泰大就被尊稱為..."泰很大"...毆飛

cdfu提到:
看得我滿頭烏雲....

看成"滿頭鳥雲...." 囧

總裁 iT邦好手 1 級‧ 2012-09-07 16:25:59 檢舉

不要是"鳥頭滿雲"就好....汗

0
magician
iT邦研究生 2 級 ‧ 2012-09-07 16:02:22

好康妹每次都追趕的好辛苦

好康妹只要把簽名照灑出來~~排隊等著教你的人應該可以從台北排到高雄拉~

我要留言

立即登入留言