各位大大,
科技發展的腳步實在太快,好康妹每次都追趕的好辛苦(怕聽不懂大大們討論的話題)…
今天有篇資料庫的好文章要介紹給大大們(很神奇,好康妹竟然看得懂耶!)
不知道大大們覺得內容寫得對不對,跟你們的想法一樣嗎?
盡信書不如無書,自己唸書不如大家一起唸書,跟人家說一下你的想法好不好?
◆迷思止步!資料庫應用大無限!
Big Data淘金,就得砸大錢蓋礦場?
全球最大零售業者Wal-Mart運用Hadoop技術,針對駐留於Facebook或Twitter等社群媒體的商品討論訊息,加以深入分析,進而快速掌握消費者的真實意向,順勢築起難以踰越的競爭門檻;藉由此例,也讓世人領略到海量資料(Big Data)的奧妙。
不可諱言,「海量資料」是當前最具吸睛效果的IT話題之一;只因多數企業意識到,其賴以提振營運績效的致勝密碼,僅有某部分被蘊含於ERP或CRM等結構化資料,其餘更大的一塊瑰寶,竟潛藏在文字、影像、聲音甚或網頁等大量非結構化資料,這些海量資料就像是豐盛的寶庫,以往未曾有效開採,今後必須勤加蒐集、整合並分析,才不致暴殄天物。
正因如此,舉凡Hadoop、MapReduce等攸關海量資料的技術辭彙,開始成為人們熱切追逐的焦點。但問題來了,Hadoop這個被視為足以取代ETL的技術,絕非三兩下就能輕易上手,要考慮的因素著實不少,而企業縱使有幸突破這些障礙,又得面臨另一大難關,那就是「錢」!為了每月、每季甚至每半年才來這麼一次的Big Data分析,就得大手筆斥資建立分散式處理架構?好比為了應付偶一為之的淘金需求,就砸下重金興建礦場,ROI是否划算,顯得值得商榷。
全球競局如此激烈,凡事都不容磋跎猶豫,企業理應趕緊從海量資料挖寶,但卻又礙於諸多阻撓而遲遲未能出手,如何是好?為此,微軟(Microsoft)提供一系列解決方案,期望幫助企業快速獲取必備工具,從此再無後顧之慮,恣意坐享淘金樂趣!
SQL Server,營造最友善的分析環境
事實上,企業費盡千辛萬苦鑽研海量資料淘金之術,目的就在於修成正果,妥善呈現最終分析結果;而SQL Server堪稱迄今最被廣為使用、也最易上手的商業智慧(BI)與報表工具,能有效提供海量資料分析服務,進而幫助企業,從繁複資料淬煉過濾出寶貴資訊。
SQL Server足以承先啟後,其中一頭介接後端Hadoop運算架構,另一端則可銜接Office、SharePoint或Reporting Service等前端呈現工具,使得原本頗為艱澀的海量資料處理結果,得以化繁為簡,藉由直覺互動、親和易懂的風貌,清清楚楚展現在使用者眼前。
尤其最難能可貴的是,任何前端使用者皆可透過自我服務,從SQL Server的身上取得分析成果,完全無需勞駕IT人代為處理;也難怪若干網購平台的行銷人員,在推出Campaign後短短4小時內,就能鉅細靡遺地向老闆回報成果,即使老闆不厭其煩探究主要消費者族群分布,究竟落在哪一性別、哪些
地區、哪些年齡層,行銷人員都可立即轉換分析維度,輕鬆給出明確答案。
當然,多以非結構化型態呈現的海量資料,與傳統結構化資料有所歧異,倘若沿襲過去關聯式資料慣用的Raw-based資料頁擺放模式,則I/O與搜尋速度恐將「遲緩」到令人不敢領教的地步;有鑑於此,SQL Server 2012轉而採取ColumnStore Index索引方式,藉此發揮10倍以上的增速效果,讓使用者得以快速查詢海量資料,絕不拖泥帶水。
取道公有雲服務,快速挺進Hadoop
海量資料的奧妙精深之處,其實就在於分散式處理,而MapReduce即是實現這個精髓的關鍵技術;只不過,多數程式開發人員有苦難言,撰寫MapReduce程式的難度不低,可稱得上艱困任務。
所幸微軟運用累積多時的資料採礦(Data Mining)、Bing搜尋等經驗與知識,將原本繁複的MapReduce演算法則化為Template,統一集結於一個函式庫,成為Windows Azure Marketplace之中的一支「App」;有了這套垂手可得的法寶,程式開發人員無需絞盡腦汁從零開始,便可快速動手打造MapReduce程式。
既然是分散式處理環境,可以想見,在Hadoop架構裡頭,一定擁有許許多多的運算節點,此時也需要由System Center坐鎮指揮,有效管理眾多節點。而為了協助企業卸除沈重的Hadoop建置成本壓力,微軟別出心栽在Windows Azure公有雲端平台上提供Hadoop租用服務,使得企業不必投資
布建大量伺服器及資料庫,就可隨租即用獲取必要資源,執行海量資料運算任務,開創「數字煉金」的終南捷徑。
不可否認,任何分散式處理環境都有其臨界點,不可能漫無止境地擴張下去,微軟一路橫跨本地資料庫、私有雲、公有雲與混合雲,提供全方位海量資料解決方案,正足以幫助企業卸除臨界壓力,為偌大的海量資料分析需求,找到宣洩的出海口!
T-Drive計畫,堪稱經典應用案例
持平而論,不少供應商端出的海量資料解決方案,屢屢讓人為之目炫神迷,但說到實作案例,卻未必能講出幾件;微軟則不然,透過北京的T-Driv及Urban Planning案例,即已充分顯露深厚的海量資料功力。
時值2009~2010年期間,微軟研究院與北京市政府合作,為該市33,000 輛計程車部署GPS裝置,期望汲取駕駛人的智慧及經驗,進而針對持續累積的龐大導航數據進行分析,一方面找出最佳的行車路徑,二方面發掘交通瓶頸。
爾後發現,北京市區最明顯的交通瓶頸,出現在北四環路,主因在於天通苑、來廣營等兩個地區的居民,皆以此為出入幹道,無怪乎經常出現塞車情況,非得另闢其他出口,方能分散龐大車流量。北京市政府遂根據GPS海量資料分析結果,決定新建長達1.7公里的北湖渠西路,此舉果真一擊中的,有效化解交通堵塞難題,因而造福廣大市民。
luckymei提到:
好康妹每次都追趕的好辛苦(怕聽不懂大大們討論的話題)
對媽,好康妹早就該跟大家分享都在做什麼事,看什麼書了啊....
我最近都在看H,喔不,是A書..... 是 A 到 A++啦
泰大應該試看李X瑞吧...
fran633提到:
泰大應該試看李X瑞吧...
其實我是葷素皆宜,男女不拘,鳥獸同歡.....最後草木同杇~~
微軟現在把雲端正式區隔成Public、Hybrid、Private三個領域.
在Public Cloud中談的是Windows Azure/SQL Azure/Office 365....
在Private Cloud中談的是Windows Server 2012/SQL Server 2012....
Hybrid主要是說介面, 可以把Windows Server 2012中的Hyper-V 3.0下的虛擬機器上傳到Windwos Azure或由Windows Azure下載, 當然這只是很簡略的說法.
而Hadoop主要在Windows Azure上實現, SQL Server 2012做了個連結SQL Azure的方式(我猜), 可以把存放在SQL Azure(Hadoop)上的資料, 和SQL Server 2012整合.
也因此, Microsoft藉由Windwos Server 2012和SQL Server 2012連結Windows Azure和SQL Azure, 將公有雲(Public Cloud)及私有雲(Private Cloud)藉由混合雲(Hybrid Cloud)來互通...
看得我滿頭烏雲....
賽大說的是星曆3012年共和國考古學家在某星球上所發現的古文明.....
據分析,該星球滅亡主因為各種雲層太厚,導致物種無法喘息所致......
星曆4012年,該星球因為傳說中的泰大為他們帶來了光明,使該文明得以延續,從此以後,泰大就被尊稱為..."泰很大"...
cdfu提到:
看得我滿頭烏雲....
看成"滿頭鳥雲...."
不要是"鳥頭滿雲"就好....