iT邦幫忙

8

【好文分享】沒有好工具,豈能抓住魔鬼細節?(賀歲第二更)

最近好康妹因為迷上步步驚心和甄嬛傳,不小心也跟著流連在大陸的起點、縱橫等小說連載頻道了……(羞)
但是好康妹沒有忘記各位大大唷,在小說頻道學會最佳收買人心的手段就是連載「加更」,所以好康妹送上第二篇來祝大家2013年快樂,求訂閱啦(疑)~

回顧系列前文:
【好文分享】迷思止步!資料庫應用大無限-SQL Server 其實不簡單!
【好文分享】迷思止步!資料庫應用大無限-Big Data 掏金就得砸大錢蓋礦場
【好文分享】關鍵資料庫太「關鍵」,豈能以不變應萬變?
【好文分享】資料庫效能,究竟有無第一名?<a href=""></a>
◆迷思止步 資料庫應用大無限!
沒有好工具,豈能抓住魔鬼細節?

正所謂魔鬼藏在細節裡,企業與對手捉對廝殺,箇中的決戰點,往往不在於你我都看得到的大地方,而是最容易被忽略、隱藏甚或淹沒的微小細節,所以現在大家一頭栽進海量資料(Big Data)熱潮,為的正是從一堆小細節中找出致勝線索!但若無好的工具,要從資料洪流中捕捉魔鬼,恐非易事。

不可諱言,人們熱衷談論海量資料時,腦海中所浮現之標的,有很大一部分,似乎都指向當前風起雲湧的社群媒體,因為它蘊藏了最為真實不虛的消費者意向,對於企業而言,若想了解需求的變更、以及群眾影響力,對口耳相傳的宣傳方式究竟有何影響,都可望藉由社群媒體得到解答。

有業者看準這個趨勢,開始推出「社群媒體用戶影響力衡量」服務,旨在讓這些流竄於社群網路的原始資料,轉化為客戶、品牌業者及合作夥伴的參考資訊,再據此擬定行動方案。一家取名自「影響力(Clout)」諧音字的Klout公司,便是從事此類服務;它就好比一個能將「垃圾變黃金」的魔術師,可以把過去乏人聞問的資料,轉變為企業賴以決勝的利器。

時至今日,Klout每天協助客戶深入瞭解數百TB資料,這些資料源自於15個領先業界的社群網路,包括知名的Facebook、LinkedIn。其主要分析標的,涵蓋了社群網路上動輒逾十億則的龐大訊息,這些訊息係由上億人共同產生,他們包括了Klout成員,以及在社交網站上與成員來往的人,但不管是誰,Klout都為這些人逐一建立索引,再以為基礎,演算各個成員在網路上的影響力,並以1~100分的級距來評定影響力的強弱。

綜上所述,Klout所需分析的資料量,比起大多數企業的資料處理需求,無疑更加巨大;Klout一方面需致力滿足客戶所要的資料分析深度,二方面又需符合草創的預算限制,左思右想,遂決定以開放原始碼Apache Hadoop作為基礎架構,針對大型資料集進行分散式處理,其間包含了用以儲存各個社交網路資料的獨立資料庫。另外,Klout也採用自訂的Web服務,內含許多獨特的商業邏輯,藉此向資料庫擷取資料,再以混搭整合資料型式提供服務。

架構失當,海量資料難煉黃金
然而,維護Hadoop與自訂Web服務,不僅讓Klout團隊承受沈重作業負擔,且一陣忙亂之餘,也無法獲得預期成效。譬如,要從Hadoop存取詳細資訊,尚需搭配額外開發作業,而且資訊極為混亂,經常欠缺使用者所欲尋找的細節;此外,查詢處理時間長達數分鐘到數小時不等,效率明顯不佳。

抓不出細節,查詢處理時效又慢,實令Klout飽嚐苦果,因此下定決心更換基礎架構,只因開放原始碼工具集對於BI分析,效率實在過於低落,若無更佳選擇,即使海量資料在手亦難提煉黃金。幾經思考,其選擇以Hive技術建立資料倉儲,彙整由Hadoop代管之全部資料;同時導入SQL Server 2012企業版資料庫,將透過箇中Analysis Services功能進行多維度線上分析處理(MOLAP)。Klout高階主管透露,之所以選定SQL Server 2012,無非是看重它與第三方軟體的絕佳相容性,很適合用來管理Klout的所有商業邏輯,保存細節並加速分析,確保滿足海量資料所需之查詢效能。

值得一提,SQL Server 2012內含的AlwaysOn功能,亦使Klout受用無窮,以此輕鬆將資料庫複寫到次要系統,順勢實現資料高可用度的目標。

如今,這個植基於SQL Server 2012的MOLAP模型,每天負責分析多達350億列資料,查詢回應時間從不超過10秒,更使得Klout原本耗費在管理商務邏輯與資料連線的冗長時間,就此蒸發不見,輕而易舉讓深藏在Hadoop的資料細節,全都被曝露出來,終至將海量資料的潛力發揮到極致。

即使整個社會,亦可因Big Data得利
上述例子,相當發人深省。就好比一個人若只以裸眼直視海量資料,則不僅看得慢,也未必能端詳箇中玄機,但如果搭配高倍數顯微機,情況便將徹底改觀;任何亟欲洞燭機先、決勝千里的企業,是否需要部署強大工具,答案已顯而易見!

而Big Data的好處,不但適用於企業一己利益,對於整個社會國家、民眾福祉,亦可望發揮關鍵助力。例如美國CBS電視公司製作的「疑犯追蹤(Person of Interest)」,雖不過是一齣影集,然其故事情節,絕對有可能發生在現實世界。

劇中一位深居簡出的億萬富豪,為政府開發一套可偵測「有計畫性或經謀略策劃的犯罪」之電腦,大至諸如911的恐怖攻擊,小到一般人的暴力犯罪,皆可加以掌握。富豪將情報分為「攸關(Relevant)」、「非攸關(Irrelevant)」兩大類,僅將前項資料呈報予有關當局,至於非攸關清單,原本必定於每晚刪除,然富豪後來體悟到,非攸關資料亦有助於制止犯罪活動,挽救無辜百姓的生命財產,於是他利用程式中的一個後門,取得「社會安全號碼」資訊,以此號碼來追蹤加害者與受害者。

緊接著,以富豪為首的團隊,屢屢在肇事者即將出手的千鈞一髮之際,及時遏止犯罪事故的發生。此一場景看似虛擬夢幻,惟只要援引Klout前例,採用諸如Hadoop、Hive及SQL Server 2012等海量資料處理暨分析技術,其實絕對有可能付諸實踐。


2 則留言

0
Ken(Bigcandy)
iT邦大師 1 級 ‧ 2013-01-22 12:18:07

偶才不相信







嗚

看更多先前的回應...收起先前的回應...
wiseguy iT邦超人 1 級‧ 2013-01-22 16:13:48 檢舉

糖叔要用激將法逼隱於市的高人出手了 ...偷笑

好康妹不能升級當主管嗎?

ted99tw iT邦高手 1 級‧ 2013-01-22 19:14:09 檢舉

被Wiseguy大識破,我只好不打自招了。臉紅

ted99tw iT邦高手 1 級‧ 2013-01-22 19:21:16 檢舉

好康妹還是初學者八級,不像是有升級的樣子。

magician iT邦研究生 2 級‧ 2013-01-22 20:05:45 檢舉

luckymei提到:
迷上步步驚心和甄嬛傳,不小心也跟著流連在大陸的起點、縱橫等小說連載頻道了……(羞)

所以現在好康妹已經是貴妃了~~~

好康娘娘 吉祥~~~~~

皇上今天要翻好康娘娘的牌....

echen688 iT邦研究生 1 級‧ 2013-01-23 06:42:27 檢舉

magician提到:
好康娘娘 吉祥~~~~~

既然榮升貴妃, 就該叫聲姐姐了.............. 毆飛

[youtube]MjZ6McMYt0w[/youtube]

MjZ6McMYt0w

ted99tw iT邦高手 1 級‧ 2013-01-24 09:52:13 檢舉

五億探長雷洛傳 最重要是阿叔你開心

Yes

ted99tw提到:
最重要是阿叔你開心

糖叔已經很開心了開心

0
賽門
iT邦超人 1 級 ‧ 2013-01-22 23:20:16

luckymei提到:
「疑犯追蹤(Person of Interest)」

Tom Cruise演的關鍵報告, 是運用特異功能預測犯罪.
好康妹提到的疑犯追蹤, 是運用海量資料搜尋的方式, 把刑案的關鍵證據當成查詢關鍵字, 查找有類似犯罪的模式, 來找到嫌疑犯.
其根本在於...統計學.
但, 這裏面有個關鍵, 就是資料來源, 想想看美國有多少執法機關? 這機關的犯罪資料都要抓進來處理, 真的很難.
這也就是海量資料建置的困難點...怎樣把不同資料結構整合成單一資料庫.
好康妹一連串的SQL Server/Big Data文, 看來, 真的很有心在幫微軟推動SQL Server 2012.
iT邦官方要準備舉辦海量資料的研討會了嗎? 偷笑

我要留言

立即登入留言