收集完大數據,管理與查找大數據的工具也同等重要,譬如我想知道我某天去某間咖啡廳點了什麼飲料,即使手機有記錄了我去各咖啡廳的定位資訊、發文、照片,沒有好的整理方式同樣非常沒有效率。我們可能不太希望大型電商站台追蹤我們的行動,現在許多部落格附加的廣告也會記錄我們的行為與動作,而無論是使用者還是架站者,都不希望收集到沒有價值的資料。而醫療院所隨著資料倉儲空間擴大、軟硬體影像技術進步,不斷產生 CT、MRI、PET… 等影像,不管數量有多多,醫師還是一定要拿取、分析閱完片,但也同時產生相對的壓力,資料數量過多要如何相對有效率地查找或標記,是另外一個挑戰。雖然都是「分析」,但資料收集與應用階段是不同的,譬如在前段有沒有存取到特定資料、資料是否夠用夠清楚夠正確、準備儲存時資訊收回來時有沒有問題或讓我們足以判斷,如果確定某些資料不能用,就不適合收集。
大數據的收集器,有點像是企業的感官,以文字形式或視覺化方式做呈現,最終大數據的指標能監測和反映企業營運的狀態,管理數據 ➫ 企業的管理狀況,運營數據 ➫ 企業的經營狀況,產品數據 ➫ 產品銷售情況、市場佔有率,生產數據 ➫ 企業生產效率,用戶數據 ➫ 用戶活躍度、用戶側寫。譬如有 APP 讓環境有在下雨的用戶可以做紀錄(收集),如此一來我們就能很清楚台北市哪些小區塊有或沒有在下雨,出門的時候就能做相對的準備(應用)。
收集大數據最終希望經由必要全面資料的尋找與分析,讓我們可以精確地觸及我們想找的人(商家找客戶)物(消費者找餐廳),透過人工智慧大數據判斷、高效媒合引導到店後,搭配無痛使用支付,達到彼此雙贏的局面。對於企業來說,這個過程如果能做到路人(條碼 / WIFI LBS 引流)➫ 粉絲(服務窗口)➫ 客戶(活動 / 推廣)➫ 會員(行銷 / 運營)區塊位階的演變,盡量貼近適合特定服務或產品的使用者達到成功交易,是大數據應用發光的境界~不過雙面刃是壞事傳千里,如果商家做錯事、講錯話,數位化年代負評抵制的野火燎原也是傷害很大的。
那到底誰來幫我們處理大數據?這可以分成兩個面向,第一個是幫我們存起來放著,第二個是拿出來用。前者較單純,但因為可能資料什麼都收,導致後者在挑選、整理、清理變得複雜。接下來簡單地介紹在應用上所需的工具與環境,首先是十幾年來資料科學重要主角 python,與 python 家族相關資料處理分析的模組如 ScipPy,幫助我們畫出圖表的 pandas。
https://www.python.org/
https://www.scipy.org/