iT邦幫忙

DAY 11
4

資料探勘的開發, 經驗與未來系列 第 11

Data Mining 人的角色/貘的資料探勘30講

真的要做 Data Mining 說實在的也沒甚麼, 因為真的資料探勘應該是一個團隊合作的事, 而要做出這件事的話須要甚麼樣的人呢?

當然若是以一些合理的分化的話, 這個是一個部門或小組才能做到的事, 不是兩三人就能做的事, 而在後面, 我再加一些任務編組的人, 這樣才是完整的資料探勘的所有角色, 若能夠集合完全的話, 就可以組隊去打怪, 不是, 完成開發資料探勘系統了...

  1. 數學/統計學專長的人: 資料探勘雖然說不是個個數學, 也不是個統計, 但若不了解這些工具還真的成不了事, 且這才是核心知識, 尤其是在把演算法改量, 找出可以用的資訊及找到用得上的地方, 因此, 他必須對統計, 尤其是高等統計的部份, 數值方法, 包含一些數學分析工具, 都必須要了解以及知道怎應用.

  2. 資料庫管理師 (DBA): 事實上我一直認為 Data Mining 所須要的 DBA 跟一般 EC, 生產 或網站的 DBA 是完全不一樣的, 當然最主要的是效能考量, 尤其又是要大量儲存與大量運算後的 Database, 甚至最重要的是在一個 Data Warehouse 的統整下, 異質資料庫的整合往往是很重要的挑戰之一, 畢竟這個 Data Collecting 總不能說: "抱歉, 沒進 Oracle/MSSQL 的話無法處理", 而是要去做可運算的匯出入的整理.

  3. 程式設計師 Programmer: 而資料探勘的 Programmer 跟一般的程式設計要求也是完全不一樣的, 像我有時說: "一個不會用 Include 或 Library 或 Object-Oriented 的程式設計師才是好的資料庫程式設計師", 因為一個簡單的算式, 若是所有東西都要進 OO 或 Function Call 的話, 會有很多 Overhead 在處理 Stack 等資訊, 這部份若是每次要多花個 0.05 秒鐘, 在正常情型下是無所謂, 但在 100 萬次的計算下, 就是個 5 萬秒, 也就是超過 10 小時以上的差異, 若是上億的運算, 就要多等個好幾年才能算完了, 所以程式設計師是實作的主要的人, 相對的對效率的斤斤計較不低於 DBA 的.

  4. 系統管理者與系統調較者: 當然因為 Data Mining 本身就是個系統, 且往往因為 Cloud 或 Cluster 最後是個數十台到數百台的伺服器來運算的, 一個好的系統管理者是相當重要的, 且若是能夠診斷出瓶頸而加以改良的話, 不只是說能夠管好這麼多機器, 而是可以把機器的量少個幾倍到十幾倍都是有可能的.

  5. 專案管理者/企劃者: 我在前面已經有很多篇說到, 事實上最大的問題不是在技術, 而是公司如何認同資料探勘的價值, 而大部份的企劃者要了解甚麼是 Data Mining 是甚麼都已經很難了, 更合況要了解其價值與真義, 所以我也常說很可能在政治考量下, 最不被了解的系統是最先被犧牲的, 尤其是在開發時要做資源強奪時是很可怕的, 我就有不只一次本來就做好的東西最後延後幾年才上線的情型.

  6. 其他: 這包含這企劃的執行者, 美術編輯等等, 說穿了就是須要很多人力資源才有可能把一個系統上線, 因為即使上線, 要面臨的是客服等 QA 的人, 這部份花的精神與人力不會比上面來得少.

因此, 一個資料探勘小組, 通常至少要配置 4~5 人以上才能夠成事, 想要靠兩三個人來做, 或許真的做起來了, 但效用不會如你想的那麼大.


上一篇
必買不可/貘的資料探勘30講
下一篇
二元關係/貘的資料探勘30講
系列文
資料探勘的開發, 經驗與未來30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

1 則留言

0
食夢黑貘
iT邦研究生 3 級 ‧ 2010-10-22 21:53:26

事實上在某 B 公司, 資料探勘小組最多只有 2~3 人過, .... 這跟 Amazon 的 Data Mining 40~50 人編組是差很多的...

ilovepc iT邦研究生 5 級 ‧ 2010-11-28 13:36:27 檢舉

ha ha, Amazon這麼大間公司,這也是經濟規模的問題,無解啊……

我要留言

立即登入留言