iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 26
2
Software Development

與頂尖工程師談「追求卓越」系列 第 26

資料科學家+CEO - Tammy

鐵人賽到了最後一週了!沒想過能撐到這裡。但到這個階段,真的有點有心無力了。我還有兩三位大大的訪談在處理中,所以今天與明天的兩篇文章,我先從 ALPHA Camp 部落格上轉載,擋一下 /images/emoticon/emoticon06.gif

這次我的對談對象是主張數據 Numbers 創辦人暨執行長 Tammy.我選 Tammy 的訪談,除了因為她身兼物理博士、資料科學家、CEO 這麼厲害的學經歷之外,她也是我近期認識的工程主管中,少數的女性。作為一個女兒的爸爸,我認為女生與男生的能力與興趣並無任何差距,而我希望更多女性的工程師,能得到啟發,不要由受到現有社會期待的限制,努力在這個領域,追求卓越。

如果有興趣,也可以看看這次對談的影片:
Yes


從物理實驗室到資料科學領域二次創業之路

成為資料科學家不只有單一路徑,求學期間一路深耕物理專業的 Tammy,將分享她如何從物理博士轉變為資料科學家,並解惑資料科學、AI 領域相關問題:從物理實驗室到資料科學領域二次創業之路

踏入資料科學領域前,Tammy 過去的求學背景都在與物理打交道:高中即開始天文物理的研究,大學念高能物理,最後取得粒子物理學博士。

畢業後,Tammy 在外商公司擔任軟體工程師、技術團隊負責人。2015 年 AI 風潮興起,她與朋友開啟資料科學領域創業之路,先後成立 DT42 與 Numbers 兩家公司。DT42 聚焦提供 edge AI 相關解決方案,Numbers 則出於對資料源頭的重視,運用區塊鏈與 AI 技術建立數據溯源系統,確保在資料產生當下,就建立不可被偽造或竄改的紀錄。
資料科學應用案例:如何量化複雜問題,在系統導入任務排序機制

擁有資料科學知識與技能,能做到什麼?Tammy 分享她在外商軟體公司擔任技術團隊負責人時,運用資料科學的實際案例:

技術團隊每天會收到來自不同部門回報的 issue,而各部門都會認為自己的需求要優先處理。為了排序 issue 的優先處理順序,Tammy 希望打造一個系統,當輸入訊息後,能夠產出該 issue「重要/不重要」的結果。

於是,她採取以下作法:

  • 使用資料來源:公司的 Bug Tracking System
  • 拆解現有資料:拆解 Bug Tracking System 上面的訊息,如留言、時間、優先度、文字等訊息,作基本資料分析
  • 收集缺少的資料:有些資料原本就不在系統資料庫裡,它可能是「人心裡的訊息」,因此透過給各個職位角色「tag」的方式,請他們標註覺得重要的任務
  • 系統運算後,取得「任務重要度分數」量化指標:藉由以上資料,系統會計算出綜合性的分數,根據分數高低,排序 issue 處理優先度
  • 收集各部門回饋,進行系統排序機制的滾動式修正

這項運用資料科學優化流程的經驗,同樣適用於其他地方。核心原則為:把複雜問題量化,團隊取得公開透明的遊戲規則,進行實驗討論。重點在於決定規則的過程,而非結果,這就是科學精神。

針對如何開啟資料科學職涯、產業未來如何發展等種種提問,Tammy 詳細解惑,揭開資料科學神秘面紗。

資料科學家未來會消失嗎?

對於某些文章指出,到了 2029 年不再有資料科學家這個職位存在,Tammy 抱持著相反的看法,她解釋道:

資料科學是一個科學,不會因為公式出來後,科學就消失了,永遠都有問題等待被解決。很多人說資料科學家都在建立模型、做 AI 分析,當 AI 越來越強,只要把資料丟進去就會跑出結果,不需要資料科學家了。

但即使 AI 越來越厲害,還是有很多資料科學家可發揮的地方:

  1. AI 建模時,如何了解資料、釐清資料,不讓 Garbage in, garbage out,仰賴資料科學家的判斷
  2. 當資料還不存在,如何設計蒐集資料的流程、得到最後分析結果,需要資料科學家去設計發想

資料科學家需具備什麼技能與特質?如何確定自己適不適合?

Tammy 認為成為資料科學家,需要具備以下三大特質與能力 :

  • 對資料的好奇心與熱情:最好的資料科學家,一定會具備對資料的好奇心與熱情,當看到某個訊號時,會主動去問「為什麼」。舉個生活化的例子,公司冰箱裡會放可樂,但會發現可樂在某些時間消耗很快、某些時間消耗得慢,這時候如果你對這個問題有興趣,想蒐集資料去研究分析,就是具備好奇心的證明。

  • 軟體使用及資料視覺化能力:將資料視覺化需要創意,比如當你拿到 1、2、3 這些數字,會去思考用什麼方式,哪種軟體進行視覺化,並且還能跟問題本身有連結。

  • 機器學習與統計能力:機器學習是解決資料科學問題很常用的一個工具。資料的種類與複雜度會影響使用工具的場景,在不同流程階段,會運用不同的機器學習方式。比如當你拿到大量影像資料,這時候 AI 模型很常在前期就被導入,針對某些 Tag 做分類 得到初步結果,後續再做分析;SVM 則適合在資料清理完,有初步分析結果後,再使用 SVM 做一次機器學習。

若想踏入資料科學領域,懂得運用機器學習工具是很好的入門磚,因為目前產業界中大概有 70% 資料科學家職缺,都是資料清理完後,需要有人來做最後的機器學習分析。因此機器學習會是資料科學家前三熱門的技能。

至於如何確定自己適不適合當資料科學家?Tammy 認為最重要的一點.還是

要對資料有興趣,擁有透過數字去解決問題的熱情與能力。

數學能力好不好是其次,資料分析時每天就是面對一堆數字,重點在於喜不喜歡,如果不喜歡,每天面對它就很痛苦。

另外,由於資料科學領域所使用的工具、軟體會變動很快,因此會需要有樂於去學習新工具的心態。

想成為資料科學家,如何累積作品?

在資料科學社群平台 Kaggle 累積作品是蠻好的入門方式。很多人來應徵資料科學家時,會展示在 Kaggle 的作品、建了哪些 AI 模型。但要注意,更重要的是面試官想知道你如何去挖掘背後的問題,如何看待資料,你的想法與其他人有何差異。因此除了展示作品集外,還是要著重對問題本身的分析。

擁有資料科學產業的 Domain Know How 比較重要,還是數據處理技術?

每間公司的需求會不太一樣,面試時資料科學團隊規模的大小,會決定這兩件事的重要程度:

  • 團隊規模大:若團隊已經有 4、5 個人,那他們可能已經用 Domain Know How 把基礎建設做好,這時會更需要有人處理數據
  • 團隊規模小:如果你是團隊第一人,這時擁有資料科學 Domain Know How 就超重要

Domain Know How 跟數據處理技術,這兩者其實都需要兼顧。差別只在於團隊是否有他人能依賴,並取得協助。

資料科學產業將如何發展?

Tammy 認為台灣大部分公司其實都有蠻好的資料。雖然大家都在談 Big Data,但有研究報告指出,直到 2025 年前,其實都不是 Big Data 的時代,因為 Big Data 早已被掌握在 Google、Amazon 等大公司中。

對一般公司而言,更重要的是商業上的「Small Data」,這些資料的價值還沒被發揮出來,是台灣產業很值得去做的事。每個公司都有獨一無二的資料類型,而這些資料都可以為商業問題帶來新的價值。

資料科學與 AI:工程師在 AI 開發能扮演什麼角色?

未來哪些類型產業特別需要 AI?

人力缺乏的產業,會需要 AI,比如工廠、醫療產業。中國、巴西很多工廠經營者,常常徵不到人,就需要導入 AI,做工廠自動化。而醫療產業,因為培養醫生很不容易,也會需要 AI。

軟體工程師在 AI 開發上,可以扮演哪些角色?

AI 開發時,從設計 AI 演算法基礎建設、產生軟體應用、到製作使用者互動介面,都會需要軟體工程師。AI 就是一套技術,資料科學家負責在資料層面處理、如何去問問題,而工程師則是扮演著銜接橋梁,在過程中打造不同工具的角色。

從事網站開發,在技術方面如何與 AI 銜接?

很多公司或組織像 Google、Amazon、OpenAI 等,都有提供許多 AI 功能的 Api 讓大家做串接。因此在網站開發或其他應用面上,不須要真的去做出一套 AI,而是可以在需要用到 AI 技術時,把網站跟 AI 的 API 進行串接。

結語

藉由 Tammy 的分享,你是否對於資料科學家職涯與產業未來發展有進一步認識?想踏進資料科學領域,可以評估自己擁有的特質與技能,決定要當資料科學家,或以軟體工程師的方式實現。

若擁有對資料的熱情及好奇心,且有使用機器學習或軟體工具去解決問題的能力,可以選擇成為資料科學家。又或者已經是軟體工程師,對於技術開發更有興趣,則可透過打造 AI 相關應用及軟體、或串接第三方 API 的方式,實現 AI 技術。不論何者,都是進入資料科學領域很好的方式。


如果你喜歡這篇文章,我非常歡迎你訂閱我們 ALPHA Camp 的部落格


上一篇
台灣最大食譜平台的 CTO - Richard [Part 4]
下一篇
用自己方式存在的工程師 - TonyQ [上]
系列文
與頂尖工程師談「追求卓越」30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言