鐵人賽到了最後一週了!沒想過能撐到這裡。但到這個階段,真的有點有心無力了。我還有兩三位大大的訪談在處理中,所以今天與明天的兩篇文章,我先從 ALPHA Camp 部落格上轉載,擋一下
這次我的對談對象是主張數據 Numbers 創辦人暨執行長 Tammy.我選 Tammy 的訪談,除了因為她身兼物理博士、資料科學家、CEO 這麼厲害的學經歷之外,她也是我近期認識的工程主管中,少數的女性。作為一個女兒的爸爸,我認為女生與男生的能力與興趣並無任何差距,而我希望更多女性的工程師,能得到啟發,不要由受到現有社會期待的限制,努力在這個領域,追求卓越。
成為資料科學家不只有單一路徑,求學期間一路深耕物理專業的 Tammy,將分享她如何從物理博士轉變為資料科學家,並解惑資料科學、AI 領域相關問題:從物理實驗室到資料科學領域二次創業之路
踏入資料科學領域前,Tammy 過去的求學背景都在與物理打交道:高中即開始天文物理的研究,大學念高能物理,最後取得粒子物理學博士。
畢業後,Tammy 在外商公司擔任軟體工程師、技術團隊負責人。2015 年 AI 風潮興起,她與朋友開啟資料科學領域創業之路,先後成立 DT42 與 Numbers 兩家公司。DT42 聚焦提供 edge AI 相關解決方案,Numbers 則出於對資料源頭的重視,運用區塊鏈與 AI 技術建立數據溯源系統,確保在資料產生當下,就建立不可被偽造或竄改的紀錄。
資料科學應用案例:如何量化複雜問題,在系統導入任務排序機制
擁有資料科學知識與技能,能做到什麼?Tammy 分享她在外商軟體公司擔任技術團隊負責人時,運用資料科學的實際案例:
技術團隊每天會收到來自不同部門回報的 issue,而各部門都會認為自己的需求要優先處理。為了排序 issue 的優先處理順序,Tammy 希望打造一個系統,當輸入訊息後,能夠產出該 issue「重要/不重要」的結果。
於是,她採取以下作法:
這項運用資料科學優化流程的經驗,同樣適用於其他地方。核心原則為:把複雜問題量化,團隊取得公開透明的遊戲規則,進行實驗討論。重點在於決定規則的過程,而非結果,這就是科學精神。
針對如何開啟資料科學職涯、產業未來如何發展等種種提問,Tammy 詳細解惑,揭開資料科學神秘面紗。
對於某些文章指出,到了 2029 年不再有資料科學家這個職位存在,Tammy 抱持著相反的看法,她解釋道:
資料科學是一個科學,不會因為公式出來後,科學就消失了,永遠都有問題等待被解決。很多人說資料科學家都在建立模型、做 AI 分析,當 AI 越來越強,只要把資料丟進去就會跑出結果,不需要資料科學家了。
但即使 AI 越來越厲害,還是有很多資料科學家可發揮的地方:
Tammy 認為成為資料科學家,需要具備以下三大特質與能力 :
對資料的好奇心與熱情:最好的資料科學家,一定會具備對資料的好奇心與熱情,當看到某個訊號時,會主動去問「為什麼」。舉個生活化的例子,公司冰箱裡會放可樂,但會發現可樂在某些時間消耗很快、某些時間消耗得慢,這時候如果你對這個問題有興趣,想蒐集資料去研究分析,就是具備好奇心的證明。
軟體使用及資料視覺化能力:將資料視覺化需要創意,比如當你拿到 1、2、3 這些數字,會去思考用什麼方式,哪種軟體進行視覺化,並且還能跟問題本身有連結。
機器學習與統計能力:機器學習是解決資料科學問題很常用的一個工具。資料的種類與複雜度會影響使用工具的場景,在不同流程階段,會運用不同的機器學習方式。比如當你拿到大量影像資料,這時候 AI 模型很常在前期就被導入,針對某些 Tag 做分類 得到初步結果,後續再做分析;SVM 則適合在資料清理完,有初步分析結果後,再使用 SVM 做一次機器學習。
若想踏入資料科學領域,懂得運用機器學習工具是很好的入門磚,因為目前產業界中大概有 70% 資料科學家職缺,都是資料清理完後,需要有人來做最後的機器學習分析。因此機器學習會是資料科學家前三熱門的技能。
至於如何確定自己適不適合當資料科學家?Tammy 認為最重要的一點.還是
要對資料有興趣,擁有透過數字去解決問題的熱情與能力。
數學能力好不好是其次,資料分析時每天就是面對一堆數字,重點在於喜不喜歡,如果不喜歡,每天面對它就很痛苦。
另外,由於資料科學領域所使用的工具、軟體會變動很快,因此會需要有樂於去學習新工具的心態。
在資料科學社群平台 Kaggle 累積作品是蠻好的入門方式。很多人來應徵資料科學家時,會展示在 Kaggle 的作品、建了哪些 AI 模型。但要注意,更重要的是面試官想知道你如何去挖掘背後的問題,如何看待資料,你的想法與其他人有何差異。因此除了展示作品集外,還是要著重對問題本身的分析。
每間公司的需求會不太一樣,面試時資料科學團隊規模的大小,會決定這兩件事的重要程度:
Domain Know How 跟數據處理技術,這兩者其實都需要兼顧。差別只在於團隊是否有他人能依賴,並取得協助。
Tammy 認為台灣大部分公司其實都有蠻好的資料。雖然大家都在談 Big Data,但有研究報告指出,直到 2025 年前,其實都不是 Big Data 的時代,因為 Big Data 早已被掌握在 Google、Amazon 等大公司中。
對一般公司而言,更重要的是商業上的「Small Data」,這些資料的價值還沒被發揮出來,是台灣產業很值得去做的事。每個公司都有獨一無二的資料類型,而這些資料都可以為商業問題帶來新的價值。
人力缺乏的產業,會需要 AI,比如工廠、醫療產業。中國、巴西很多工廠經營者,常常徵不到人,就需要導入 AI,做工廠自動化。而醫療產業,因為培養醫生很不容易,也會需要 AI。
AI 開發時,從設計 AI 演算法基礎建設、產生軟體應用、到製作使用者互動介面,都會需要軟體工程師。AI 就是一套技術,資料科學家負責在資料層面處理、如何去問問題,而工程師則是扮演著銜接橋梁,在過程中打造不同工具的角色。
很多公司或組織像 Google、Amazon、OpenAI 等,都有提供許多 AI 功能的 Api 讓大家做串接。因此在網站開發或其他應用面上,不須要真的去做出一套 AI,而是可以在需要用到 AI 技術時,把網站跟 AI 的 API 進行串接。
藉由 Tammy 的分享,你是否對於資料科學家職涯與產業未來發展有進一步認識?想踏進資料科學領域,可以評估自己擁有的特質與技能,決定要當資料科學家,或以軟體工程師的方式實現。
若擁有對資料的熱情及好奇心,且有使用機器學習或軟體工具去解決問題的能力,可以選擇成為資料科學家。又或者已經是軟體工程師,對於技術開發更有興趣,則可透過打造 AI 相關應用及軟體、或串接第三方 API 的方式,實現 AI 技術。不論何者,都是進入資料科學領域很好的方式。
如果你喜歡這篇文章,我非常歡迎你訂閱我們 ALPHA Camp 的部落格。