資料科學家+CEO - Tammy - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

第 12 屆 iThome 鐵人賽

DAY 26

Software Development

與頂尖工程師談「追求卓越」系列第 26 篇

資料科學家+CEO - Tammy

12th鐵人賽資料科學家 alphacamp

Bernard

團隊Outcome First

2020-10-09 23:24:15

1519 瀏覽

分享至

鐵人賽到了最後一週了！沒想過能撐到這裡。但到這個階段，真的有點有心無力了。我還有兩三位大大的訪談在處理中，所以今天與明天的兩篇文章，我先從 ALPHA Camp 部落格上轉載，擋一下

這次我的對談對象是主張數據 Numbers 創辦人暨執行長 Tammy.我選 Tammy 的訪談，除了因為她身兼物理博士、資料科學家、CEO 這麼厲害的學經歷之外，她也是我近期認識的工程主管中，少數的女性。作為一個女兒的爸爸，我認為女生與男生的能力與興趣並無任何差距，而我希望更多女性的工程師，能得到啟發，不要由受到現有社會期待的限制，努力在這個領域，追求卓越。

如果有興趣，也可以看看這次對談的影片：

從物理實驗室到資料科學領域二次創業之路

成為資料科學家不只有單一路徑，求學期間一路深耕物理專業的 Tammy，將分享她如何從物理博士轉變為資料科學家，並解惑資料科學、AI 領域相關問題：從物理實驗室到資料科學領域二次創業之路

踏入資料科學領域前，Tammy 過去的求學背景都在與物理打交道：高中即開始天文物理的研究，大學念高能物理，最後取得粒子物理學博士。

畢業後，Tammy 在外商公司擔任軟體工程師、技術團隊負責人。2015 年 AI 風潮興起，她與朋友開啟資料科學領域創業之路，先後成立 DT42 與 Numbers 兩家公司。DT42 聚焦提供 edge AI 相關解決方案，Numbers 則出於對資料源頭的重視，運用區塊鏈與 AI 技術建立數據溯源系統，確保在資料產生當下，就建立不可被偽造或竄改的紀錄。
資料科學應用案例：如何量化複雜問題，在系統導入任務排序機制

擁有資料科學知識與技能，能做到什麼？Tammy 分享她在外商軟體公司擔任技術團隊負責人時，運用資料科學的實際案例：

技術團隊每天會收到來自不同部門回報的 issue，而各部門都會認為自己的需求要優先處理。為了排序 issue 的優先處理順序，Tammy 希望打造一個系統，當輸入訊息後，能夠產出該 issue「重要/不重要」的結果。

於是，她採取以下作法：

使用資料來源：公司的 Bug Tracking System
拆解現有資料：拆解 Bug Tracking System 上面的訊息，如留言、時間、優先度、文字等訊息，作基本資料分析
收集缺少的資料：有些資料原本就不在系統資料庫裡，它可能是「人心裡的訊息」，因此透過給各個職位角色「tag」的方式，請他們標註覺得重要的任務
系統運算後，取得「任務重要度分數」量化指標：藉由以上資料，系統會計算出綜合性的分數，根據分數高低，排序 issue 處理優先度
收集各部門回饋，進行系統排序機制的滾動式修正

這項運用資料科學優化流程的經驗，同樣適用於其他地方。核心原則為：把複雜問題量化，團隊取得公開透明的遊戲規則，進行實驗討論。重點在於決定規則的過程，而非結果，這就是科學精神。

針對如何開啟資料科學職涯、產業未來如何發展等種種提問，Tammy 詳細解惑，揭開資料科學神秘面紗。

資料科學家未來會消失嗎？

對於某些文章指出，到了 2029 年不再有資料科學家這個職位存在，Tammy 抱持著相反的看法，她解釋道：

資料科學是一個科學，不會因為公式出來後，科學就消失了，永遠都有問題等待被解決。很多人說資料科學家都在建立模型、做 AI 分析，當 AI 越來越強，只要把資料丟進去就會跑出結果，不需要資料科學家了。

但即使 AI 越來越厲害，還是有很多資料科學家可發揮的地方：

AI 建模時，如何了解資料、釐清資料，不讓 Garbage in, garbage out，仰賴資料科學家的判斷
當資料還不存在，如何設計蒐集資料的流程、得到最後分析結果，需要資料科學家去設計發想

資料科學家需具備什麼技能與特質？如何確定自己適不適合？

Tammy 認為成為資料科學家，需要具備以下三大特質與能力：

對資料的好奇心與熱情：最好的資料科學家，一定會具備對資料的好奇心與熱情，當看到某個訊號時，會主動去問「為什麼」。舉個生活化的例子，公司冰箱裡會放可樂，但會發現可樂在某些時間消耗很快、某些時間消耗得慢，這時候如果你對這個問題有興趣，想蒐集資料去研究分析，就是具備好奇心的證明。
軟體使用及資料視覺化能力：將資料視覺化需要創意，比如當你拿到 1、2、3 這些數字，會去思考用什麼方式，哪種軟體進行視覺化，並且還能跟問題本身有連結。
機器學習與統計能力：機器學習是解決資料科學問題很常用的一個工具。資料的種類與複雜度會影響使用工具的場景，在不同流程階段，會運用不同的機器學習方式。比如當你拿到大量影像資料，這時候 AI 模型很常在前期就被導入，針對某些 Tag 做分類得到初步結果，後續再做分析；SVM 則適合在資料清理完，有初步分析結果後，再使用 SVM 做一次機器學習。

若想踏入資料科學領域，懂得運用機器學習工具是很好的入門磚，因為目前產業界中大概有 70% 資料科學家職缺，都是資料清理完後，需要有人來做最後的機器學習分析。因此機器學習會是資料科學家前三熱門的技能。

至於如何確定自己適不適合當資料科學家？Tammy 認為最重要的一點．還是

要對資料有興趣，擁有透過數字去解決問題的熱情與能力。

數學能力好不好是其次，資料分析時每天就是面對一堆數字，重點在於喜不喜歡，如果不喜歡，每天面對它就很痛苦。

另外，由於資料科學領域所使用的工具、軟體會變動很快，因此會需要有樂於去學習新工具的心態。

想成為資料科學家，如何累積作品？

在資料科學社群平台 Kaggle 累積作品是蠻好的入門方式。很多人來應徵資料科學家時，會展示在 Kaggle 的作品、建了哪些 AI 模型。但要注意，更重要的是面試官想知道你如何去挖掘背後的問題，如何看待資料，你的想法與其他人有何差異。因此除了展示作品集外，還是要著重對問題本身的分析。

擁有資料科學產業的 Domain Know How 比較重要，還是數據處理技術？

每間公司的需求會不太一樣，面試時資料科學團隊規模的大小，會決定這兩件事的重要程度：

團隊規模大：若團隊已經有 4、5 個人，那他們可能已經用 Domain Know How 把基礎建設做好，這時會更需要有人處理數據
團隊規模小：如果你是團隊第一人，這時擁有資料科學 Domain Know How 就超重要

Domain Know How 跟數據處理技術，這兩者其實都需要兼顧。差別只在於團隊是否有他人能依賴，並取得協助。

資料科學產業將如何發展？

Tammy 認為台灣大部分公司其實都有蠻好的資料。雖然大家都在談 Big Data，但有研究報告指出，直到 2025 年前，其實都不是 Big Data 的時代，因為 Big Data 早已被掌握在 Google、Amazon 等大公司中。

對一般公司而言，更重要的是商業上的「Small Data」，這些資料的價值還沒被發揮出來，是台灣產業很值得去做的事。每個公司都有獨一無二的資料類型，而這些資料都可以為商業問題帶來新的價值。

資料科學與 AI：工程師在 AI 開發能扮演什麼角色？

未來哪些類型產業特別需要 AI？

人力缺乏的產業，會需要 AI，比如工廠、醫療產業。中國、巴西很多工廠經營者，常常徵不到人，就需要導入 AI，做工廠自動化。而醫療產業，因為培養醫生很不容易，也會需要 AI。

軟體工程師在 AI 開發上，可以扮演哪些角色？

AI 開發時，從設計 AI 演算法基礎建設、產生軟體應用、到製作使用者互動介面，都會需要軟體工程師。AI 就是一套技術，資料科學家負責在資料層面處理、如何去問問題，而工程師則是扮演著銜接橋梁，在過程中打造不同工具的角色。

從事網站開發，在技術方面如何與 AI 銜接？

很多公司或組織像 Google、Amazon、OpenAI 等，都有提供許多 AI 功能的 Api 讓大家做串接。因此在網站開發或其他應用面上，不須要真的去做出一套 AI，而是可以在需要用到 AI 技術時，把網站跟 AI 的 API 進行串接。

結語

藉由 Tammy 的分享，你是否對於資料科學家職涯與產業未來發展有進一步認識？想踏進資料科學領域，可以評估自己擁有的特質與技能，決定要當資料科學家，或以軟體工程師的方式實現。

若擁有對資料的熱情及好奇心，且有使用機器學習或軟體工具去解決問題的能力，可以選擇成為資料科學家。又或者已經是軟體工程師，對於技術開發更有興趣，則可透過打造 AI 相關應用及軟體、或串接第三方 API 的方式，實現 AI 技術。不論何者，都是進入資料科學領域很好的方式。

如果你喜歡這篇文章，我非常歡迎你訂閱我們 ALPHA Camp 的部落格。

台灣最大食譜平台的 CTO - Richard [Part 4]

用自己方式存在的工程師 - TonyQ [上]

系列文

與頂尖工程師談「追求卓越」共 30 篇

RSS系列文訂閱系列文

37 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19838 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

與頂尖工程師談「追求卓越」系列 第 26 篇