iT邦幫忙

鐵人檔案

2024 iThome 鐵人賽
回列表
AI/ ML & Data

從點子構想到部署上線:機器學習專案的一生 系列

在這個系列文中,我們將探索機器學習(Machine Learning,ML)專案的完整生命週期,特別聚焦於機器學習專案的五大關鍵步驟,以及深入剖析科技巨頭如何實踐這些步驟。

本系列文將借鑒於各大科技公司的經驗,從理論到實踐,從學術到業界,提供全面的 ML 專案視角。我們將探討如何有效管理 ML 專案的各個階段,從而在這個快速發展的領域中站得更高,看得更遠。

鐵人鍊成 | 共 30 篇文章 | 5 人訂閱 訂閱系列文 RSS系列文
DAY 21

[Day 21] Vector Search - Spotify 的 Voyager 和 Annoy、Facebook 的 FAISS

今天讓我們來聊聊在做搜尋或推薦系統絕對不可或缺的 Vector Search 演算法。 我們在前面有提過 Netflix 的 in-video search,讓...

2024-10-05 ‧ 由 Min 分享
DAY 22

[Day 22] Metaflow - Part 1. 介紹跟基本功能

在介紹 Netflix 的 MLOps 時,怎麼能夠不提到他們開發的開源框架——Metaflow。 這是一個用來簡化 data scientists 和 mac...

2024-10-06 ‧ 由 Min 分享
DAY 23

[Day 23] Metaflow - Part 2. Parameters、版本紀錄、Metaflow UI、Card

昨天我們認識了 Metaflow 的基本用法,今天讓我們深入探討一些進階設定和功能。 Parameters、IncludeFile 和版本紀錄 Paramete...

2024-10-07 ‧ 由 Min 分享
DAY 24

[Day 24] Metaflow - Part 3. Model Training & Cloud Resources

前面兩天介紹了 Metaflow 的基本功能,以及用資料處理來示範如何使用 Metaflow。不過,Metaflow 作為一個強大的 workflow 管理工具...

2024-10-08 ‧ 由 Min 分享
DAY 25

[Day 25] Uber 慘痛的資料損失經驗,以及他們的解法——D3 監控系統

在介紹完資料處理、資料搜尋、模型建立與部署之後,終於進入到最後一個環節——監控模型表現啦! 我們在前面有介紹過什麼是 data drift,以及他所帶來的問題。...

2024-10-09 ‧ 由 Min 分享
DAY 26

[Day 26] ML 專案的工具介紹 - Part 1. Data Pipelines 管理 - Airflow 和 Dagster

鐵人賽終於進入倒數階段,我們也已經介紹完科技公司在機器學習專案中每個步驟的實作方式,接下來,該來正式建立一個完整的 ml 專案吧! 我們會在三天的內容中,規劃一...

2024-10-10 ‧ 由 Min 分享
DAY 27

[Day 27] ML 專案的工具介紹 - Part 2. 資料和模型的版本控制 DVC

昨天介紹 data pipeline 的管理工具,今天讓我們邁入下一步,先來介紹資料版本要如何控管,接著介紹在建立機器學習模型時,要如何有效率地進行實驗追蹤和視...

2024-10-11 ‧ 由 Min 分享
DAY 28

[Day 28] ML 專案的工具介紹 - Part 3. 實驗追蹤工具 - TensorBoard、Weights & Biases 和 MLflow

我們在前一天介紹 DVC 這個強大的工具,可以用來管理資料和模型的版本,也可以使用它來追蹤實驗數據。不過,講到機器學習的實驗數據管理,也不可能不提到 Tenso...

2024-10-12 ‧ 由 Min 分享
DAY 29

[Day 29] Spotify 在建立機器學習專案學到的三件事

任何曾參與將機器學習模型投入 production 的人都知道,將模型從實驗階段推向 production 並非易事。身為 data-driven 的大公司 S...

2024-10-13 ‧ 由 Min 分享
DAY 30

[Day 30] 鐵人賽收工!心得 & 延伸閱讀分享

終於又完成一次鐵人賽啦!回顧一下這 30 天的內容,我們先介紹 ML 專案生命週期的五大步驟,以及每個步驟需要注意的細節: Step 1. 定義商業指標(De...

2024-10-14 ‧ 由 Min 分享