在這個系列文中,我們將探索機器學習(Machine Learning,ML)專案的完整生命週期,特別聚焦於機器學習專案的五大關鍵步驟,以及深入剖析科技巨頭如何實踐這些步驟。
本系列文將借鑒於各大科技公司的經驗,從理論到實踐,從學術到業界,提供全面的 ML 專案視角。我們將探討如何有效管理 ML 專案的各個階段,從而在這個快速發展的領域中站得更高,看得更遠。
我們昨天介紹了 Spotify 的舊系統,以及它存在的一些問題。那今天我們就來看看他們是怎麼解決的吧! 新的事件傳輸系統 為了解決這個問題,Spotify 開...
好,我們現在已經很了解 Spotify 是怎麼蒐集、處理和儲存他們的用戶行為資料了。這些藏有珍貴價值的資料,如果一直放在儲存系統裡面,也是沒有辦法變成寶石和黃金...
我們在 Day 11 介紹過 Spotify 的資料延遲問題,以及他們是如何處理的。身為他們的媒體串流平台好朋友的 Netflix 也同樣遇到這個問題,不過他們...
前面幾天分享的內容都是關於如何蒐集跟處理資料,而在資料搜集完畢之後,接下來就要開始標記資料啦! 大家想到資料標記時,可能會想到一個資料列配上一個標記,或是一張圖...
昨天在介紹 Netflix 的 Marken——他們的數據標註平台時,有提到兩種資料標註的場景,例如後製想要改變所有影片中出現的手套的顏色,或是想要找到正在喝酒...
昨天在介紹 Netflix 的 video annotators 時,你有沒有覺得其中的大型視覺語言模型很神奇?(雖然在這個充斥各種大型模型的時代,好像也沒有真...
對影片處理而言,有一個非常關鍵的步驟,稱為 shot segmentation。將一長串的影片分割成 scene 和shot,如下圖所示。 Scene vs....
Background & Use Cases 今天進入影片處理的第三個部分——標記音訊中的音樂和語音部分。為什麼標記出這些部分很重要呢?因為這個可以讓許...
我們聊了快 20 天的理論,今天來寫個 code 吧!在讀 Netflix、Spotify、Uber 和各大科技公司的文獻時,發現他們都會不約而同地提到一個 P...
我們昨天認識 Ray 這個神奇套件如果載入跟處理資料,今天來看看模型訓練的部分。 Ray Train 根據官網所述,要了解 Ray Train 的運作方式,要...