iT邦幫忙

鐵人檔案

2025 iThome 鐵人賽
回列表
AI & Data

從0開始:傳統圖像處理到深度學習模型 系列

逐步介紹基礎圖像處理與電腦視覺的領域,到近現代常見的機器學習模型於相關領域的應用。

鐵人鍊成 | 共 30 篇文章 | 6 人訂閱 訂閱系列文 RSS系列文
DAY 21

Day 21 - 語義分割與實例分割

影像分割 當我們想要的,不只是一個粗略的矩形邊界框,而是物體每一個像素級別的精確輪廓,例如精準描繪出腫瘤的位置,這時單靠我們前幾天學的方法已經不敷使用。這時,我...

2025-08-31 ‧ 由 hibiki 分享
DAY 22

Day 22 - 自監督學習與對比學習

到目前為止,我們所學的所有監督式模型,都是建立在大量高品質的人工標註數據上。這個過程耗時耗力,也限制了模型的應用規模。 我們是否也能讓模型像人類一樣,單純透過觀...

2025-09-01 ‧ 由 hibiki 分享
DAY 23

Day 23 - AE 與 VAE

自編碼器 自編碼器 1(AutoEncoder, AE) 是一種非監督式學習的神經網路,它的訓練目標極其簡單:讓輸出結果 x̂ 與輸入 x 盡可能地完全相同。...

2025-09-02 ‧ 由 hibiki 分享
DAY 24

Day 24 - GAN

VAE 雖然能生成多樣化的結果,但其生成的圖片(尤其是複雜圖片)往往比較模糊,缺乏細節。如果我們不追求像素級別的重建,而是以以假亂真為目標,那麼 GAN 就是我...

2025-09-03 ‧ 由 hibiki 分享
DAY 25

Day 25 – cGAN 與 StyleGAN

昨天我們成功實作了 DCGAN 並用於生成手寫數字,但問題是「我們沒辦法指定 GAN 具體會生成什麼內容」。因此今天將要學習,如何進行可控的生成。 cGAN 條...

2025-09-04 ‧ 由 hibiki 分享
DAY 26

Day 26 - Vision Transformer

過去十幾天,我們所介紹的所有模型,基本上都建立在 CNN 上。CNN 在電腦視覺領域統治了約 10 年之久,但來自自然語言處理 (Natural Languag...

2025-09-05 ‧ 由 hibiki 分享
DAY 27

Day 27 - Diffusion Model

雖然在過去,GAN 一直都是生成高品質圖片的主流,但他訓練不穩定、模式單一的問題也困擾著許多人。近幾年,一個從熱力學汲取靈感的模型:擴散模型 (diffusio...

2025-09-06 ‧ 由 hibiki 分享
DAY 28

Day 28 - 多模態學習與 CLIP

我們昨天學到的擴散模型如 Stable Diffusion,內部必須有一個文本編碼器來理解我們的文字提示 (prompt),並將其作為條件來引導圖像生成。這自然...

2025-09-07 ‧ 由 hibiki 分享
DAY 29

Day 29 - NeRF

在鐵人賽倒數兩天,我們稍微把視角轉向 3D 世界。 傳統的 3D 內容創作和渲染,依賴於像網格 (mesh)、體素 (voxel)、點雲 (point clou...

2025-09-08 ‧ 由 hibiki 分享
DAY 30

Day 30 - 電腦視覺的現在與未來

經過了 30 天的探索,我們從傳統電腦視覺開始,一路學習到最近幾年的架構。在鐵人賽最後一天,簡單介紹一下我們未提及但在現在相當重要的議題。 神經渲染與即時光線追...

2025-09-09 ‧ 由 hibiki 分享