影像分割 當我們想要的,不只是一個粗略的矩形邊界框,而是物體每一個像素級別的精確輪廓,例如精準描繪出腫瘤的位置,這時單靠我們前幾天學的方法已經不敷使用。這時,我...
到目前為止,我們所學的所有監督式模型,都是建立在大量高品質的人工標註數據上。這個過程耗時耗力,也限制了模型的應用規模。 我們是否也能讓模型像人類一樣,單純透過觀...
自編碼器 自編碼器 1(AutoEncoder, AE) 是一種非監督式學習的神經網路,它的訓練目標極其簡單:讓輸出結果 x̂ 與輸入 x 盡可能地完全相同。...
VAE 雖然能生成多樣化的結果,但其生成的圖片(尤其是複雜圖片)往往比較模糊,缺乏細節。如果我們不追求像素級別的重建,而是以以假亂真為目標,那麼 GAN 就是我...
昨天我們成功實作了 DCGAN 並用於生成手寫數字,但問題是「我們沒辦法指定 GAN 具體會生成什麼內容」。因此今天將要學習,如何進行可控的生成。 cGAN 條...
過去十幾天,我們所介紹的所有模型,基本上都建立在 CNN 上。CNN 在電腦視覺領域統治了約 10 年之久,但來自自然語言處理 (Natural Languag...
雖然在過去,GAN 一直都是生成高品質圖片的主流,但他訓練不穩定、模式單一的問題也困擾著許多人。近幾年,一個從熱力學汲取靈感的模型:擴散模型 (diffusio...
我們昨天學到的擴散模型如 Stable Diffusion,內部必須有一個文本編碼器來理解我們的文字提示 (prompt),並將其作為條件來引導圖像生成。這自然...
在鐵人賽倒數兩天,我們稍微把視角轉向 3D 世界。 傳統的 3D 內容創作和渲染,依賴於像網格 (mesh)、體素 (voxel)、點雲 (point clou...
經過了 30 天的探索,我們從傳統電腦視覺開始,一路學習到最近幾年的架構。在鐵人賽最後一天,簡單介紹一下我們未提及但在現在相當重要的議題。 神經渲染與即時光線追...