iT邦幫忙

電腦視覺相關文章
共有 33 則文章
鐵人賽 AI & Data DAY 30

技術 Day 30 - 電腦視覺的現在與未來

經過了 30 天的探索,我們從傳統電腦視覺開始,一路學習到最近幾年的架構。在鐵人賽最後一天,簡單介紹一下我們未提及但在現在相當重要的議題。 神經渲染與即時光線追...

鐵人賽 AI & Data DAY 29

技術 Day 29 - NeRF

在鐵人賽倒數兩天,我們稍微把視角轉向 3D 世界。 傳統的 3D 內容創作和渲染,依賴於像網格 (mesh)、體素 (voxel)、點雲 (point clou...

鐵人賽 AI & Data DAY 28

技術 Day 28 - 多模態學習與 CLIP

我們昨天學到的擴散模型如 Stable Diffusion,內部必須有一個文本編碼器來理解我們的文字提示 (prompt),並將其作為條件來引導圖像生成。這自然...

鐵人賽 AI & Data DAY 27

技術 Day 27 - Diffusion Model

雖然在過去,GAN 一直都是生成高品質圖片的主流,但他訓練不穩定、模式單一的問題也困擾著許多人。近幾年,一個從熱力學汲取靈感的模型:擴散模型 (diffusio...

鐵人賽 AI & Data DAY 26

技術 Day 26 - Vision Transformer

過去十幾天,我們所介紹的所有模型,基本上都建立在 CNN 上。CNN 在電腦視覺領域統治了約 10 年之久,但來自自然語言處理 (Natural Languag...

鐵人賽 AI & Data DAY 25

技術 Day 25 – cGAN 與 StyleGAN

昨天我們成功實作了 DCGAN 並用於生成手寫數字,但問題是「我們沒辦法指定 GAN 具體會生成什麼內容」。因此今天將要學習,如何進行可控的生成。 cGAN 條...

鐵人賽 AI & Data DAY 24

技術 Day 24 - GAN

VAE 雖然能生成多樣化的結果,但其生成的圖片(尤其是複雜圖片)往往比較模糊,缺乏細節。如果我們不追求像素級別的重建,而是以以假亂真為目標,那麼 GAN 就是我...

鐵人賽 AI & Data DAY 23

技術 Day 23 - AE 與 VAE

自編碼器 自編碼器 1(AutoEncoder, AE) 是一種非監督式學習的神經網路,它的訓練目標極其簡單:讓輸出結果 x̂ 與輸入 x 盡可能地完全相同。...

鐵人賽 AI & Data DAY 22

技術 Day 22 - 自監督學習與對比學習

到目前為止,我們所學的所有監督式模型,都是建立在大量高品質的人工標註數據上。這個過程耗時耗力,也限制了模型的應用規模。 我們是否也能讓模型像人類一樣,單純透過觀...

鐵人賽 AI & Data DAY 21

技術 Day 21 - 語義分割與實例分割

影像分割 當我們想要的,不只是一個粗略的矩形邊界框,而是物體每一個像素級別的精確輪廓,例如精準描繪出腫瘤的位置,這時單靠我們前幾天學的方法已經不敷使用。這時,我...

鐵人賽 AI & Data DAY 20

技術 Day 20 - 物件偵測(二)YOLO 與 SSD

R-CNN 系列演算法都有獲取候選區域這個步驟,然而也是因為分為兩步驟進行,雖然精準,但偵測速度受到了限制。因此另一派演算法選擇拋去這個步驟,最具代表性的模型為...

鐵人賽 AI & Data DAY 19

技術 Day 19 - 物件偵測(一)R-CNN

現實中的視覺任務,往往遠比我們前幾天所做的圖像分類還複雜,例如物件偵測:不只要知道圖片有一隻貓,還要知道貓在哪裡。物件偵測的目標是同時在一張圖片完成兩件事...

鐵人賽 AI & Data DAY 18

技術 Day 18 - 遷移學習與資料增強

如果我們手上只有數百張貓狗的照片,是沒辦法像前幾天一樣訓練出像 ResNet 這種好的分類器,反而會遇到過擬合的問題。在這種缺乏數據的情況下,我們能用遷移學習...

鐵人賽 AI & Data DAY 17

技術 Day 17 - 卷積神經網路(五)MobileNet

至今我們學習的 VGG、ResNet 等模型,它們的設計目標都是追求極致的準確率。然而,這些模型龐大的參數數量和巨大的計算量,使得它們很難被部署到手機、無人機、...

鐵人賽 AI & Data DAY 16

技術 Day 16 - 卷積神經網路(四)Grad-CAM

雖然我們學會了怎麼用各種不同 CNN 模型來進行圖像辨認,但對他的認識仍停留在黑盒子的階段。模型在做出「這是一隻貓」的決斷時,還是不知道它是依據什麼做判斷的,而...

鐵人賽 AI & Data DAY 15

技術 Day 15 - 卷積神經網路(三) GoogLeNet 與 ResNet

雖然昨天我們知道 VGGNet 在一定程度上有著網路越深、效果越好的特性,但是當研究人員把網路堆疊約 20 層以上時,模型的準確率反而開始下降。這不是過擬合所導...

鐵人賽 AI & Data DAY 14

技術 Day 14 – 卷積神經網路(二) AlexNet 與 VGG

AlexNet 在 2012 年之前,舉世聞名的 ILSVRC (ImageNet Large Scale Visual Recognition Challen...

鐵人賽 AI & Data DAY 13

技術 Day 13 - 卷積神經網路(一) CNN 入門

ANN 的缺點 雖然 ANN 能夠自動學習特徵,但是他在處理影像時會把二維的圖片攤平成一維的向量,這會造成空間結構資訊的喪失。ANN 沒辦法理解相鄰或上下左右這...

鐵人賽 AI & Data DAY 11

技術 Day 11 - 機器學習初探(二) HOG 與 SVM

線性模型 前一天我們學到了最直觀的 KNN 演算法,但他在預測時需要計算與所有訓練樣本的距離,這在數據量大時會變得非常緩慢。它並沒有真正「學習」到一個濃縮的、高...

鐵人賽 AI & Data DAY 10

技術 Day 10 - 機器學習初探(一) KNN

機器學習簡介 我們對傳統電腦視覺領域中,基於幾何和梯度的方法論,已經有了非常深入的理解和實踐。這些方法在處理具有明確規則和幾何結構的任務時,表現得非常出色,但如...

鐵人賽 AI & Data DAY 9

技術 Day 9 – RANSAC 與全景照片

RANSAC 雖然我們學到 ORB 能自動找到數十甚至上百對的匹配點,但其中不可避免地會包含一些錯誤的匹配。如果我們把這些包含「雜訊」的匹配點全部丟進去計算單應...

鐵人賽 AI & Data DAY 8

技術 Day 8 - 從匹配到變換

幾何變換 當我們在兩張圖片中找到了對應的特徵點後,如何計算出一個能將一張圖片「變形」到另一張圖片視角下的矩陣?這個矩陣稱為單應性矩陣 (homography),...

鐵人賽 AI & Data DAY 6

技術 Day 6 - 特徵工程(二) SIFT、SURF 與 ORB

我們現在已經有能力從一張圖片中,提取出一組代表其結構的「重點座標」。但電腦要如何確定這是「同一個角」,而不是兩個不同的角呢? 描述子 描述子 (descript...

鐵人賽 AI & Data DAY 5

技術 Day 5 - 特徵工程(一) 影像的關鍵點

特徵工程 如果我們要跟一個沒見過貓的朋友敘述貓的長相,我們正常不會說「他左上的第一個像素顏色是什麼」,而是敘述他的眼睛、耳朵、尾巴長怎麼樣。對電腦來說,讓他主動...

鐵人賽 AI & Data DAY 4

技術 Day 4 - 圖片雜訊與濾波

在數位影像的世界裡,影像雜訊是無可避免的問題。無論是來自於光線不足、感光元件的熱雜訊,或是傳輸過程中的失真,雜訊都會降低影像品質。本篇將介紹常見的影像雜訊類型,...

鐵人賽 AI & Data DAY 3

技術 Day 3 - 曝光與直方圖

從光子到檔案:曝光與影像格式 從按下相機快門的那刻,到變成我們看見的圖片之前,發生了哪些事情? 內部處理流程 在轉換程我們常見的 JPEG 格式前,相機前後基本...

鐵人賽 AI & Data DAY 2

技術 Day 2 - 像素與色彩空間

什麼是像素 我們可以想像眼前有一幅馬賽克拼貼畫,它由數萬個彩色磁磚構成,而對於數位影像來說,這些彩色磁磚所指的就是像素 (pixel)。一張數位影像,本質上是由...

鐵人賽 AI & Data DAY 1

技術 Day 1 - 人類與電腦視覺入門

人類如何看見世界 在正式進入圖像處理與電腦視覺的領域之前,先來簡單說明「人類如何看見世界」這件事。人類的眼球由數個構造所構成,包含瞳孔 (pupil)、水晶體...

活動 【AI電腦視覺課程】AI深度學習與影像辨識 ─ 影像預處理到深度學習CNN應用

課程介紹影像辨識領域是近年來深度學習最蓬勃發展的一塊領域,舉凡智慧家居、自駕車、生產瑕疵品檢測、安防監控、醫療影像等應用,都和深度學習影像辨識技術息息相關。而...

活動 [分享] 4大門技術課程,貼近AI與機器人的明天

ROS機器人開發實戰 https://www.ittraining.com.tw/ittraining/course/ros-robot/rosAI深度學習與...