課程介紹影像辨識領域是近年來深度學習最蓬勃發展的一塊領域,舉凡智慧家居、自駕車、生產瑕疵品檢測、安防監控、醫療影像等應用,都和深度學習影像辨識技術息息相關。而...
汽車向來是最高檔次的消費產品類,封閉的產業;但當AI人工智慧的演算法和複雜架構因著GPU助長了深度學習的進展,微控制器和opensource的快速經驗複製加速了...
ROS機器人開發實戰 https://www.ittraining.com.tw/ittraining/course/ros-robot/rosAI深度學習與...
一旦巨量數據處理不是桌上的模擬測試場,而是在真實世界物理環境中,就並不單單只是演算法與軟體程式的耗能運作CPU而已,基礎建設設施的適切性,占了很原生的重要地位!...
宅宅駕駛座旁無伊人,莫辜負自幹雙手萬能, 怎沒人響應開源自動駕駛,一起來做沒有人簡介 今年最火紅的話題的就是電腦視覺、深度學習、自動駕駛, 最近最衝擊的兩新聞是...
AlexNet 在 2012 年之前,舉世聞名的 ILSVRC (ImageNet Large Scale Visual Recognition Challen...
人類如何看見世界 在正式進入圖像處理與電腦視覺的領域之前,先來簡單說明「人類如何看見世界」這件事。人類的眼球由數個構造所構成,包含瞳孔 (pupil)、水晶體...
在數位影像的世界裡,影像雜訊是無可避免的問題。無論是來自於光線不足、感光元件的熱雜訊,或是傳輸過程中的失真,雜訊都會降低影像品質。本篇將介紹常見的影像雜訊類型,...
影像分割 當我們想要的,不只是一個粗略的矩形邊界框,而是物體每一個像素級別的精確輪廓,例如精準描繪出腫瘤的位置,這時單靠我們前幾天學的方法已經不敷使用。這時,我...
我們現在已經有能力從一張圖片中,提取出一組代表其結構的「重點座標」。但電腦要如何確定這是「同一個角」,而不是兩個不同的角呢? 描述子 描述子 (descript...
雖然昨天我們知道 VGGNet 在一定程度上有著網路越深、效果越好的特性,但是當研究人員把網路堆疊約 20 層以上時,模型的準確率反而開始下降。這不是過擬合所導...
幾何變換 當我們在兩張圖片中找到了對應的特徵點後,如何計算出一個能將一張圖片「變形」到另一張圖片視角下的矩陣?這個矩陣稱為單應性矩陣 (homography),...
什麼是像素 我們可以想像眼前有一幅馬賽克拼貼畫,它由數萬個彩色磁磚構成,而對於數位影像來說,這些彩色磁磚所指的就是像素 (pixel)。一張數位影像,本質上是由...
ANN 的缺點 雖然 ANN 能夠自動學習特徵,但是他在處理影像時會把二維的圖片攤平成一維的向量,這會造成空間結構資訊的喪失。ANN 沒辦法理解相鄰或上下左右這...
R-CNN 系列演算法都有獲取候選區域這個步驟,然而也是因為分為兩步驟進行,雖然精準,但偵測速度受到了限制。因此另一派演算法選擇拋去這個步驟,最具代表性的模型為...
VAE 雖然能生成多樣化的結果,但其生成的圖片(尤其是複雜圖片)往往比較模糊,缺乏細節。如果我們不追求像素級別的重建,而是以以假亂真為目標,那麼 GAN 就是我...
RANSAC 雖然我們學到 ORB 能自動找到數十甚至上百對的匹配點,但其中不可避免地會包含一些錯誤的匹配。如果我們把這些包含「雜訊」的匹配點全部丟進去計算單應...
昨天我們成功實作了 DCGAN 並用於生成手寫數字,但問題是「我們沒辦法指定 GAN 具體會生成什麼內容」。因此今天將要學習,如何進行可控的生成。 cGAN 條...
過去十幾天,我們所介紹的所有模型,基本上都建立在 CNN 上。CNN 在電腦視覺領域統治了約 10 年之久,但來自自然語言處理 (Natural Languag...
至今我們學習的 VGG、ResNet 等模型,它們的設計目標都是追求極致的準確率。然而,這些模型龐大的參數數量和巨大的計算量,使得它們很難被部署到手機、無人機、...
雖然在過去,GAN 一直都是生成高品質圖片的主流,但他訓練不穩定、模式單一的問題也困擾著許多人。近幾年,一個從熱力學汲取靈感的模型:擴散模型 (diffusio...
雖然我們學會了怎麼用各種不同 CNN 模型來進行圖像辨認,但對他的認識仍停留在黑盒子的階段。模型在做出「這是一隻貓」的決斷時,還是不知道它是依據什麼做判斷的,而...
線性模型 前一天我們學到了最直觀的 KNN 演算法,但他在預測時需要計算與所有訓練樣本的距離,這在數據量大時會變得非常緩慢。它並沒有真正「學習」到一個濃縮的、高...
自編碼器 自編碼器 1(AutoEncoder, AE) 是一種非監督式學習的神經網路,它的訓練目標極其簡單:讓輸出結果 x̂ 與輸入 x 盡可能地完全相同。...
現實中的視覺任務,往往遠比我們前幾天所做的圖像分類還複雜,例如物件偵測:不只要知道圖片有一隻貓,還要知道貓在哪裡。物件偵測的目標是同時在一張圖片完成兩件事...
在鐵人賽倒數兩天,我們稍微把視角轉向 3D 世界。 傳統的 3D 內容創作和渲染,依賴於像網格 (mesh)、體素 (voxel)、點雲 (point clou...
到目前為止,我們所學的所有監督式模型,都是建立在大量高品質的人工標註數據上。這個過程耗時耗力,也限制了模型的應用規模。 我們是否也能讓模型像人類一樣,單純透過觀...
我們昨天學到的擴散模型如 Stable Diffusion,內部必須有一個文本編碼器來理解我們的文字提示 (prompt),並將其作為條件來引導圖像生成。這自然...
機器學習簡介 我們對傳統電腦視覺領域中,基於幾何和梯度的方法論,已經有了非常深入的理解和實踐。這些方法在處理具有明確規則和幾何結構的任務時,表現得非常出色,但如...
從光子到檔案:曝光與影像格式 從按下相機快門的那刻,到變成我們看見的圖片之前,發生了哪些事情? 內部處理流程 在轉換程我們常見的 JPEG 格式前,相機前後基本...