iT邦幫忙

2025 iThome 鐵人賽

DAY 10
0
佛心分享-IT 人自學之術

我的IT花園漫遊系列 第 12

今天來個課程分享:聽李飛飛教授講故事:原來電腦視覺是這樣來的!

  • 分享至 

  • xImage
  •  

Yes

目錄 (Table of Contents)


筆記 (一):電腦視覺的歷史、演進與深度學習革命

1. 基本資訊區塊

  • 課程單元/章節名稱: 電腦視覺的歷史、演進與深度學習革命
  • 講師: 李飛飛 (Fei-Fei Li),史丹佛大學電腦科學系教授
  • 授課時間/平台: 2025年9月3日 / Stanford CS231N 課程
  • 關鍵字:
    • 核心領域: 電腦視覺 (Computer Vision), 深度學習 (Deep Learning), 人工智慧 (AI)
    • 歷史事件: 寒武紀大爆發 (Cambrian Explosion), AI 寒冬 (AI Winter), ImageNet 挑戰賽
    • 關鍵技術/模型: 神經網路 (Neural Networks), 感受野 (Receptive Fields), 反向傳播 (Backpropagation), 卷積神經網路 (CNN), AlexNet
    • 重要人物: Hubel & Wiesel, David Marr, Geoffrey Hinton, Yann LeCun

2. 內容摘要與知識點區塊

單元核心:從生物演化到 AI 革命的宏觀視角

本單元由李飛飛教授主講,旨在為電腦視覺與深度學習提供一個宏大的歷史背景與哲學思考。課程從生命的起源談起,一路追溯至當代 AI 的技術爆發,強調了理解「為何如此」與「如何達成」同等重要。

第一部分:視覺的起源與重要性

  • 視覺是智慧的基石: 課程開宗明義地指出,視覺不僅是 AI 的一個分支,更是智慧的基礎。

    視覺不僅是智慧的一部分,更是智慧的基石。解開視覺智慧的奧秘,就是解開智慧本身的奧秘。

  • 生物演化中的視覺: 追溯至五億四千萬年前的「寒武紀大爆發」,將物種的快速演化歸因於「眼睛」的出現。視覺的誕生使得生物從被動的代謝者轉變為主動的環境參與者,從而驅動了智慧的演進。
  • 人類與視覺: 人類是高度依賴視覺的動物,大腦超過一半的神經元參與視覺處理,凸顯了研究視覺智慧的根本重要性。

第二部分:電腦視覺的早期探索 (1950s - 1990s)

  • 神經科學的啟發 (1950s):
    • Hubel & Wiesel 的實驗: 透過研究貓的視覺路徑,發現了兩個奠基性的概念:
      1. 感受野 (Receptive Fields): 初級視覺皮層的神經元只對特定區域的簡單模式(如特定方向的邊緣)有反應。
      2. 分層處理 (Hierarchical Processing): 視覺訊號在傳遞過程中,由簡單特徵(邊緣)逐層組合成更複雜的概念(角落、物體)。
    • 此研究不僅贏得諾貝爾獎,更為後來神經網路的架構設計提供了生物學基礎。
  • 電腦視覺的誕生 (1960s-1970s):
    • Larry Roberts (1963): 發表了第一篇電腦視覺博士論文,專注於從 2D 圖像理解 3D 形狀。
    • David Marr (1970s): 系統性地提出了視覺處理的三層次理論:
      1. 原始簡圖 (Primal Sketch): 提取邊緣、輪廓等基本特徵。
      2. 2.5D 簡圖: 區分物體的深度與表面方向。
      3. 3D 模型: 重建完整的物體三維結構。
    • 不適定問題 (Ill-posed Problem): 從 2D 圖像恢復 3D 世界在數學上是個根本性的難題。大自然的解決方案是演化出多個眼睛(立體視覺)。
  • AI 寒冬與持續的研究: 儘管早期過於樂觀的預測未能實現,導致 AI 領域進入寒冬,但認知神經科學的研究仍在進行,並指明了「自然場景中的物體辨識」是電腦視覺應解決的核心問題。

第三部分:深度學習的醞釀與爆發 (1980s - 2012)

  • 深度學習的平行發展: 在電腦視覺主流之外,另一條關於人工神經網路的研究線路也在發展。
    • Neocognitron: 日本科學家福島邦彥受到 Hubel & Wiesel 的啟發,手動設計了一個類似生物視覺路徑的多層神經網路。
    • 反向傳播 (Backpropagation, 1986): 由 Hinton 等人提出的關鍵演算法,提供了一種自動、高效地調整網路參數的方法,是神經網路從理論走向實用的核心突破。
    • 卷積神經網路 (CNN): Yann LeCun 利用反向傳播開發了 CNN,成功應用於手寫數字辨識,但受限於當時的數據量與計算能力,無法處理更複雜的問題。
  • 轉捩點:數據、演算法與算力的融合
    • 數據的重要性: 21世紀初,網際網路與數位相機的普及帶來了前所未有的海量數據。李飛飛教授的團隊意識到數據是解鎖 AI 潛能的關鍵。
    • ImageNet 計畫: 團隊創建了包含超過 1500 萬張標記圖像的龐大數據集 ImageNet,並發起了 ILSVRC 挑戰賽,為領域提供了一個標準化的競技場。
    • 2012 - AlexNet 時刻: Geoffrey Hinton 的團隊使用一個名為 AlexNet 的深度卷積神經網路參賽,將辨識錯誤率大幅降低近一半。

      這個時刻被廣泛認為是現代AI的重生和深度學習革命的開端。

    • 成功的三大支柱: AlexNet 的成功標誌著三大力量的匯流:
      1. 先進的演算法 (CNN + 反向傳播)
      2. 大規模的數據 (ImageNet)
      3. 強大的計算能力 (GPU)

第四部分:當代 AI 的現狀與反思

  • 技術的飛躍: 2012 年後,AI 進入爆發期,能力從圖像分類擴展到偵測、分割、生成等更複雜的任務。
  • 社會責任與倫理:
    • 偏見問題: AI 演算法會學習並放大訓練數據中存在的人類偏見。
    • 社會影響: AI 的應用是雙面刃,在醫療等領域有巨大潛力的同時,也帶來了倫理挑戰。這需要跨學科的共同努力來應對。
  • 未來的挑戰: 儘管 AI 成就斐然,但在細膩度、複雜性、情感理解等方面,與人類視覺仍有巨大差距,這也是未來研究的動力。

3. 知識深化與應用區塊

  • 核心方法論分析:
    • 歷史視角的重要性: 課程強調,理解一個領域的歷史,才能明白為何某些技術會成為主流,以及它們的內在邏輯與局限性。例如,理解了 Hubel & Wiesel 的研究,才能明白 CNN 中卷積層與分層架構的設計初衷。
    • 視覺與語言的本質差異: 講師特別點出,視覺處理的是一個物理存在的 3D 世界在 2D 平面上的投影(不適定問題),而語言是人類大腦生成的 1D 序列資訊。這個根本差異決定了兩者在模型架構和處理方式上的不同,也解釋了為何針對語言的 LLM 和針對視覺的模型有不同的發展路徑。
  • 學習與實作策略:
    • 三大要素的思維模型: 在思考任何深度學習問題時,都應從「演算法、數據、算力」這三個維度進行分析。一個問題的瓶頸可能來自其中任何一環。
    • 問題驅動的研究: 電腦視覺的發展歷程顯示,專注於解決一個核心且有價值的問題(如物體辨識),能夠帶動整個領域的技術突破。
  • 領域趨勢與延伸方向:
    • 生成式 AI: 課程結尾提及的 DALL-E 等模型,代表了從「辨識」到「創造」的範式轉移,是當前電腦視覺最前沿的方向之一。
    • AI 倫理與治理: 隨著技術的普及,如何確保 AI 的公平性、透明性與可靠性,已成為與技術本身同等重要的研究課題。

4. 學習價值與反思區塊

  • 獨特價值與學習亮點:
    • 本單元最大的亮點在於其宏大的敘事格局。它不僅僅是技術的羅列,而是將電腦視覺的發展巧妙地融入生物演化、神經科學和科技史的脈絡中,賦予了冰冷的技術深刻的意義與溫度。
    • 李飛飛教授以親歷者(ImageNet 計畫主導者)的視角,分享了引爆深度學習革命的關鍵洞察,極具說服力與啟發性。
  • 對 AI 領域學習的意義:
    • 對於初學者,這堂課提供了一個完美的入門鳥瞰圖,讓人們明白自己所學的知識從何而來,未來將往何處去。
    • 對於有經驗的從業者,這是一次回顧初心的旅程,提醒我們數據的重要性、跨學科啟發的價值,以及身為技術創造者應肩負的社會責任。
  • 個人啟發與應用潛力:
    • 跨領域思考: 生物學和神經科學曾為電腦視覺帶來了根本性的啟發,這鼓勵我們在解決工程問題時,可以從自然界或其他學科中尋找靈感。
    • 數據為王: ImageNet 的故事雄辯地證明,在演算法之外,高質量的、大規模的數據是推動 AI 發展的核心燃料。在任何 AI 專案中,數據策略都應被置於核心位置。
    • 技術的溫度: 課程最後回歸到 AI 的應用與倫理,提醒我們技術的最終目標是服務於人。無論是開發何種應用,都應思考其潛在的社會影響,致力於創造有益的、負責任的 AI。

筆記 (二):CS231N 課程結構與核心主題概覽

1. 基本資訊區塊

  • 課程單元/章節名稱: CS231N 課程結構與核心主題概覽
  • 講師: Ehsan Adeli,史丹佛大學教授
  • 授課時間/平台: 2025年9月3日 / Stanford CS231N 課程
  • 關鍵字:
    • 課程結構: 深度學習基礎, 理解視覺世界, 生成式與互動式智慧, 以人為本的應用
    • 核心任務: 圖像分類, 物件偵測, 語義分割, 實例分割, 影片分類
    • 核心模型: 線性分類器, CNN, RNN, Transformer, 擴散模型, 視覺語言模型
    • 進階主題: 自監督學習, 3D 視覺, 具身智能 (Embodied AI)

2. 內容摘要與知識點區塊

單元核心:CS231N 課程的學習地圖

本單元由 Ehsan Adeli 教授主講,旨在清晰地勾勒出整個 CS231N 課程的知識體系與學習路徑。內容從最基礎的概念開始,逐步延伸至當前電腦視覺領域最前沿的技術與應用。

課程四大核心主題

本課程的內容被劃分為四個循序漸進的模組:

1. 深度學習基礎 (Deep Learning Basics)

  • 起點: 從最核心、最基礎的圖像分類 (Image Classification) 任務開始。

    給定一張貓的圖片,模型要能輸出「貓」這個標籤。

  • 基礎模型: 介紹線性分類器 (Linear Classifiers),並解釋其局限性。
  • 核心概念: 引入神經網路 (Neural Networks) 作為解決非線性問題的強大工具。

2. 理解視覺世界 (Understanding the Visual World)

  • 任務升級: 從單一標籤的分類,擴展到對圖像更細緻、更深入的理解。
  • 核心視覺任務詳解:
    • 語義分割 (Semantic Segmentation): 其目標是為圖像中的每個像素標記其所屬類別(如草、樹、天空),輸出形式為像素級的類別圖。
    • 物件偵測 (Object Detection): 其目標是識別圖像中有哪些物體,並標出它們的位置,輸出形式為帶有類別標籤的邊界框 (Bounding Box)。
    • 實例分割 (Instance Segmentation): 結合前兩者,目標是精確地標出每一個物體實例的輪廓,輸出形式為每個物體的獨立遮罩 (Mask)。
  • 處理動態世界: 引入影片分類 (Video Classification)多模態理解 (Multimodal Understanding)(如結合視覺與聲音)。
  • 核心模型架構: 深入研究支撐這些任務的關鍵模型,包括 CNNs, RNNs, 以及 Transformers

3. 生成式與互動式視覺智慧 (Generative & Interactive Visual Intelligence)

  • 學習範式的轉變:
    • 自監督學習 (Self-Supervised Learning): 介紹如何利用海量無標籤數據進行模型預訓練,這是訓練大規模模型的關鍵技術。
  • 從辨識到創造:
    • 生成模型 (Generative Models): 探討如何生成全新的視覺內容,例如風格轉換 (Style Transfer)
    • 擴散模型 (Diffusion Models): 介紹當前最先進的圖像生成技術。
    • 實作連結: 課程作業三將要求學生親手實現一個根據文字提示生成表情符號的擴散模型。
  • 前沿應用:
    • 視覺語言模型 (Vision-Language Models): 探討如何連結文字與圖像,實現跨模態的理解與生成。
    • 3D 視覺 (3D Vision): 從 2D 圖像重建和理解 3D 世界。
    • 具身智能 (Embodied Agents): 將視覺賦能給機器人等實體,使其能夠在物理世界中感知、規劃和行動。

4. 以人為本的應用與啟示 (Human-Centered Applications & Implications)

  • 回歸社會價值: 探討電腦視覺技術的社會影響、倫理問題以及以人為本的應用方向。
  • 領域認可: 強調深度學習領域的貢獻已獲得學術界最高榮譽的認可(如圖靈獎、諾貝爾獎)。

課程學習目標

  • 能夠將實際的視覺應用問題,形式化為標準的電腦視覺任務。
  • 具備開發和訓練視覺模型(如 CNN)的能力。
  • 深入理解電腦視覺領域的技術現狀與未來發展趨勢

3. 知識深化與應用區塊

  • 核心方法論分析:
    • 由淺入深的課程設計: 課程結構遵循了認知規律,從最簡單、最核心的「分類」問題入手,建立起神經網路的基本概念後,再逐步將問題複雜化,引入「定位」、「分割」、「生成」等更高級的任務。
    • 任務與模型的對應關係: 課程清晰地展示了不同的「視覺任務」需要不同的「模型架構」來解決。例如,處理序列性的影片數據需要 RNN,而 Transformer 則在捕捉全域依賴關係上表現優異。
  • 學習與實作策略:
    • 打好基礎: 講師特別強調,前幾週的基礎知識(線性分類器、神經網路原理)至關重要,是理解後續所有進階內容的基石。
    • 理論與實踐結合: 課程不僅僅是理論講授,還透過具體的程式作業(如實現生成模型)來鞏固學習成果,讓學生具備動手解決問題的能力。
  • 領域趨勢與延伸方向:
    • 大規模模型訓練: 課程新增了關於大規模分散式訓練的內容,直接回應了當前業界(如訓練 LLM、大型視覺模型)的迫切需求。
    • 多模態與 3D 視覺: 課程內容涵蓋了視覺語言模型和 3D 視覺,這代表了電腦視覺正從 2D 圖像理解走向更豐富、更接近真實世界的多模態和三維感知。
    • 互動與決策: 具身智能 (Embodied AI) 的加入,標誌著視覺不僅僅是用於「看」,更是為了「行動」和「決策」,是 AI 與物理世界互動的關鍵。

4. 學習價值與反思區塊

  • 獨特價值與學習亮點:
    • 本單元提供了一張極其清晰和全面的學習地圖。它不僅告訴學生「要學什麼」,更解釋了「為什麼要這樣學」,將零散的知識點串聯成一個有機的整體。
    • 課程內容與時俱進,涵蓋了從經典 CNN 到最新的擴散模型、Transformer 等前沿技術,確保學生所學知識與當前學術界和工業界的需求保持同步。
  • 對 AI 領域學習的意義:
    • 這份課程大綱本身就是一份電腦視覺領域的核心知識圖譜。對於任何想系統性學習電腦視覺的人來說,這都是一個絕佳的學習框架,可以幫助建立起對該領域的宏觀認知。
    • 它展示了一個理想的學習路徑:先掌握基礎,再深入核心任務,最後探索前沿應用,對於規劃個人學習計畫非常有幫助。
  • 個人啟發與應用潛力:
    • 任務導向的學習: 在學習一個新模型時,可以反思「這個模型是為了解決什麼樣的視覺任務而被設計出來的?」這種以任務為導向的思考方式有助於更深入地理解技術的本質。
    • 應用潛力廣泛: 課程中提到的每一項技術(物件偵測、實例分割、3D 視覺等)都直接對應著巨大的產業應用,如自動駕駛、醫療影像分析、AR/VR、智慧製造等。這份大綱就像一個應用寶庫的目錄,激發人們思考如何將所學技術應用於解決真實世界的問題。

上一篇
ISO 27001:2022 Lead Auditor Day 5 實戰筆記
下一篇
AI 輔助生活案例:一個小小實驗的完整故事
系列文
我的IT花園漫遊18
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言