聚焦於深度學習在人機互動中的感知應用,包含動作與情緒辨識模型的實作與部署,探討語音、手勢、情緒等輸入如何結合 UI/UX 元件,打造具回饋能力的介面。
Deep Learning 帶來的突破:讓機器主動「理解」 Deep Learning(深度學習),是人工智慧(AI)領域中的一個重要分支。模仿人腦神經網路的結...
前言 回想你第一次使用電腦,是什麼樣的體驗? 也許是打開一台厚重的桌機,用鍵盤輸入文字指令;也許是滑動滑鼠,在桌面上點開視窗;又或者是用手指輕輕一劃,手機螢幕就...
前言 深度學習(Deep Learning)模型百百種——從 CNN、RNN 到 Transformer、GNN,各有其擅長的資料型態與應用場景。在不同的互動情...
前言:當我們開口說話,系統聽得懂嗎? 想像這樣一個場景:你對手機說出「播放音樂」,它立刻理解你的語意並打開播放清單;你說「開燈」,燈就亮起。這一連串的語音互動過...
前言 當語音從「聲音」轉為「理解」,我們該如何設計模型? 如果說 CNN 是語音互動系統的起點,那麼處理時間序列的模型,則是我們邁向「理解語音語意」的重要分水嶺...
前言 當我們說出「開燈」的瞬間,腦中其實已經構築了一個期望 —— 我希望燈亮起來,而不是只是被「聽見」。 這正是語音互動設計的核心:語音不只是輸入,還必須驅動回...
前言 手勢,是人與人訊息傳達時最自然的肢體語言之一。當這些動作能被電腦正確解讀,就能開啟更多元的互動形式,例如虛擬手語翻譯、非接觸式控制、甚至是情緒與意圖識別。...
前言 延續上一篇對手語資料的探索,這次我們將打造一個基於 CNN 的靜態手勢分類模型。將帶你從資料前處理、模型架構設計、訓練策略(包含 Early Stoppi...
前言 上一篇中,我們訓練了一個 CNN 模型,能夠根據靜態手勢圖片辨識出對應的手語字母。但真實世界的互動往往是動態的,例如使用者面對鏡頭比出手勢,期望即時得到辨...
前言 在前幾篇文章中,我們已經成功完成了 Sign Language MNIST 資料集的訓練,並透過 CNN 模型進行手勢分類。接下來會將模型與 MediaP...