章節六：多模態輸入區塊

2025 iThome 鐵人賽

DAY 6

Mobile Development

設計AI新介面UI行動應用系列第 6 篇

17th鐵人賽

因田木

2025-08-06 00:10:33

295 瀏覽

分享至

一、AI新介面為何追求多模態輸入？

隨著人工智慧發展進入跨模態（Multi-modal）時代，現代行動應用的互動不再局限於單一文字欄。用戶需求日趨多元：「我想語音輸入」、「我要拍照問問題」、「複製圖片直接查資料」已成為日常。多模態輸入區塊自然成為AI新介面的核心亮點——它融合語音、文字、圖片等輸入方式，打造高彈性、身歷其境的互動體驗。
多模態的價值
• 體驗直觀化：不同情境下提供最佳輸入方式（如開車語音、旅遊拍照）。
• 資料豐富度提升：圖像＋文字組合，加強AI理解真實語境。
• 無障礙設計：適應視覺/聽覺需求，支援多元族群。

二、國際AI多模態輸入與應用現況

2025年，AI行動應用已普遍支援多模態操作：
• Google Gemini/Gemma系列：原生支援語音、影像、影片與文字，可跨模態理解、推理和創建內容，並瞬間於不同來源取得洞察。
• OpenAI ChatGPT等模型：允許用戶語音輸入指令、上傳圖片提問，並可即時口語輸出回應，應用案例涵蓋智慧助理、客服、學習等。
• 醫療、旅遊、教育領域：多模態AI協助圖文影解讀，實現文字→影像說明或影像描述→自動生成指令等功能。

三、多模態輸入區塊的設計要素

3.1 元件構成

3.2 核心設計流程
1. 感知需求選單：依用戶操作場景直覺呈現「語音」、「拍照」、「文字」等入口按鈕。
2. 即時反饋與提示：語音輸入須顯示錄音動畫、文字流轉，圖片上傳有預覽框/刪除鍵。
3. 多模態資料串流管理：將影像、語音或複合資料轉為標準API格式送往後端AI。
4. 臨場偵錯容錯：語音轉文字辨識錯誤時可一鍵改回、圖片解析失敗有錯誤提示。
5. 回饋融合呈現：AI答案以「語音/文字/圖像」等最佳方式一目了然回饋用戶。

四、日常應用案例解析：以perplexity.ai為例

4.1 用戶需求情境
• 文字+圖片提問：用戶針對旅遊景點拍照，上傳同時補充疑問文字，要求AI提供該地點故事。
• 語音查詢：使用者用語音發指令：「今天下午台北有什麼戲劇表演？」AI直接轉換文字解答。
• 圖片智能辨識：拍下路邊植物詢問名稱，AI根據圖片分析提供物種資料。
• 多語言語音互譯：錄音外語對話音檔，AI瞬間翻譯顯示於文字欄並語音播放。
4.2 跨模態互動流程
1. 進入多模態輸入區，預設為文字框，旁有麥克風與照相機圖標。
2. 點麥克風：開始錄音，流程動畫顯示中，錄畢自動轉換為文字顯示於欄位。
3. 點照相機：選拍照或上傳現有圖片，預覽圖即時顯示，有移除功能。
4. 用戶選擇一種或多種資料（如圖＋文），按「送出」呼叫AI。
5. AI回覆區顯示文字解答，若有圖片說明則會附加圖片。

五、AI多模態輸入對行動應用帶來的革新

5.1 能力進化與產業典範
• 用戶不再受單一輸入形式限制——「想說就說、想拍就拍」。
• AI系統像人腦感官般同時整合各種資料源，推理更細膩完整。
• 醫療、零售、教育等產業採用圖文音等全融互動，精準解決複雜跨領域問題。
5.2 技術挑戰與實務考量
• 前端需支援各種多媒體按鈕、動畫與預覽機制。
• 語音輸入的語音模型需高準確與多語種支援，影像則關注光線、拍攝品質對辨識率影響。
• 安全與隱私須防堵多媒體資料之不當分享。

六、B4A語言多模態輸入範例（章末程式）

（以下為B4A設計簡易多模態輸入UI，供學習實作參考）

Sub Process_Globals
End Sub

Sub Globals
    Private edtText As EditText
    Private btnSend As Button
    Private btnRecord As Button
    Private btnPickImg As Button
    Private imgPreview As ImageView
    Private lblAIResp As Label
End Sub

Sub Activity_Create(FirstTime As Boolean)
    Activity.LoadLayout("Main")
    btnSend.Text = "送出"
    btnRecord.Text = "語音"
    btnPickImg.Text = "上傳圖片"
    imgPreview.Bitmap = Null
    lblAIResp.Text = ""
End Sub

Sub btnRecord_Click
    ' 語音錄音並轉文字（需相應語音API串接）
    Msgbox("進行語音錄音...","提示")
End Sub

Sub btnPickImg_Click
    ' 開啟圖片選擇（需依B4A API調用檔案瀏覽/拍照）
    Msgbox("圖片選擇/拍照功能呼叫中...","提醒")
End Sub

Sub btnSend_Click
    Dim askText As String = edtText.Text
    ' 此處整合文字、語音、圖片送往AI端點進行多模態理解
    lblAIResp.Text = "已送出: " & askText & " [多模態內容已提交AI分析]"
End Sub

【說明】本範例於B4A Designer預設拖曳新增元件，btnRecord模擬語音輸入，btnPickImg模擬圖片上傳，btnSend實際組合後送往AI。實務專案可再串接第三方語音/影像API、設計多線程回饋動畫、進階圖片預覽等。

七、小結與行業展望

1. 多模態輸入是現代AI介面的必然進化，可廣泛支援語音、圖片、文字等互動模式。
2. 人性化UX設計不可或缺，適時給用戶最便利的輸入選項。
3. B4A可藉本章邏輯迅速開發多模態UI原型，再一步步整合AI雲端API或本機推論功能。
4. 展望未來，多模態AI將解放行動裝置的互動界限，帶來更智慧也更貼近使用者的生活體驗。

【建議】學習多模態輸入設計，最佳方式為多實作、多迭代。無論開發遊戲、醫療、教育或智慧助理，善用B4A直覺化設計和程式框架，就能打造出屬於你的智能新世代App。