iT邦幫忙

0

DAY30:多模態資料處理實作

2025-10-28 12:17:04127 瀏覽
  • 分享至 

  • xImage
  •  

本次實作將僅展示有關功能實現部份的程式碼及輸出結果~

  1. 從圖片擷取文字(Image to Text)
    這裡我們將使用Groq API實作圖片中文字辨識功能。
    將圖片以Base64編碼傳入模型。
    模型識別出圖片中的中英文內容。
    https://ithelp.ithome.com.tw/upload/images/20251028/20169372oD2AakRJ8u.png
    https://ithelp.ithome.com.tw/upload/images/20251028/201693723cHzATmo8e.png

  2. 語音轉文字(Audio to Text)
    這裡我們使用OpenAI Whisper模型將語音內容轉換為文字。
    上傳mp3、wav或m4a檔。
    選擇欲使用的模型大小(tiny~large)。
    執行轉錄並輸出結果。
    https://ithelp.ithome.com.tw/upload/images/20251028/20169372X6Vu9LkiBd.png
    https://ithelp.ithome.com.tw/upload/images/20251028/20169372Hyab71Bghe.png


圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言