DAY30：多模態資料處理實作 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

0

DAY30：多模態資料處理實作

學習筆記

妤 2025-10-28 12:17:04 ‧ 638 瀏覽

分享至

本次實作將僅展示有關功能實現部份的程式碼及輸出結果~

從圖片擷取文字（Image to Text）
這裡我們將使用Groq API實作圖片中文字辨識功能。
將圖片以Base64編碼傳入模型。
模型識別出圖片中的中英文內容。
語音轉文字（Audio to Text）
這裡我們使用OpenAI Whisper模型將語音內容轉換為文字。
上傳mp3、wav或m4a檔。
選擇欲使用的模型大小（tiny～large）。
執行轉錄並輸出結果。

熱門推薦

{{ item.subject }}

{{ item.channelVendor }} | {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

參賽組數

0 組

團體組數

0 組

累計文章數

0 篇

最後報名日

9/15

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

ChatGPT Business & Codex 如何從零開始?

IT邦幫忙