分享至
本次實作將僅展示有關功能實現部份的程式碼及輸出結果~
從圖片擷取文字(Image to Text)這裡我們將使用Groq API實作圖片中文字辨識功能。將圖片以Base64編碼傳入模型。模型識別出圖片中的中英文內容。
語音轉文字(Audio to Text)這裡我們使用OpenAI Whisper模型將語音內容轉換為文字。上傳mp3、wav或m4a檔。選擇欲使用的模型大小(tiny~large)。執行轉錄並輸出結果。
IT邦幫忙