Day 15：聽得懂了！語音轉文字

2025 iThome 鐵人賽

DAY 15

生成式 AI

AI 三十天，哎呀每天都很難：OpenAI API 生存指南系列第 15 篇

17th鐵人賽

nray5268

團隊nutc imac T1

2025-09-29 17:10:08

322 瀏覽

分享至

前面我們玩了文字聊天、Function Calling、FAQ 系統，甚至還讓 AI 說話更自然。
今天要進入 Audio 功能，讓 AI 聽得懂我們說的話！

這就是 Speech-to-Text (STT)，
把一段語音檔轉換成文字。

Step 1：準備一個語音檔

格式可以是 .wav、.mp3、.m4a 等常見音訊檔。
你可以錄一段自己的聲音，接下來是程式碼的部分

import os
from openai import OpenAI
from dotenv import load_dotenv

load_dotenv()
client = OpenAI(api_key=os.getenv("OPENAI_API_KEY"))

# 打開音訊檔
with open("test.wav", "rb") as audio_file:
    transcript = client.audio.transcriptions.create(
        model="gpt-4o-transcribe",  # 語音轉文字模型
        file=audio_file
    )

print("轉換結果：", transcript.text)

譬如說我們錄音個:鐵人賽測試

Whisper 模型會自動偵測語言，不需要指定中文或英文。
例如你錄英文，輸出也會是英文：

除了轉錄文字，還能做：
翻譯（把中文語音翻譯成英文文字）：

transcript = client.audio.translations.create(
    model="gpt-4o-transcribe",
    file=open("test.wav", "rb")
)
print("翻譯結果：", transcript.text)

搭配 Chat。模型語音轉文字再丟進 Chat 模型，就能做「語音對話助理」

今天我們學會了語音轉文字 (STT)：如何讀取音訊檔並轉換成文字Whisper、模型能自動辨識語言還能做翻譯與進階應用。
明天我們要反過來，玩文字轉語音(TTS)，讓 AI 說話！

Day 14：講話更自然！結合 Chat 模型強化 FAQ 系統

會說話了！文字轉語音（Text-to-Speech）

系列文

AI 三十天，哎呀每天都很難：OpenAI API 生存指南共 30 篇

RSS系列文訂閱系列文

1 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19838 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

AI 三十天，哎呀每天都很難：OpenAI API 生存指南系列 第 15 篇