昨天我們學會了 語音轉文字 (STT),讓 AI 聽懂人話。
今天要反過來 —— 讓 AI 開口說話!
這就是 Text-to-Speech (TTS):把一段文字轉換成語音。
一樣先來看程式碼:
import os
from openai import OpenAI
from dotenv import load_dotenv
load_dotenv()
client = OpenAI(api_key=os.getenv("OPENAI_API_KEY"))
text = "大家好,歡迎來到鐵人賽第 16 天,今天 AI 要開始講話了!"
# 輸出成 mp3
with client.audio.speech.with_streaming_response.create(
model="gpt-4o-mini-tts",
voice="alloy", # 可選不同聲音,例如 alloy, verse, sage
input=text
) as response:
response.stream_to_file("output.mp3")
print("已產生語音檔:output.mp3")
執行後會在資料夾生成一個 output.mp3,打開就能聽到 AI 用自然語音把文字念出來
OpenAI 目前提供幾種不同的 voice 參數:
alloy、verse、sage
只要換掉 voice="..." 就能切換。
今天我們成功讓 AI 開口說話:用 TTS 把文字轉成語音、可以選擇不同聲音
能應用在助理、播報、語音服務
明天我們要挑戰 圖片理解。傳一張圖,讓 AI 看圖說故事!