會說話了！文字轉語音（Text-to-Speech）

2025 iThome 鐵人賽

DAY 16

生成式 AI

AI 三十天，哎呀每天都很難：OpenAI API 生存指南系列第 16 篇

17th鐵人賽

nray5268

團隊nutc imac T1

2025-09-30 17:02:23

340 瀏覽

分享至

昨天我們學會了 語音轉文字 (STT)，讓 AI 聽懂人話。
今天要反過來 —— 讓 AI 開口說話！
這就是 Text-to-Speech (TTS)：把一段文字轉換成語音。

一樣先來看程式碼:

import os
from openai import OpenAI
from dotenv import load_dotenv

load_dotenv()
client = OpenAI(api_key=os.getenv("OPENAI_API_KEY"))

text = "大家好，歡迎來到鐵人賽第 16 天，今天 AI 要開始講話了！"

# 輸出成 mp3
with client.audio.speech.with_streaming_response.create(
    model="gpt-4o-mini-tts",
    voice="alloy",   # 可選不同聲音，例如 alloy, verse, sage
    input=text
) as response:
    response.stream_to_file("output.mp3")

print("已產生語音檔：output.mp3")

執行後會在資料夾生成一個 output.mp3，打開就能聽到 AI 用自然語音把文字念出來

OpenAI 目前提供幾種不同的 voice 參數：
alloy、verse、sage
只要換掉 voice="..." 就能切換。

今天我們成功讓 AI 開口說話:用 TTS 把文字轉成語音、可以選擇不同聲音
能應用在助理、播報、語音服務

明天我們要挑戰圖片理解。傳一張圖，讓 AI 看圖說故事！