[DAY 27] Azure Speech 是什麼？

2024 iThome 鐵人賽

DAY 27

自我挑戰組

三十天自學計畫：從零開始學 Azure系列第 27 篇

16th鐵人賽

妤

團隊泡泡糖

2024-10-11 11:34:11

1036 瀏覽

分享至

Azure Speech 是 Microsoft Azure 提供的一個語音服務平台，旨在為應用程式提供語音處理能力。它能夠進行語音識別、語音合成、語音翻譯等多種語音相關的任務。Azure Speech 使用了先進的人工智能和機器學習技術，幫助開發者將語音功能無縫集成到各種應用中，讓語音識別、語音合成和語音翻譯等技術變得觸手可及。

Azure Speech 有什麼功能？

語音識別 (Speech-to-Text, STT)：
Azure Speech 可以將語音實時轉換為文字，支援多種語言。這對於開發語音輸入系統、會議記錄、字幕生成等場景非常有用。可以通過 API 提交音頻流或音頻文件，返回精準的轉錄文本。支援自定義語音模型（Custom Speech），可以根據特定的行業或領域優化識別結果。
語音合成 (Text-to-Speech, TTS)：
可以將文字轉換為自然的語音，支援多種語言和聲音樣式。這使應用程式能夠生成語音回應，提升與用戶的交互體驗。Azure Speech 提供了多種預設的聲音，也可以通過自定義語音 (Custom Voice) 創建專屬於企業品牌的聲音，適應更多的應用場景。
語音翻譯 (Speech Translation)：
Azure Speech 支援實時語音翻譯，將語音從一種語言翻譯成另一種語言，並且可以同時提供語音和文字輸出。這在跨語言的會議、旅遊和全球溝通中非常實用。例如，可以將一個語音轉換成另一種語言的字幕或語音，同時保留發言者的音調。
語者識別 (Speaker Recognition)：
提供語者識別 (Speaker Identification) 和語者驗證 (Speaker Verification) 功能，能夠識別出講話者是誰，或者驗證某個人的身份。這對於安全登錄、個性化回應等場景有很大幫助。