iT邦幫忙

2024 iThome 鐵人賽

DAY 10
1
生成式 AI

T 大使 AI 之旅系列 第 10

【Day 10】Azure Speech Studio 語音生成實戰

  • 分享至 

  • xImage
  •  

前情提要

上一篇文章使用了 Hugging Face 上的開源模型生成圖片、影像、語音,圖片的部分前面分享很多了,那影像對我本機電腦的 Loading 太重了,也沒有找到免費生成的平台或軟體。那語音的部分其實很多平台或軟體都有免費試用的額度,也感謝有人留言推薦給我一些平台 (系統顯示我的身分不能回覆留言所以這邊謝謝您),但自己玩一玩額度就被我玩沒了 🤣

關於 Azure Speech Studio

對於一個剛畢業還沒當兵的社會新鮮人來說,公司沒有買的軟體都要精打細算一下,所以我發現了這個完全免費而且選擇超多的語音生成模型,就是 Microsoft 的 Azure Speech Studio,那他的強大之處就讓我來分享分享吧!

建立語音服務

登入 Azure 之後,在搜尋的地方找到 語音服務 (Speech services),然後選擇建立,然後要設定一些參數:

  1. 記得先建立一個 資源群組 (Resource groups) 存放語音服務
  2. 建立的 區域 (Region) 選擇美國東部美國中北部都可以
  3. 切記 Tier 要選擇 F0 才是免費的版本 (一個帳號可以建立一個 F0 的免費服務),那因為我已經創建過了,所以沒辦法選擇 F0 Tier。
  4. 都設定好之後就可以建立了!
    https://ithelp.ithome.com.tw/upload/images/20240814/201683363rkJhY5i8A.png
    https://ithelp.ithome.com.tw/upload/images/20240814/20168336U56AvH39gf.png

前往 Speech Studio

建立成功之後,就可以進到語音服務裡面,然後找到 Go to Speech Studio 前往語音生成服務的頁面!
https://ithelp.ithome.com.tw/upload/images/20240814/20168336TjXjcco6Ve.png

音訊內容建立

進入 Speech Studio 網頁後,可以看到 Microsoft 提供很多的服務,其中有自訂語音和個人的語音就是可以創建自己的聲音或想要的聲音,只是目前這個服務跟 Azure OpenAI 一樣不支持個人服務,要以企業跟 Microsoft 申請才可以使用。那我要使用的文字生成語音的服務是 音訊內容建立 這個功能。
https://ithelp.ithome.com.tw/upload/images/20240814/20168336fx7UvH1YaB.png

實戰🔥

進入頁面之後跟 One Drive 長很像,可以選擇自己新增或上傳 txt 文字檔。然後就可以輸入文字將其轉成語音啦!

繁體中文

首先看到繁體中文,雖然選擇少,但是我自己覺得 曉臻雲哲 的發音都還算標準,不會有太明顯的中國腔。然後我覺得 曉臻 的聲音跟台灣算蠻有名的 AI Speaker 雅婷 的聲音超像的,不知道他們是不是其實是同樣的,只是在不同地方命名不同而已。雖然說發音都還算標準,但就是少了一些抑揚頓挫,聽太久會讓人覺得很乏味。
https://ithelp.ithome.com.tw/upload/images/20240814/20168336ZPCOKhlHj6.png

簡體中文

簡體中文的話,選擇就相對多了很多,而且基本上大部分抖音的 Speaker 配音這邊都有。譬如說下圖的 云希,就是抖音裡最常被用來描述故事或者電影解說的那個聲音 (有在抖音的一定知道我在說什麼🤣), 曉曉云健 也都是抖音中很常見的聲音。而且簡體中文還有語氣可以選擇,不同情境可以選擇不同語氣,希望之後繁體中文的 Speaker 也會有這些選擇。
https://ithelp.ithome.com.tw/upload/images/20240814/20168336CmrOIVctae.png

英文

英文的部分選擇就更多了,也支援多種不同國家的口音,像是澳洲、印度等等。英文也有很多說話風格可以選擇,而且我覺得表現不亞於真實外國人說話的感覺,不愧是 AI 的母語,難怪很多人都說可以利用 AI 訓練聽力。然後有個很強的部分是,還有些模型是支援多國語言 (Multilingual) 的,真的超強,一篇文章塞各種不同語言同一個 Speaker 就可以應付了。
https://ithelp.ithome.com.tw/upload/images/20240814/20168336DUe8dGQQIE.png

OpenAI 語音

Azure 有提示詞寫說 OpenAI 語音需要將地區設定在瑞典中部活美國中北部,而且要使用 S0 Tier 才可以使用 (簡單來說就是不付錢不給用)。雖然 OpenAI 的 Speaker 有支援多國的語音包,但是沒有繁體中文的選擇。其實在簡體中文的部分是表現的不錯,抑揚頓挫感覺比較明顯,只是講話有種 ABC 的感覺 🤣
https://ithelp.ithome.com.tw/upload/images/20240814/20168336MBasXf7jn1.png

微調參數

AI 生成語音對於比較敏感的人來說還是會覺得很像機器人,所以 Microsoft 這邊也有提供可以微調的參數,那我這邊簡單分享一下我的感想:

  • 中斷:可以自定義語句要在哪裡中斷,然後中斷多久,讓生成的內容更符合預期
  • 發音:中文有很多的破音字可能 AI 會唸錯,那可以透過發音功能指定 AI 那個字或詞要怎麼發音,是透過拼音設定的
  • 語調:可以將選取的部分設定語調,譬如說到故事高潮的時候語調要拉高之類的
  • 音高:可以調整發音的音調高低,我自己測試調整一點點就會很有感了

結論

今天玩了 Azure 這個免費的語音生成服務,而且相較於寫程式輕鬆快速很多,電腦的 loading 也不會那麼大,各種語音、各種聲音的 Speaker 搭配不同風格的語調真的讓人覺得很酷!有興趣的人也可以去玩看看喔~Markdown 讓我不知道怎麼把音檔分享上來😆

題外話🤣

最近真的是迷上 Midjourney,覺得這個軟體真的很厲害,結果剛好我很喜歡的教學頻道 PAPAYA 電腦教室 剛好發了一個關於 Midjourney 的影片 -> Midjourney 2024 網頁版完整教學!快速上手地表最強 AI 繪圖工具!。除了挑戰鐵人賽 30 天之外,我想要根據每篇文章的主題在開頭都新增一張圖片,已經發出去的就慢慢再補上,那這個計畫等這週末再開始好了 😆

下一篇文章:API 呼叫 LLMs


上一篇
【Day 09】Hugging Face 影像&語音生成實戰
下一篇
【Day 11】API 呼叫 LLMs
系列文
T 大使 AI 之旅30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言