iT邦幫忙

2025 iThome 鐵人賽

DAY 26
0
自我挑戰組

從零開始的AI學習之路:非本科轉職的30天挑戰記系列 第 26

D26 | 【學習心得】Azure Speech服務~進階篇

  • 分享至 

  • xImage
  •  

今天沒有做Side Project,休息一日讓腦袋沉澱/images/emoticon/emoticon07.gif

上次學習了Azure的Speech服務的基礎篇,做一隻中翻英、英翻中的LINE BOT;
這次循序漸進練習了雙向翻譯、雙向翻譯+音譯、雙向翻譯+音譯+語音檔,還玩了一點SSML,最後上線。
Ryan老師的課真的是超級充實啊!
翻譯乍看之下是做到爛掉的題目,但還蠻多細節要注意的,例如:要查閱文件注意每種語言都有英文命名縮寫,繁體中文是Hant、拿來做音譯拉丁是Latn、日文是Jpn...等等,然後Azure的語音庫非常豐富,像是日文Nanami有四種說話風格可以選,我選的是Cheerful;

在撰寫程式碼時也要想好轉換邏輯,例如:用戶輸入日文,那轉出來會是英文、中文、中文音譯跟中文語音。

https://ithelp.ithome.com.tw/upload/images/20250831/201779741g5yv64sjW.png

用戶輸入中文,轉出來會是英文、日文、日文音譯跟日文語音。

https://ithelp.ithome.com.tw/upload/images/20250831/20177974NrjTl4PWeu.png

SSML(Speech Synthesis Markup Language)是一種給語音合成引擎看的標記,可以轉化你要的語音合成效果,
例如:停頓、語速、音量、音高、風格,都可以調整。
甚至可以不同風格的文章教給不同模型唸,譬如說可以再使用語意分析服務,判斷正向結果就用開心的風格唸、判斷負向結果就用生氣的風格唸,有很多變化可以玩~

或是也可以做Role角色扮演,例如,一樣都請Nanami這個女聲模型唸一段故事,唸到裡面需要扮演老人時,就模仿老人聲音,但是聲音模型依然是Nanami喔!
還有其他有趣的玩法,譬如可以加背景音樂,老師有舉例播放一段由AI編寫的恐怖故事,朗讀時加上恐怖音樂,還真的有那種毛毛的氛圍,身為戲劇系畢業的我好想拿這個功能來玩廣播劇啊!

初步了解SSML的內容後,我將日文朗讀的模型設定為Cheerful,最後我們還練習撰寫了可以同時讓LINE BOT+網頁使用的程式碼,為了寫網頁,需要再新增一個templates資料夾裡面放html檔、新增static裡面放cs資料夾+css檔、新增js資料夾裡面放js檔,才能繼續做簡單的雙向翻譯網頁~

網頁的邏輯又有點不太一樣,還需要再多多熟悉。

準備上線前,需要做很多事前工作:

  1. 不會用到的資料夾要加到.gitignore,像這些系統預設的都要加進去:
    https://ithelp.ithome.com.tw/upload/images/20250831/20177974fPRy5fTyvV.png

  2. 下載Azure CLI,這邊操作有點複雜,也是比較不熟悉的介面。

下次會教上線的細節,期待!


上一篇
D25 | 我的Side Project 每拍呷--美化篇
下一篇
D27 | 我的Side Project 每拍呷--最後優化+Debug篇
系列文
從零開始的AI學習之路:非本科轉職的30天挑戰記30
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言