Day 19 - How Google does Machine Learning (18) - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

第 11 屆 iThome 鐵人賽

DAY 19

Google Developers Machine Learning

Understanding and Applying Machine Learning with Google Cloud Platform系列第 19 篇

Day 19 - How Google does Machine Learning (18)

11th鐵人賽

b469er

2019-10-05 00:11:58

1790 瀏覽

分享至

機器學習預訓練模型API - Cloud Speech API

前面兩篇Google Cloud Platform的API介紹文章主要是著重在視覺相關領域的應用，但是，是想我們一天的生活當中，最常使用的溝通方式是什麼呢? 你想得沒錯，就是語言，透過語言除了可以傳遞我們想要表達的重要訊息之外，從中更可挖掘出許多的洞見。今天要和大家介紹的就是一個和語言非常相關的Cloud Speech API(註1)，其最主要的功能就是將語音轉錄為文字(Speech to Text)，但是在這樣簡單的架構下其實也有非常多的用途，就讓我們一起來看看吧!

透過Google Cloud Platform的Cloud Speech API，我們可以完成以下工作(非涵蓋全部Cloud Speech API功能，在此以列舉課程中提到的功能為主):

Speech to text transcription: 將語音轉錄為文字，回傳該音訊檔案的文字結果，能夠支援超過100種語言及方言
Speech timestamps: 回傳在一段語音當中，每段文字的起迄時間點，有利於在音訊檔案中進行搜尋
Profanity filtering: 過濾語音轉換為文字的結果中之不適當內容
Batch & streaming transcription: 此API在處理上能夠以批次(Batch)與串流(Streaming)這兩種方式來處理，應對多樣的使用情境

下圖以課程中的操作範例為例(見圖1)，讓大家更清楚使用此API後可以得到的結果樣貌。我們可以在影片上使用Cloud Speech API，便可得到圖片中下方的文字內容(Speech to text transcription)，同時，我們也可以透過點擊下方的文字內容，上方的影片便會跳轉至該文字出現的影片片段(Speech timestamps)。

圖1
Source: Coursera - How Google does Machine Learning