前面兩篇Google Cloud Platform的API介紹文章主要是著重在視覺相關領域的應用,但是,是想我們一天的生活當中,最常使用的溝通方式是什麼呢? 你想得沒錯,就是語言,透過語言除了可以傳遞我們想要表達的重要訊息之外,從中更可挖掘出許多的洞見。今天要和大家介紹的就是一個和語言非常相關的Cloud Speech API(註1),其最主要的功能就是將語音轉錄為文字(Speech to Text),但是在這樣簡單的架構下其實也有非常多的用途,就讓我們一起來看看吧!
透過Google Cloud Platform的Cloud Speech API,我們可以完成以下工作(非涵蓋全部Cloud Speech API功能,在此以列舉課程中提到的功能為主):
下圖以課程中的操作範例為例(見圖1),讓大家更清楚使用此API後可以得到的結果樣貌。我們可以在影片上使用Cloud Speech API,便可得到圖片中下方的文字內容(Speech to text transcription),同時,我們也可以透過點擊下方的文字內容,上方的影片便會跳轉至該文字出現的影片片段(Speech timestamps)。
圖1
Source: Coursera - How Google does Machine Learning
註1: https://cloud.google.com/speech-to-text/