[Day 23] Google Cloud Speech-to-Text - 子系列最終章 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

第 11 屆 iThome 鐵人賽

DAY 23

Google Developers Machine Learning

Overview of Machine Learning Products系列第 23 篇

[Day 23] Google Cloud Speech-to-Text - 子系列最終章

11th鐵人賽 cloud speech-to-text google development

Joseph-bug

2019-09-30 22:50:49

4321 瀏覽

分享至

因為這邊沒有AutoML的關係，所以今天是Speech-to-Text的最後一篇。

在doc文件裡的這篇是介紹如何使用Mic直接stream翻譯成文字，但我docker環境沒特別access host的mic，所以沒有測試這段。

中文Speech-to-Text

仔細測了一下，昨天的範例無法直接串接中文語音轉文字，原來是因為昨天使用的版本是v1，但中文相關的分析必須使用v1p1beta1，另一個原因是之前的檔案try.m4a一直測試都無法讀取，我把他轉為try.mp3以後，才可以順利解析。

有了這些解釋以後，我們來看看這次的code：

import (
  "context"
  "fmt"
  "io/ioutil"
  "log"

  speech "cloud.google.com/go/speech/apiv1p1beta1" //v1p1beta1
  speechpb "google.golang.org/genproto/googleapis/cloud/speech/v1p1beta1" //v1p1beta1
)

func ChineseSpeech(filename string) {
  ctx := context.Background()

  // Creates a client.
  client, err := speech.NewClient(ctx)
  if err != nil {
    log.Fatalf("Failed to create client: %v", err)
  }

  // Reads the audio file into memory.
  data, err := ioutil.ReadFile(filename)
  if err != nil {
    log.Fatalf("Failed to read file: %v", err)
  }

  // Detects speech in the audio file.
  resp, err := client.Recognize(ctx, &speechpb.RecognizeRequest{
    Config: &speechpb.RecognitionConfig{
      Encoding:             speechpb.RecognitionConfig_MP3,
      SampleRateHertz:      16000,
      LanguageCode:         "zh-TW",
      EnableWordConfidence: true,
    },
    Audio: &speechpb.RecognitionAudio{
      AudioSource: &speechpb.RecognitionAudio_Content{Content: data},
    },
  })
  if err != nil {
    log.Fatalf("failed to recognize: %v", err)
  }

  // Prints the results.
  for _, result := range resp.Results {
    for _, alt := range result.Alternatives {
      fmt.Printf("\"%v\" (confidence=%3f)\n", alt.Transcript, alt.Confidence)
      for _, word := range alt.Words {
        fmt.Printf("\t\"%v\" (confidence=%3f)\n", word.Word, word.Confidence)
      }
    }
  }
}

最上端的Import改為v1p1beta1以後，Encoding的部分也改成RecognitionConfig_MP3(這邊只有v1p1beta1有)，當然LanguageCode要改zh-TW，這樣就能順利解析中文了。
但我後面又多了一個EnableWordConfidence，這是什麼呢？在這邊解釋是他可以針對每個字回傳可信度，出來就會變下圖：
output