iT邦幫忙

2023 iThome 鐵人賽

DAY 10
0
AI & Data

圍繞 AI & Data 的主題系列 第 10

[Day 10] 語音識別 (Speech Recognition)

  • 分享至 

  • xImage
  •  

Hello 大家好!歡迎回來!昨天剛剛分享完圖像識別 (Image Recognition),那今天我打算跟大家分享語音識別 (Speech Recognition)。事不宜遲,現在開始!

簡介

語音辨識是一種技術,使電腦能夠將口語詞語轉換為書面文字。它涉及開發能夠分析音頻信號並從中提取有意義資訊的演算法和模型。語音辨識系統旨在準確地轉錄人類的語音,從而實現各種應用,從語音助手到轉錄服務。

關鍵技術

  • 聲學建模
    聲學建模專注於創建能夠表示語音聲學和音素單位之間關係的統計模型。這些模型用於識別和區分口語語言中的聲音和詞語。
  • 語言建模
    語言建模涉及建立捕捉特定語言中單詞和詞語概率分佈的統計模型。這些模型有助於語音辨識系統根據聲學輸入預測最可能的詞語序列。
    https://ithelp.ithome.com.tw/upload/images/20230923/20163226QYdVi1ZVOZ.png [1]
  • 講話者分割
    講話者分割是識別和區分音頻錄製中的講話者的過程。在會議轉錄和語音控制系統等應用中非常有用,需要識別多個講話者。

過程

  1. 語音輸入
    透過 Google, Siri, Alexa 等等
  2. 編碼
    將音訊訊號處理後,便要按幀 (毫秒級) 拆分,並對拆分出的小段波形依照人耳特徵變成多維向量訊息。
  3. 解碼
    將這些幀資訊識別成狀態 (可以理解為中間過程,一種比音素還要小的過程),然後將狀態組合形成音素 (通常3個狀態=1個音素)
  4. 文字輸出
    最後將音素組成字詞並串連成句。於是,這就可以實現由語音轉換成文字了。
    https://ithelp.ithome.com.tw/upload/images/20230923/20163226qw77Ccm8hw.png [2]

應用

  • 語音助手
    語音辨識是 Siri、Alexa 和 Google 助手等語音助手的核心技術,使用戶能夠通過語音指令和自然語言與設備進行互動。
  • 轉錄服務
    語音辨識技術用於將音頻錄製轉換為書面文本,使搜索、分析和存檔口語內容變得更加容易。
  • 呼叫中心
    語音辨識系統在呼叫中心中用於自動語音轉文本、呼叫路由和客戶情感分析等任務。
  • 口述軟體
    語音辨識實現了無需使用雙手的口述,對於新聞、法律和醫療等各個領域的專業人士而言,這是一個很有用的工具。
  • etc...

參考資料

我是 Mr. cobble,明天見!


上一篇
[Day 9] 圖像識別 (Image Recognition)
下一篇
[Day 11] 情感分析 (Sentiment Analysis)
系列文
圍繞 AI & Data 的主題30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言