Day05 - 端到端(end-to-end)語音辨識-CTC part 1 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2021 iThome 鐵人賽

DAY 5

AI & Data

機器學習應用於語音相關服務系列第 5 篇

Day05 - 端到端(end-to-end)語音辨識-CTC part 1

13th鐵人賽

pwhsiao

2021-09-17 14:36:10

3521 瀏覽

分享至

傳統在做語音辨識需要事先標註每個音框的標籤，這麼做會耗費龐大的時間，因
此研究人員 Alex Graves 提出 Connectionist Temporal Classification (CTC)，能夠在訓練神經網路
前，不需要對音框和標註之間做對齊(alignment)，也不需要結合隱藏式馬可夫模
型(hidden Markov model)即可進行辨識。CTC提出一個新的概念：空白(blank)，用在
無法確定是哪種發音時，將預測結果映射到空白，這個作法可以讓模型著重在各種發
音之間的差異性。當給定一個輸入 x，長度為 T，輸出的標註(label)集合 L，L 包含空
白， $y^{t}_{k}$ 表示在時間點(timestep) t 輸出 k 的機率。接著假設每一個時間點之間的
輸出機率是獨立的，我們可以將網路輸出 $\pi$ 的機率用以下公式表示

$P(\pi|x)=\prod_{t=1}^{T}y^{t}_{\pi_{t}}$

我們將 $\pi$ 稱作路徑(paths)， $\pi_{t}$ 是在路徑 $\pi$ 時間點 t 時輸出的標註。接著定義一個多
對一的函數 F，將所有可能的路徑映射到 x 可能輸出的序列，CTC 會先將在路徑
連續重複的標註合併成一個，再刪掉空白，得到這個輸入 x 的輸出序列 l，例如
$F(a-bb-c)=F(aa-b-c)=abc$
其中 - 表示空白

我們把所有映射後結果是 l 的路徑 label( $\pi$ )，將其機率加總起來，作為輸入 x 的輸出序列是 l 的事後機率，以下面公式表示
$P(l|x)=\sum_{label(\pi)=l}P(\pi|x)=\sum_{label(\pi)=l}\prod_{t=1}^{T}y^{t}_{\pi_{t}}$