自然語言處理-機器翻譯漫談

2019 iT 邦幫忙鐵人賽

DAY 29

自我挑戰組

深度學習所需入門知識--一位初學者的認知系列第 29 篇

2019鐵人賽

JavaCoffee

2018-11-12 18:51:52

2733 瀏覽

分享至

在本 Sprint 計畫了『提昇專案成員(NLP)知識或技術』這個待辦事項，是由 Molly 認領的。昨天大概粗略的講述了自然語言做什麼；以及最基本的元素詞嵌入，從wod2vec到今年的 BERT。今天他打算再跟大家分享自然語言處理其中一個重要技術，機器翻譯。先前她在學校專攻此領域，可惜的是當時她也只能接受到所謂的 SMT. Statistical Machine Translation，這個在神經網路加持下的 NMT, Neural Machine Translation 尚未出現前，主宰機器翻譯技術超過20年。 Molly 除了個人生涯規劃，當時也覺得 SMT 看來無法達到可接受的水準，放棄了博士學業。

在 2015 WMT 第一個NMT出現在公眾面前後，迅速的取代 SMT。例如 Goolge 翻譯就是從 2016 改採 GNMT。而另一個機器翻譯大玩家 SYSTRAN (比SMT更久遠Rule Based 機器翻譯的代表。Google 2007年, Yahoo 2012 年前採用其方案；歐盟委員會，美國防部都是其大客戶) 也在 2016年底發布了基於 NMT的PNMT產品。但是 Molly 後來並沒有接觸任何機器學習的技術，所以也只能惡補一下，與大家分享心得。

在 Molly 談完機器翻譯的歷史後，要進入這個下一個話題前，Pete 分享他看到 Google 發布AutoML的舊聞，其產品有 Cloud Natural Language 以及 Cloud Translation 兩個與自然語言模型有關的，是否意味著我們不太值得投入資源研究諸如機器翻譯的技術？

Molly 解釋：
“我也有關注此問題，尤其 AutoML這產品似乎更讓我們值得深思我們的策略。之前，同樣是雲翻譯的API雲端服務產品，頂多讓你訂製詞彙庫。我觀察 AutoML 除了標準API，對於有訂製化需求的客戶，比如說：醫學雜誌翻譯，可以利用Google 現有的模型，再加入自己獨有的醫學相關平行語料，進行遷移學習 (Transfer Learning)，其結果觀察下來，應該會比聘用專家，設計模型，調整超參數，訓練等等作業後，不僅速度快，準確度絕大多數還比較優。”

Gavin 好奇：
“理論上Google是一個通用給各行各業的模型；而另一個是自己從無到有設計給自己的。假設兩個都是同等級的專家，理論上自打造的模型應該更合用，或是更精準?”

Pete 搶回：
“我個人也看到許多類似 Molly 的說法，我揣摩的原因如下：Google All in AI 養的專家可能是多數的公司無法相比的，另外 Google 宣稱他們其實持續更新，利用具備自我學習能力的Translation API，可透過記錄分析和人工翻譯範例來學習。持續改善現有的語言組合，並持續增加新的組合。這種生態系的生意，強者越強。”

Molly 補充：
“另外我也看到他們所謂的 Learning to learn，加速訓練的收斂，這也是輔助 AutoML 做遷移學習訓練過程的利器吧! 我覺得未來我們也必須了解Learning to learn的技術。”

佳麗提醒大家：”在這個專案需求未定案前，我們不要偏好哪個產品或是技術，研究就可以，不用太幫忙Google打廣告。”

Molly ：
“不到兩週前本來我打算細細的講 Google 於2017年底發表的 Attention Is All You Need，他引進了所謂的 Transformer 模型，不過抱歉我忙不過來，並沒完全消化。又加上前日發現昨天有跟大家分享的 BERT，分心了。我打算下個 Sprint 再細講，希望可以直接帶進 BERT。 ”

Moore 補充：
“我覺得大家先不要進入細節，我們必須多花力氣去了解諸如 dropout, weight initialize 等等模型訓練超參數調整基本功，再進入後續影像 CNN相關，語音RNN相關的模型講解，不然也只能聽聽就算了，等到拿真實資料來訓練時，不知道從哪開始調整。也許 AutoML 就是要幫忙解決像我們這種半生不熟的『專家』的困難吧？降低企業引入機器學習的門檻，但是我們又不會只用它，所以基本功，訓練的技法，還是要下的”

Molly ：”不過我還是要帶大家試試看google Transformer 機器翻譯的實作，利用Tensor2Tensor, T2T 加速機器學習的 open source。來訓練中英翻譯，也可以在先前 Moore 帶大家玩的colab試試看”

Pete ：”先不試了，我們又沒有中英文的資料集，Molly 妳有嗎?”

Molly: “可以在OrPUS, the open parallel corpus 抓許多語言的平行語料庫。我之前報名參加 AI Challenger, 全球AI挑战赛中英翻譯也取得一些中英平行語料。還有聯合國的會議也都有多國語言對照。影視字幕Open Subtitle也是來源之一”

"對了，忘記提到我之前學的 Statistical Machine Translation是 CRF, Conditional Random Fields, 有文獻說在小數據，亦即較小的平行語料庫時，CRF會比NMT 採用的 LSTM 效果好一點。所以又回到原點，採深度學習技術，大數據是必須的。而且也不要因為深度學習火熱，就完全拋掉一些傳統機器學習的技術。"