iT邦幫忙

2019 iT 邦幫忙鐵人賽

DAY 29
0
自我挑戰組

深度學習所需入門知識--一位初學者的認知系列 第 29

自然語言處理-機器翻譯漫談

在本 Sprint 計畫了『提昇專案成員(NLP)知識或技術 』這個待辦事項,是由 Molly 認領的。昨天大概粗略的講述了自然語言做什麼;以及最基本的元素詞嵌入,從wod2vec到今年的 BERT。今天他打算再跟大家分享自然語言處理其中一個重要技術,機器翻譯。先前她在學校專攻此領域,可惜的是當時她也只能接受到所謂的 SMT. Statistical Machine Translation,這個在神經網路加持下的 NMT, Neural Machine Translation 尚未出現前,主宰機器翻譯技術超過20年。 Molly 除了個人生涯規劃,當時也覺得 SMT 看來無法達到可接受的水準,放棄了博士學業。

在 2015 WMT 第一個NMT出現在公眾面前後,迅速的取代 SMT。例如 Goolge 翻譯就是從 2016 改採 GNMT。而另一個機器翻譯大玩家 SYSTRAN (比SMT更久遠Rule Based 機器翻譯的代表。Google 2007年, Yahoo 2012 年前採用其方案;歐盟委員會,美國防部都是其大客戶) 也在 2016年底發布了基於 NMT的PNMT產品。但是 Molly 後來並沒有接觸任何機器學習的技術,所以也只能惡補一下,與大家分享心得。


在 Molly 談完機器翻譯的歷史後,要進入這個下一個話題前,Pete 分享他看到 Google 發布AutoML的舊聞,其產品有 Cloud Natural Language 以及 Cloud Translation 兩個與自然語言模型有關的,是否意味著我們不太值得投入資源研究諸如機器翻譯的技術?

Molly 解釋:
“我也有關注此問題,尤其 AutoML這產品似乎更讓我們值得深思我們的策略。之前,同樣是雲翻譯的API雲端服務產品,頂多讓你訂製詞彙庫。我觀察 AutoML 除了標準API,對於有訂製化需求的客戶,比如說:醫學雜誌翻譯,可以利用Google 現有的模型,再加入自己獨有的醫學相關平行語料,進行遷移學習 (Transfer Learning),其結果觀察下來,應該會比聘用專家,設計模型,調整超參數,訓練等等作業後,不僅速度快,準確度絕大多數還比較優。”

Gavin 好奇:
“理論上Google是一個通用給各行各業的模型;而另一個是自己從無到有設計給自己的。假設兩個都是同等級的專家,理論上自打造的模型應該更合用,或是更精準?”

Pete 搶回:
“我個人也看到許多類似 Molly 的說法,我揣摩的原因如下:Google All in AI 養的專家可能是多數的公司無法相比的,另外 Google 宣稱他們其實持續更新,利用具備自我學習能力的Translation API,可透過記錄分析和人工翻譯範例來學習。持續改善現有的語言組合,並持續增加新的組合。這種生態系的生意,強者越強。”

Molly 補充:
“另外我也看到他們所謂的 Learning to learn,加速訓練的收斂,這也是輔助 AutoML 做遷移學習訓練過程的利器吧! 我覺得未來我們也必須了解Learning to learn的技術。”

佳麗提醒大家:”在這個專案需求未定案前,我們不要偏好哪個產品或是技術,研究就可以,不用太幫忙Google打廣告。”

Molly :
“不到兩週前本來我打算細細的講 Google 於2017年底發表的 Attention Is All You Need,他引進了所謂的 Transformer 模型,不過抱歉我忙不過來,並沒完全消化。又加上前日發現昨天有跟大家分享的 BERT,分心了。我打算下個 Sprint 再細講,希望可以直接帶進 BERT。 ”

Moore 補充:
“我覺得大家先不要進入細節,我們必須多花力氣去了解諸如 dropout, weight initialize 等等模型訓練超參數調整基本功,再進入後續 影像 CNN相關,語音RNN相關的模型講解,不然也只能聽聽就算了,等到拿真實資料來訓練時,不知道從哪開始調整。也許 AutoML 就是要幫忙解決像我們這種半生不熟的『專家』的困難吧?降低企業引入機器學習的門檻,但是我們又不會只用它,所以基本功,訓練的技法,還是要下的”

Molly :”不過我還是要帶大家試試看google Transformer 機器翻譯的實作,利用Tensor2Tensor, T2T 加速機器學習的 open source。來訓練中英翻譯,也可以在先前 Moore 帶大家玩的colab試試看”

Pete :”先不試了,我們又沒有中英文的資料集,Molly 妳有嗎?”

Molly: “可以在OrPUS, the open parallel corpus 抓許多語言的平行語料庫。我之前報名參加 AI Challenger, 全球AI挑战赛 中英翻譯也取得一些中英平行語料。還有聯合國的會議也都有多國語言對照。影視字幕Open Subtitle也是來源之一”

"對了,忘記提到我之前學的 Statistical Machine Translation是 CRF, Conditional Random Fields, 有文獻說在小數據,亦即較小的平行語料庫時,CRF會比NMT 採用的 LSTM 效果好一點。所以又回到原點,採深度學習技術,大數據是必須的。而且也不要因為深度學習火熱,就完全拋掉一些傳統機器學習的技術。"

備註:

專案緣起記錄在 【UP, Scrum 與 AI專案】


上一篇
自然語言處理第一章 word2Vec 到 BERT
下一篇
總結與修訂 Product Backlog
系列文
深度學習所需入門知識--一位初學者的認知31
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言