前言 昨天我們使用了 Python 自然語言處理套件 spaCy 預訓練好的 word embedding model 將英文單詞轉換成為高維度的向量。今天就讓...
前言 在我們每日使用的語言當中,我們經常能根據單詞所表的意義區分出同義詞與反義詞,例如英文中形容詞 thoughtful 與 attentive 、 consi...
前言 Google 在2016年公開宣布翻譯系統的全面改革,一改沿用多年的 Phrase-Based Statistical Machine Translati...
前言 繼續來討論語意相似度,今天我們將深入探討如何實現 word embedding 。也就是說,我們要將單詞轉為向量(維度可自行決定),並且確保意義相仿的單詞...
Bitext 是一間主攻自然語言處理(Natural Language Processing NLP)的新創,他們的產品主要是讓機器能夠讀懂人類的文字,比方說判...
前言 不知不覺,鐵人賽的賽程已經來進行了一半,每天發文使得生活過得非常充實。也感謝這裡的許多高手發表優質文章,讓第一次參賽又是跨IT領域的自己感到無比熱血。大家...
前言 Google 翻譯團隊在2016年發表了重要文章《Google’s Neural Machine Translation System: Bridging...
前言 也許你會覺得,這個標題下得很神經。沒錯!因為今天要正式進入新的主題-神經機器翻譯。我們今天將會從機器翻譯這個課題出發,綜覽在自然語言處理的發展中機器翻譯演...
前言 原本以為文本相似度這個主題兩天就可以結束了,沒想到花了四天來講。今天將會是介紹自然語言處理基礎的最後一篇,就讓我們做個客製化的 embedding mod...
前言 今天我們將稍微講述 Luong 全域注意力機制的原理,並繼續用 Keras 來架構附帶注意力機制的 seq2seq 神經網絡。 Luong Attenti...
前言 近年來以谷歌的 Google Assistant 、蘋果的 Siri 和微軟的 Cortana 為首的聊天機器人能夠如真人一般與人類進行日常聊天,成為大家...
前言 今天繼續訓練階段中的模型評估。 翻譯器建立實作 模型評估 給定一個資料集(英、中文平行語句),為了 LSTM seq2seq 模型在該資料集上的翻譯能力表...
前言 今天接著完成翻譯任務實作的第二階段-模型推論。 翻譯器建立實作 重新評估翻譯模型 上次由於輸入特徵 X 以及原始句對並非一一對應,造成了 BLEU 分數低...
你所做的這些浮誇的浪漫舉動---其實你做的、你所說的根本一點都不重要,真正重要的是你的意圖。真正重要的是你願意花時間在那個你在乎的人身上,告訴他:「我願意就這...
前言 今天會將昨天訓練好的翻譯模型在測試資料集進行預測,若進度符合期待,將會使用 BLEU 分數來評估模型的翻譯能力,關於此評測機制的詳細原理與範例程式碼可見下...
前言 我們緊接著切入 RNN 為架構的編碼器-解碼器。 在seq2seq之前 RNN Encoder-Decoder 在 Google 正式提出 seq2seq...
前言 今天繼續建立英翻中神經網絡的實作。 翻譯器建立實作 建立資料集(續) 首先引入必要的模組以及函式: from tensorflow.keras.prepr...
寫在完賽之後 參賽動機與心得 在約莫兩個月前與碩班的學長 Richard 的聊天當中,他邀請我參加這項比賽。本以為他是來找我加入團體參賽的,他卻早就找好隊伍,於...
前言 今天的任務只有一個:採用物件導向設計法將附帶注意力機制的 seq2seq 神經網絡封裝起來 淺談物件導向設計的封裝概念 物件導向程式設計( object-...
前言 今天的內容依舊為訓練翻譯 seq2seq 神經網絡的歷程( training process )。 機器學習的兩大階段-訓練(training)與推論(...
前言 今天繼續我們未完成的建模大業吧! 我們要建立的seq2seq模型由LSTM編碼器與解碼器串接而成: 寫一個簡單的seq2seq網絡吧-續 我們使用 K...
前言 從今天起,我們將實地建立英文到中文的翻譯神經網絡,今天先從語料庫到文本前處理開始。 翻譯器建立實作 從語料庫到建立資料集 在這裡我們由公開的平行語料庫來源...
前言 注意力機制讓預測目標單詞之前比較其與所有來源單詞(在翻譯任務中精確地來說是詞向量)之間的語意關聯性來提高翻譯的準確度。今天就讓我們來快速回顧注意力機制的原...
前言 今天是個美麗的錯誤,本來預計將昨日寫好的 Encoder 、Decoder 、 LuongAttention 類別整合進單一個繼承自 tensorflow...