身為一個老軟體人, 有幸 (或者應該說是不幸) 在職場的最後一個時段碰到 AI 盛世, 工作之所需加上不服輸的工程師性格, 我這個老頭踏上了 AI 的學習, 研究, 及開發之路。其中艱辛, 冷暧自知, 希望藉由此一鐵人賽, 與大家分享其中的心得和一些失敗成功的經驗。
編碼器概觀 輸入序列被 embedding 及加上位置編碼後,下一步即是將其匯入編碼器的第一層,接著第二層,最後到第六層輸出。因為編碼器的每一層結構都是相同的,...
Scaled Dot-Product Attention 現在該是時候來看看 Scaled Dot-Product Attention 的運作細節。 上圖的左上...
解碼器 Transformer 解碼器的架構和編碼器雷同,但有兩個主要的差異,第一:解碼器每一層的第一個子層必須執行 Masked 動作;二為:解碼器每一層都多...
Tansformer 的介紹已經接近尾聲了,最後來談談它的訓練參數及測試結果。 訓練 論文中,作者使用了以下的資料集來訓練 Transformer: - WM...
第一次聽到 Gary Marcus 這位先生,是在網路上閱讀到了幾篇有關他的新書《重啟人工智慧 (Rebooting AI) 》的書摘。從書名上可以看出來,Ma...
邁向強固型 AI (Towards robust artificial intelligence) 邁向強固型 AI,這是論文的第一章標題。 Marcus 認為...
對於 Marcus 以及其他認知科學家來說,認知過程是一種循環:有機體 (例如人類) 藉由其所察覺的外界信息 (information from outside...
要把那些技術混合在一起,才能達到我們的目標呢? 符號式操作 (Symbolic Operation) 符號式操作 (Symbolic Operation) 是混...
知識表達 符號處理其中的一個關鍵技術是「知識表達 (knowledge representation)」,它是一個非常困難的工作,而到目前為止還沒有令人滿意的成...
邏輯推論 (Reasoning) 前面提過,時下流行的 DNN 模型的訓練過程,是試圖「記住」或「趨近」訓練資料的機率分布,這個方式是不容易得到一個值得信賴的模...