身為一個老軟體人, 有幸 (或者應該說是不幸) 在職場的最後一個時段碰到 AI 盛世, 工作之所需加上不服輸的工程師性格, 我這個老頭踏上了 AI 的學習, 研究, 及開發之路。其中艱辛, 冷暧自知, 希望藉由此一鐵人賽, 與大家分享其中的心得和一些失敗成功的經驗。
Compound Model Scaling 是 EfficientNet 這篇論文提出的第一個關鍵技術。老頭找不到一個好的中文譯名,勉強可以把它翻成「複合式模...
在「簡介」時老頭曾經提到,有一個好的模型縮放公式還不夠,必須搭配一個好的 Baseline Model ,才能設計出好的擴充新模型。 作者參考了 MingXin...
驗證複合式模型縮放 為了驗證複合式模型縮放和它的 α, β, γ 參數值是否有效,作者將 MobileNets (MobileNetV1 及 MobileNe...
2020 年 6 月,OpenAI 發表 GPT-3,在 AI 界掀起一陣波濤,有人認為這是「通用人工智慧 (AGI; Artificial General I...
GPT 真的那麼好嗎?有一個基於 GPT 的文字遊戲叫做 AI Dungeon,我們可以試著玩一玩。 非付費的版本在線上可以直接使用,最近它開始提供一個付費的版...
(博君一笑:https://youtu.be/fN7ultKGPmU ) 並不是所有 AI 社群內的人都認為 GPT-3 是不項了不起的成就,今年 8 月,在...
近日有關 GPT-3 的一個相當令人注目的消息是微軟獨家取得了 GPT-3 的商用執照。我們先來看看微軟的 Kevin Scott (執行副總及技術長)對這件事...
源起 要深入探討 GPT-3,必須先了解 Transformer。 2017 年 6 月,Google 以及多倫多大學的研究人員共同提出了一個自然語言處理 (N...
在開始探討 Transformer 模型架構之前,先來說明一下「神經序列轉導模型 (Neural Sequence Transduction Model)」這一...
前文介紹了 Transformer 的構架,現在老頭就從輸入端到輸出端依序的來介紹它的運作細節。行文的順序和論文的順序有些不同,如果讀者要參考原論文的話,必須跳...