前面有講了一下生成式AI的簡史,這邊就來看看NLP究竟是怎麼發展到現在這個程度的。
很有趣的是,不管是生成式AI還是NLP,大家是不是覺得這是一個很新的議題或科技,不不不,其實他們其實非常非常早之前就被提出來了哦!
很久很久以前,AI、NLP早在1952年Hodgkin-Huxley論文中關於大腦如何使用神經元形成電氣網絡時,大致上的概念就被提出;而確切的概念和詞語則在1956年的達特茅斯會議中被歸納和統整。
但因為技術上沒有突破,其中經歷了很長一段時間的「寒冬期」(上一屆的文章中有提到,有興趣的可以去看看),大部分AI的應用都只呈現在論文中。
近期隨著不同的模型、理論被創造出並付諸實踐,越來越多AI相關的技術被實現,也就是這段時間,AI這項學科被廣泛討論。
而每個種類的AI都有各自不同的里程碑,今天我們就來講講NLP在技術上的重大突破。
文章中有很多部分是參考了 **A Review of the Recent History of Natural Language Processing** 的資訊,有興趣的也可以去看看這篇回顧性質的英文版文章哦!
最早的神經語言模型,是Bengio等人提出的「前饋神經網路(feed-forward neuralnetwork)」。
這個模型的運作,是以某個字詞之前的 n 個單詞作為輸入的向量,這些字在遷入級聯(分成多階段的處理過程,並將每個階段的結果作為下階段參數)後,進入隱藏層,通過過一個softmax層後最後輸出。
雖然技術不斷更新下,這個模型已經被RNN、LSTMs所取代,但最主要是因為效率問題,在某些設定的準確度上,這個模型的處理效果和新模型的效果相當,可以看出它的高明處。
這是一個可以在多任務的訓練下,讓模型之間共享參數的方法,主要是透過將不同層的權重組合後進行。
最早的想法是1993年由 Rich Caruana 提出,但主要是用在道路追蹤和肺炎預測上。
而最先將這個概念使用在自然語言股處理領域是2008年Collobert 、Weston等人,讓詞嵌入矩陣被兩個不同任務下訓練的模型共享,共享的參數讓模型可以相互協作、共享低層級訊息,而這個矩陣也構成了訓練中大部分的參數。
寫不完辣~剩下的明天發@@