iT邦幫忙

2023 iThome 鐵人賽

DAY 13
0

前言

昨天跟各位分享了Autoencoder實現MNIST數據集圖像重建,而今天將會分享Autoencoder的各種應用層面,那我們廢話不多說,正文開始!

正文

Autoencoder的主要目標是學習將輸入數據編碼為低維表示,然後從該表示中重建原始輸入數據,從而捕捉輸入數據的關鍵特徵,原本主要的應用在降維和資訊檢索,但隨著Autoencoder的進步,目前已經初先許多變體並應用在其他任務上。

降維

降維是深度學習的最早應用之一。在Hinton於2006年的研究中,他使用一堆受限玻爾茲曼機(RBM)來預訓練多層自動編碼器,然後使用它們的權重來初始化一個深度自動編碼器,逐漸減少隱藏層的大小直到30個神經元。由此產生的30個維度的編碼,比主成分分析(PCA)還具有較小的重建誤差,並且學到了在資料之間有明顯分離且較易解釋的結果。

https://ithelp.ithome.com.tw/upload/images/20230922/20161913kFzwJj61Te.png

圖源:維基百科

資訊檢索和搜索引擎優化

在某些低維空間中,搜索可以變得更有效,所以Autoencoder也可以應用在資訊檢索

Salakhutdinov和Hinton於2007年提出自動編碼器應用於semantic hashing,通過訓練該算法生成低維二進制code,可以將所有數據庫記錄存儲在hash table中,將二進制code向量映射到記錄。然後,這個表格可以通過返回與查詢相同二進制code的所有記錄,進行資訊檢索。

除此之外,Autoencoder也應用於搜索引擎優化

  1. 文本處理:通過使用Autoencoder,可以將網頁文本壓縮成更緊湊的向量表示。這可以幫助減少頁面載入時間,並改善搜索引擎的索引。
  2. 去噪音:Autoencoder可用於從網頁文本數據中去除噪音。這可以讓搜索引擎更好地理解內容,從而提高搜索引擎結果頁面的排名。
  3. 標籤和摘要生成:可以訓練Autoencoder,使用頁面內容自動生成標籤、摘要和描述。這可以優化搜索結果的呈現,增加點擊率(CTR)。
  4. 內容分組:使用Autoencoder,可以自動將具有相似內容的網頁分組在一起。這有助於合理組織網站,可能對用戶體驗和搜索引擎排名產生積極影響。
  5. 相關內容的生成:Autoencoder可以用於生成與網站上已有內容相關的內容。這可以增強網站對搜索引擎的吸引力,並為用戶提供附加的相關資訊。
  6. 關鍵詞檢測:Autoencoder可以訓練以識別網頁內容中的關鍵詞和重要概念。這有助於優化關鍵詞的使用以改善索引。
  7. 語義搜索:通過使用Autoencoder技術,可以創建內容的語義表示模型。這些模型可以用於增強搜索引擎對網頁涵蓋主題的理解。

藥物發現

2019年,使用Autoencoder生成的分子在小鼠實驗中經過驗證。

機器翻譯

自動編碼器已應用於機器翻譯,這通常被稱為神經機器翻譯(NMT)。與傳統的自編碼器不同,輸出與輸入不匹配。 在NMT中,文字被視為要編碼到學習過程中的序列,而在解碼器端生成目標語言的序列。 特定語言的自編碼器將進一步的語言特徵納入學習過程,例如中文分解特徵。

由於有更有效的方法,機器翻譯很少使用自編碼器進行。

參考連結:維基百科

總結

以上就是小弟我今天分享有關於Autoencoder的各種應用,明天將會分享Autoencoder的變體—變分自編碼器(VAE),那我們明天見!


上一篇
[DAY12]實作簡單的Autoencoder
下一篇
[DAY14] Convolutional Autoencoder(CAE)的理論
系列文
Autoencoder與GAN:生成與重建的完美結合30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言