[Day21] Pinterest 生成推薦內容的方法（一）- RandomWalk

14th鐵人賽 machine learning data science

2061 瀏覽

Skylar 和 Krsitina 最近想要重新裝潢他們家，因此閒來無事時就會到 Pinterest 上看別人分享的裝潢照片作為參考。另外，Krsitina 也常常在上面看許多關於美甲、食物擺盤等內容。神奇的是，Pinterest 似乎永遠都有源源不絕的內容，並且會隨時依據觀看歷史紀錄調整。

Pinterest 的首頁看起來跟 Instagram 的 Explore 頁面有一點相似，但似乎又不盡相同。我們之前介紹過 Instagram 如何設計 Explore 的演算法，現在讓我們轉移目光到 Pinterest，看看他們又是如何設計的吧！

Pinterest 主要用到的技術為 GNN（Graph Neural Network），按照慣例，為了幫助大家之後的理解，會先花一些篇幅介紹 GNN 相關的內容，之後再深入探討 Pinterest 的演算法。

首先，先來了解什麼是 graph，簡單來說就是一個網絡圖形，每個概念是一個節點（node），節點之間的連接稱為 edge。例如 Alicoco 的節點（node）是商品或一個商業概念，而 Pinterest 的一個節點（node）則是一則內容。

那要怎麼得到 graph 的特徵（feature）呢？既然用 graph 的形式，就應該考慮節點本身、節點和他的鄰居（有被 edge 連接著的節點們），和整個圖形關係，可以分成下列三種層次的特徵：

但是，以上三種層次的特徵都是在餵入模型之前，就需要先行計算的。有點類似於在使用 ML 模型前，需要先做特徵工程（feature engineering），將資料轉成平均數、標準差等等，再輸入至模型中。

那有沒有辦法讓直接將整個 graph 輸入模型，讓模型自己算出 embedding 呢？當然可以！這就是 representation learning 的概念，讓我們繼續看下去吧！

Representation Learning

想要將 graph 轉成 embedding 的方法，其實就是找兩個節點 u 和 v 的相似程度。如果他們在原本的 graph 中很相似，則希望投影到 embedding space 之後，他們兩個也可以很相似。

左式是在原本的空間中，而右式是投射的 embedding space，並且需要定義相似函數。

計算 node embeddings 的四個步驟：

好的，看來最重要的事情就是定義相似函數（similarity function）。

兩個節點在什麼時候會很相似？是彼此的鄰居時嗎？或是有共同的鄰居呢？還是有相似的結構呢？
在這裡，我們會介紹一個叫 random walk 的方法，這也是 Pinterest 技術的起點。

會用到的幾個名詞：

Vector zᵤ：node u 的 embedding，即為我們的學習目標。
Probability P(v|zᵤ)：模型基於 zᵤ 而產生的預測機率值，從 node u 開始，經過 random walks 會走到 node v 的機率。
使用兩個 non-linear functions 以產生預測機率值：softmax 函數和 sigmoid 函數。

什麼是 random walk 呢？其實就是字面上的意思，在圖中隨便亂走。對，就是這麼簡單。

如下圖，我們選定一個起點之後，從他的鄰居中隨便選一個走過去，再從鄰居的鄰居中隨機選一個走過去，並儲存一路上走過的節點。

相似函數（similarity function）定義如下：

Expressivity 表現度：可以同時擷取 local 和 higher-order 的資訊，前者指的是一個 node u 附近的節點，後者是離 node u 較遠的節點。
Efficiency 效率：不需要考慮全部的節點，只需要看同時出現在 random walks 中的 node pairs。

那要怎麼將 random walks 這個概念運用在 embedding 上呢？