2017年Google發了一篇論文叫 " The Case for Learned Index Structures ",他們提出了一個嶄新的想法,使用機器學習、深度學習的模型學習資料的分布,使用模型預測資料的所在位置,就能更快速地查找到資料,他們將這樣的索引結構稱為 "Learned Index" 。
我希望能基於此論文,進行30天的鐵人競賽,探討並實作出Learned Index !
昨天介紹了如何產生 CDF,藉由 CDF 函式我們可以找出 Key 近似的位置,那接著我們就可以建置 Model 進行初步的測試嚕 ~ Model 的種類很多種...
今天我們要建置 Simple Linear Regression 模型,使用模型訓練並預測,我們實作的方式分兩種 : (1) scikit-learn 、(2)...
昨天使用 Simple Linear Regression 模型擬合 CDF 分布,可以看到因為是線性回歸所以會呈現一條斜線。今天簡單地介紹另一個模型稱為 神經...
今天來建置NN模型嚕,我們所建置的模型與 Kraska et al. 初步測試的模型一樣,2 層全連接層,每層32個神經元,神經元的激勵函數使用ReLU。 建...
我們今天來比較 SLR 與不同 NN 模型學習 CDF 資料分布的結果,隨機產生1000筆資料,key值範圍為1~10000,比較 Simple Linear...
我前幾天針對不同的模型進行測試,神經網路模型擬合較佳,隨著神經元的數量增加,擬合狀況越好!但是,每筆資料的CDF分布並不會像我們產生出來的分布這麼正規(如正常分...
前面實作初步的Learned Index並進行測試,今天我們要來實作出Learned Index的完全體!!XD其實不是完全體,也只是模擬拉 XDLearned...
延續昨天的實作,首先我們先來修改一下昨天建置的 Learned Index 類別,還有一些參數需要儲存(昨天忘記嘞QQ),當我們的 Learned Index...
今天要來測試並比較我們實作出的 Learned Index 與單一 Model(SLR、NN) 的分布情況,我們隨機產生 100k 筆 Lognormal (...
完賽心得 記得當初被騙來參加這個比賽,轉眼間來到了第30天 ~ 很感謝我的團隊們,大家每天彼此激勵,互相學習,從第一天開始就喊著:「撐著!! 還有29天!」,尤...