iT邦幫忙

鐵人檔案

第 12 屆 iThome 鐵人賽
回列表
AI & Data

索引結構與機器學習的相遇 系列

2017年Google發了一篇論文叫 " The Case for Learned Index Structures ",他們提出了一個嶄新的想法,使用機器學習、深度學習的模型學習資料的分布,使用模型預測資料的所在位置,就能更快速地查找到資料,他們將這樣的索引結構稱為 "Learned Index" 。
我希望能基於此論文,進行30天的鐵人競賽,探討並實作出Learned Index !

鐵人鍊成 | 共 30 篇文章 | 12 人訂閱 訂閱系列文 RSS系列文 團隊北科大計算機
DAY 21

Day 21 - Simple Linear Regression 介紹

昨天介紹了如何產生 CDF,藉由 CDF 函式我們可以找出 Key 近似的位置,那接著我們就可以建置 Model 進行初步的測試嚕 ~ Model 的種類很多種...

2020-10-06 ‧ 由 napcire 分享
DAY 22

Day 22 - Simple Linear Regression 測試

今天我們要建置 Simple Linear Regression 模型,使用模型訓練並預測,我們實作的方式分兩種 : (1) scikit-learn 、(2)...

2020-10-07 ‧ 由 napcire 分享
DAY 23

Day 23 - NN 介紹

昨天使用 Simple Linear Regression 模型擬合 CDF 分布,可以看到因為是線性回歸所以會呈現一條斜線。今天簡單地介紹另一個模型稱為 神經...

2020-10-08 ‧ 由 napcire 分享
DAY 24

Day 24 - NN測試

今天來建置NN模型嚕,我們所建置的模型與 Kraska et al. 初步測試的模型一樣,2 層全連接層,每層32個神經元,神經元的激勵函數使用ReLU。 建...

2020-10-09 ‧ 由 napcire 分享
DAY 25

Day 25 - 比較不同 Model 的測試

我們今天來比較 SLR 與不同 NN 模型學習 CDF 資料分布的結果,隨機產生1000筆資料,key值範圍為1~10000,比較 Simple Linear...

2020-10-10 ‧ 由 napcire 分享
DAY 26

Day 26 - Lognormal 分布測試

我前幾天針對不同的模型進行測試,神經網路模型擬合較佳,隨著神經元的數量增加,擬合狀況越好!但是,每筆資料的CDF分布並不會像我們產生出來的分布這麼正規(如正常分...

2020-10-11 ‧ 由 napcire 分享
DAY 27

Day 27 - Learned Index實作(1)

前面實作初步的Learned Index並進行測試,今天我們要來實作出Learned Index的完全體!!XD其實不是完全體,也只是模擬拉 XDLearned...

2020-10-12 ‧ 由 napcire 分享
DAY 28

Day 28 - Learned Index實作(2)

延續昨天的實作,首先我們先來修改一下昨天建置的 Learned Index 類別,還有一些參數需要儲存(昨天忘記嘞QQ),當我們的 Learned Index...

2020-10-13 ‧ 由 napcire 分享
DAY 29

Day 29 - Learned Index測試&比較

今天要來測試並比較我們實作出的 Learned Index 與單一 Model(SLR、NN) 的分布情況,我們隨機產生 100k 筆 Lognormal (...

2020-10-14 ‧ 由 napcire 分享
DAY 30

Day 30 - 最後一Po

完賽心得 記得當初被騙來參加這個比賽,轉眼間來到了第30天 ~ 很感謝我的團隊們,大家每天彼此激勵,互相學習,從第一天開始就喊著:「撐著!! 還有29天!」,尤...

2020-10-15 ‧ 由 napcire 分享