iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 29
0
AI & Data

索引結構與機器學習的相遇系列 第 29

Day 29 - Learned Index測試&比較

  • 分享至 

  • xImage
  •  

今天要來測試並比較我們實作出的 Learned Index 與單一 Model(SLR、NN) 的分布情況,我們隨機產生 100k 筆 Lognormal (mean=0, sigma=2)分布的資料,產生出來的值乘以1000000。
Learned Index可分為 9 種:第一層 Model 為 SLR、8x8 NN、16x16 NN,第二層的 Model 都為 SLR,只是數量配置不同,可分為 3、10、100,總共 9 種 Learned Index。單一 Model 則分為 SLR、8x8 NN、16x16 NN、32x32 NN 共 4 種。

NN Model的參數配置如下(大家可再自行測試調整):
https://ithelp.ithome.com.tw/upload/images/20201014/20129198BFLZF7q0jg.png

Learned Index

Learned Index不同配置下測試結果的比較圖,圖表標題表示的意思為Learned Index(第一層的模型為何, 第二層模型的數量) :
https://ithelp.ithome.com.tw/upload/images/20201014/20129198t9WAyNFyox.png

Single Model

不同Single Model測試下的比較圖 :
https://ithelp.ithome.com.tw/upload/images/20201014/20129198HyB45EJ7JV.png

結論

測試完可以看到,對於 Learned Index 來說,第二層 Models 數量配置越多,越擬合 CDF分布,依據我們測試結果發現,對於 Learned Index 來說,架構配置為(SLR, 100) 最擬合 CDF分布! 跟我原本預想的不一樣,我以為(8x8, 100)、(16x16, 100)的配置會最好的說><,對於單一模型來看,NN 32x32模型擬合效果最佳!

其實測試完後,感覺不用配置到相較複雜的Learned Index,使用單一模型 NN 32x32,就足以擬合分布嘞。但我們也只是進行簡單的測試,資料數量很少只有100k,當資料來到 100M,Learned Index 是否會真的比較適合,是很值得去探討的地方! 另外 Model 調參的部分,我是手動去調 XD,也許還其他更佳的參數配置,對於 Model 訓練更好!


上一篇
Day 28 - Learned Index實作(2)
下一篇
Day 30 - 最後一Po
系列文
索引結構與機器學習的相遇30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言