iT邦幫忙

鐵人檔案

第 12 屆 iThome 鐵人賽
回列表
AI & Data

索引結構與機器學習的相遇 系列

2017年Google發了一篇論文叫 " The Case for Learned Index Structures ",他們提出了一個嶄新的想法,使用機器學習、深度學習的模型學習資料的分布,使用模型預測資料的所在位置,就能更快速地查找到資料,他們將這樣的索引結構稱為 "Learned Index" 。
我希望能基於此論文,進行30天的鐵人競賽,探討並實作出Learned Index !

鐵人鍊成 | 共 30 篇文章 | 12 人訂閱 訂閱系列文 RSS系列文 團隊北科大計算機
DAY 11

Day 11 - LIF 框架

延續上一篇的介紹,為了解決初步測試所遇到的問題,提出了一些新的優化方法與框架,今天我們要介紹 Learning Index Framework(LIF)。 Le...

2020-09-26 ‧ 由 napcire 分享
DAY 12

Day 12 - RMI 架構

今天要介紹Recurisive Model Indexes (RMI),大家還記得初步實驗嗎? 當時他們只使用單一個NN模型進行訓練,發現訓練後的精準度不佳,因...

2020-09-27 ‧ 由 napcire 分享
DAY 13

Day 13 - RMI的策略

昨天講到關於RMI的架構,今天會詳細地介紹關於RMI是如何執行與分配資料,搭配公式來解說,讓大家更深入地瞭解~~ 題外話 - 大概等到本篇論文講到一個段落,才會...

2020-09-28 ‧ 由 napcire 分享
DAY 14

Day 14 - Hybrid Indexes

混和式索引...? 沒錯 ! 太炫了ㄅ XD Hybrid Indexes主要是延伸自RMI,由不同的Models組合而成。 在最上層的Model使用簡單的深度...

2020-09-29 ‧ 由 napcire 分享
DAY 15

Day 15 - Standard-error-based search strategies

Learned Index利用Model來學習資料的CDF分布,預測資料的位置,那他們是如何查詢的呢? Kraska et al. 提出了他們查詢的策略 Sea...

2020-09-30 ‧ 由 napcire 分享
DAY 16

Day 16 - Results (1)

今天終於要來看測試結果ㄌ,Kraska et al.使用生活中實際、綜合的數據集比較Learned Index與傳統索引的查詢時間、空間利用率。 Integer...

2020-10-01 ‧ 由 napcire 分享
DAY 17

Day 17 - Results(2)

除了 Learned Index 與 B+-Tree 的比較外,Kraska et al. 也與其他學者所設計的索引結構進行比較。 Learned Index...

2020-10-02 ‧ 由 napcire 分享
DAY 18

Day 18 - 論文總結

根據測試結果 Learned Index 的測試結果是優於 B-Tree,從前面實驗結果可以看到,不論是哪種分布的資料, B-Tree 都遠不及阿~ 但是 !...

2020-10-03 ‧ 由 napcire 分享
DAY 19

Day 19 - 環境設定

接下來我們要實作出 Learned Index,我們所使用的語言為 Python,搭配 Anaconda 管理我們的環境與套件。 甚麼是Anaconda ? A...

2020-10-04 ‧ 由 napcire 分享
DAY 20

Day 20 - 下載相關套件&CDF

延續昨天的使用的套件管理平台Anaconda,今天我們要來下載會使用到的套件至我們的虛擬環境嚕 ! 我們使用Anaconda提供的介面話設定下載 : 有時安裝...

2020-10-05 ‧ 由 napcire 分享