Day24－Text to SQL 的改進方法： DAIL-SQL 心得

2024 iThome 鐵人賽

DAY 24

生成式 AI

懶人救星：生成式AI 系列第 24 篇

16th鐵人賽 rag 生成式ai llm chatgpt

這支筆有AI

團隊為了AI而AI

2024-09-25 09:41:32

364 瀏覽

分享至

前言✨

在當前數位時代中，資料庫查詢已成為許多行業的核心任務，然而對於不具備 SQL 語法知識的人來說，查詢資料庫仍是一大挑戰。隨著生成式 AI 模型的進步，語言模型不僅在自然語言處理領域取得顯著成就，更展現了其在自然語言到 SQL 查詢轉換（Text-to-SQL）任務中的潛力。將複雜的資料庫查詢簡化為自然語言輸入，進一步拉近了專業技術和非技術用戶之間的鴻溝。

昨天我們介紹了 DIN-SQL 如何改進 LLM Text-to-SQL 的方法，解決了欄位名稱語意理解困難、 SQL 困難語法錯誤、幻覺等問題，雖然已經能解決掉大部分的問題，但再 LLM 生成方面還是會受限於機率模型的原因，導致生成錯誤。今天將透過此論文一起來發現 LLM 偏好的 Prompt Template 吧。

【Prompt Engineering】

前面我們先介紹了基本的 Text-to-SQL 方法，簡實應用上我們不可能只針對單一表格查詢，經常會使用到多表 JOIN、GROUP BY、Subquery等進階方法，因此我們需要更深入探討解決方法。本篇將會透過兩篇 Text-to-SQL 競賽前幾名的論文來探討 Prompt Engineering 的方法。

介紹一下常見的幾種 Text-to-SQL Prompt：

Basic Prompt(BS𝑝)：
基本的 Prompt 格式。
Text Representation Prompt(TR𝑝)：
相較於BS Prompt 在起始位置增加 instruction 。
OpenAI Demostration Prompt(OD𝑝)：
這是OpenAI官方範例，特色是會在前面加上#字號，並在上方增加指令"Complete sqlite SQL query only and with no expla nation"。
Code Representation Prompt(CR𝑝)：
以DDL格式包裝成Prompt，並且能在CODE-DAVINCI-002模型上達到75.6%的準確度。
Alpaca SFT Prompt(AS𝑝)：
以Llama格式設計成Alpaca SFT Prompt，用於後續supervised fine-tuning。

實驗結果：

實驗模型： GPT-4、GPT-3.5-TURBO、TEXT-DAVINCI-003和Vicuna-33B
資料集：Spider-dev
Prompt： BS𝑝、OD𝑝、TR𝑝、CR𝑝、AS𝑝 （Zero-shot）

透過上圖可以發現 OD𝑝 的綜合水平最好，而 GPT-3.5-TURBO 使用 OD𝑝 可以達到 75.5% 的執行準確率，能用極低的成本實現跟 GPT-4 差不多的水平。出乎意料的是 GPT-4 在具有 FK 的任務上偏好簡單的 BS𝑝 方法，但整體來說還是使用 OD𝑝 的 Prompt 較符合整體效益。也能看出目前開源模型還是跟雲端模型有一定差距。

【In-Context Learning for Text-to-SQL】
論文中也使用了一種 Similarity Selection Context 概念用於提示 LLM 如何生成正確的 SQL 語法，方法大致可分為以下四種:

Random:
顧名思義為隨機抽取k個範例加入Prompt。
Question Similarity Selection：
透過 pre-trained language model 針對「Question」去尋找最相似的範例，常見有 Embedding, KNN 方法。
Masked Question Similarity Selection：
透過替換 Table name、Column name 和 Value 為 Masked 來消除 Embedding 落入特定領域的影響。
Query Similarity Selection：
先用基礎方法生成出 SQL Query 後再透過 Embedding 等方法找出相似的範例。

【Example Organization】

Full-Information Organization (FI𝑂)：
包含Schema一同提供給LLM，缺點浪費大量tokens。
SQL-Only Organization(SO𝑂)：
僅提供Query Syntax，缺點是少了Question和Query的相關性，會導致LLM效果變差。
DAIL：
- Question Representation：DAIL模型使用CR，因為『Create TABLE…』方式(DDL)的 Schema 包括主鍵和外鍵。這對於預測如 "JOIN" 子句等複雜 SQL 結構特別有用。並且 DDL 格式已在 LLM 預訓練中得到充分的知識。
- In-Context Learning：移除sechma並保留問題-SQL對應關係，同時提高token效率。

實驗結果：

實驗模型： GPT-4, GPT-3.5-TURBO, TEXT-DAVINCI-003和Vicuna-33B
資料集： Spider-dev、Spider-Realistic
Prompt： CR𝑝(作者認為透過上圖 CR𝑝 在One-Shot中表現最好，因此後續實驗都使用CR𝑝)
檢索方法： FI𝑂, SO𝑂, DAIL

GPT-4 + In-Context Learning 在 Spider-dev 和 Spider-Realistic 上效果最好。
在DAIL方法下:
- Spider-dev： 72.3% → 83.5%
- Spider-Realistic： 66.5 % →76.0%。
GPT-3.5-Turbo 和 TEXT-DAVINCI-003 的 In-Context Learning 能力有限，也能看出這兩個模型當提示變長時反而效果變差，和筆者使用 GPT-3.5-Turbo 的心得差不多，指令過長會導致效果不穩定。
Vicuna-33B 的表現：隨著範例數量的增加，其性能在DAIL方法下持續提高。

結論🎯

筆者僅挑幾個論文中的重點實驗介紹。筆者幫大家整理了以下 Text-to-SQL 的重點，有些內容可能沒在本文章出現過，有興趣的朋友可以去看原文。

告訴 LLM 外鍵(Foreign Key)資訊和"with no explanation"規則對 Text-to-SQL 能提升準確度。
Zero-Shot方法下：OD𝑝 + FK + "with no explanation" + GPT-3.5-TURBO 的CP值最高～
（with no explanation 是指作者發現在 Prompt 中加入此指令模型能有效提升，類似CoT的相反操作。）
Few-Shot方法下：GPT-4 + DAIL效果最好，但相對消耗的運算資源高，運算時間長不符合實際應用。
文中還提到使用開源模型 FineTune 效果僅能接近 GPT-3.5-TURBO ，因此還是建議使用雲端模型效果更好。