Automatic database description generation for Text-to-SQL
作者: Yingqi Gao, Zhiling Luo
发布时间: 2025-03-03
来源: arxiv
研究方向: 自然语言处理(NLP)与数据库查询转换(NL2SQL)
主要内容
本文提出了一种自动生成数据库描述的方法,用于解决在文本到SQL(Text-to-SQL)任务中,当缺乏显式描述时,如何生成有效的数据库描述的问题。
主要贡献
1. 提出了一种双进程策略,包括粗到细和细到粗的方法,以自动生成数据库描述。
2. 实验结果表明,使用该方法生成的描述可以显著提高SQL生成准确率。
3. 发布了源代码,支持SQLite、MySQL和PostgreSQL数据库,并兼容M-Schema。
研究方法
1. 使用大型语言模型(LLM)来理解数据库结构。
2. 采用粗到细的方法,从数据库层面理解到表层面,再到列层面。
3. 采用细到粗的方法,从列层面理解到表层面。
4. 利用LLM生成列描述和表描述,并限制描述长度以保持有效性。
实验结果
在Bird基准测试中,使用该方法生成的描述将SQL生成准确率提高了0.98%,达到手动标注水平的39%。
未来工作
进一步研究如何提高描述生成的准确性和效率,以及如何将该方法应用于更广泛的数据库类型。