Automatic database description generation for Text-to-SQL

作者: Yingqi Gao, Zhiling Luo

发布时间: 2025-03-03

来源: arxiv

研究方向: 自然语言处理(NLP)与数据库查询转换(NL2SQL)

主要内容

本文提出了一种自动生成数据库描述的方法,用于解决在文本到SQL(Text-to-SQL)任务中,当缺乏显式描述时,如何生成有效的数据库描述的问题。

主要贡献

1. 提出了一种双进程策略,包括粗到细和细到粗的方法,以自动生成数据库描述。

2. 实验结果表明,使用该方法生成的描述可以显著提高SQL生成准确率。

3. 发布了源代码,支持SQLite、MySQL和PostgreSQL数据库,并兼容M-Schema。

研究方法

1. 使用大型语言模型(LLM)来理解数据库结构。

2. 采用粗到细的方法,从数据库层面理解到表层面,再到列层面。

3. 采用细到粗的方法,从列层面理解到表层面。

4. 利用LLM生成列描述和表描述,并限制描述长度以保持有效性。

实验结果

在Bird基准测试中,使用该方法生成的描述将SQL生成准确率提高了0.98%,达到手动标注水平的39%。

未来工作

进一步研究如何提高描述生成的准确性和效率,以及如何将该方法应用于更广泛的数据库类型。