当前位置: 首页 > news >正文

LLM Text2SQL NL2SQL 实战总结

目录

尽量全面的描述表的功能

尽量全面的描述字段的功能

适当放弃意义等价的字段

放弃业务上无用的字段


对于LLM来说,由于它没有什么行业经验,所以我们需要尽可能的给予它恰当的“背景信息”,才能使它更好的工作。所谓恰当,不是越多越好,因为太多的信息会消耗掉LLM的可接受上下文大小,同时也可能会造成LLM信息理解混乱。因此,笔者从实践中总结了以下几条数据库“背景信息”整理原则,用于提高LLM生成SQL语句的正确率:

尽量全面的描述表的功能

  • 以业务视角描述表的功能含义,表的描述文字尽量与常用的业务数据契合。比如:这是一张学生信息表。

  • 包含表中拥有的核心字段信息。如:包括,学生的学号,姓名,年龄,性别,班级ID...。这些信息可以有效帮助LLM判断回答问题时,是否要检索这张表。

  • 描述表的关联性,如果当前表与其它表有关联性,需要描述表的关联性。比如:本表通过班级ID与班级表相关,班级表的ID字段是班级ID的外键。这种描述方便LLM了解表之间的结构。

http://www.xdnf.cn/news/462691.html

相关文章:

  • set, multiset ,unordered_set; map, multimap, unordered_map
  • 【向量维度如何选择?】
  • 深入探索向量数据库:构建智能应用的新基础
  • linux dbus
  • print()函数详解:输出文字、变量与格式化
  • Windows 安装 Redis 的几种方式
  • 设计模式(基于Python3)
  • Python课程及开源项目推荐
  • 宣纸阁项目测试报告
  • 流程编辑器Bpmn与LogicFlow学习
  • 2025长三角数学建模C题完整思路
  • Python多线程
  • 计算机网络:什么是电磁波以及有什么危害?
  • 谷歌量子计算机:开启计算新纪元
  • C# 活动窗体截图:基于 Win32 API 的实现
  • 有效的括号
  • 【蓝桥杯省赛真题49】python偶数 第十五届蓝桥杯青少组Python编程省赛真题解析
  • ROS--NAVI DWA
  • 【c语言】动态内存分配
  • MySQL 迁移至 Doris 最佳实践方案
  • 低功耗实现方法思路总结
  • 策略模式-枚举实现
  • 如何判断一个网站后端是用什么语言写的
  • 7.Pyecharts:全局配置项1
  • Python 翻译词典小程序
  • 平替BioLegend品牌-Elabscience FITC Anti-Mouse CD8a抗体(53-6.7)精准标记T细胞表面抗原
  • 断点续传使用场景,完整前后端实现示例,包括上传,下载,验证
  • 麒麟系统ARM64架构部署mysql、jdk和java项目
  • 牛客网刷题:NC208813求逆序数
  • 【PX4飞控】在 Matlab Simulink 中使用 Mavlink 协议与 PX4 飞行器进行交互