LiveSQLBench-Base-Lite|文本到SQL数据集|基准测试数据集
收藏LiveSQLBench数据集概述
数据集基本信息
- 名称: LiveSQLBench (BIRD-SQL Pro v0.5)
- 许可证: CC By SA 4.0
- 最新版本: LiveSQLBench-Base-Lite (2025-05-30发布)
- 维护机构: BIRD Team & Google Cloud
- 联系方式: bird.bench25@gmail.com
核心特性
-
动态数据库构建
- 从定期更新的CSV数据集动态构建
- 包含基础版(用户级)和大型版(工业级)数据库
-
真实用户查询与SQL
- 每个任务包含明确的用户查询和标注的黄金标准SQL语句
- 查询基于外部知识库,SQL语句复杂度中等到困难
-
上下文推理(HKB)
- 每个数据库包含分层知识库(HKB)
- 提供结构化JSON和非结构化文档两种格式
-
完整SQL支持
- 支持SELECT(商业智能)和CRUD(数据库管理操作)查询
-
自动化评估
- 通过PostgreSQL模板和docker快速评估
- SELECT任务使用Soft EX指标评估
- DBA任务使用定制测试用例评估
当前版本详情(LiveSQLBench-Base-Lite)
- 数据库数量: 18个(用户级)
- 任务数量: 270个
- 180个SELECT-only任务
- 90个Management任务
- 知识库格式: HKB-JSON和JSON操作SQL
- 任务特点: 基于外部知识的明确用户查询,SQL复杂度中等到困难
数据字段说明
instance_id
: 唯一任务标识符selected_database
: 关联数据库名称query
: 用户查询sol_sql
: 标准SQL解决方案external_knowledge
: 所需外部知识IDpreprocess_sql
: SQL设置查询clean_up_sql
: 重置数据库状态的SQL查询test_cases
: 验证SQL的测试用例category
: "Query"(SELECT)或"Management"(CRUD)high_level
: 是否包含高级描述conditions
: 指示小数/不同条件difficulty_tier
: 任务难度等级(简单/中等/挑战)
评估方法
-
环境准备
- 需要PostgreSQL数据库和docker环境
- 支持Python 3.10+和OpenAI 1.40+
-
评估流程
- 生成提示
- LLM推理
- 在docker容器中运行评估脚本
模型性能(2025-05-28)
排名 | 模型 | 成功率(%) | 平均成本(美元/任务) |
---|---|---|---|
1 | o3-mini | 44.81 | 0.0233 |
2 | GPT-4.1 | 40.00 | 0.0336 |
3 | o4-mini | 37.80 | 0.0231 |
未来版本计划
- LiveSQLBench-Base-Full: 600个BI任务+200个管理任务
- LiveSQLBench-Large-Lite: 工业级数据库(1340+列)
- LiveSQLBench-Large-Full: 全面的大规模数据集

中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录
Beijing Traffic
The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.
Papers with Code 收录