CORGI
收藏arXiv2025-10-09 更新2025-10-10 收录
下载链接:
https://github.com/corgibenchmark/CORGI
下载链接
链接失效反馈官方服务:
资源简介:
CORGI是一个为商业领域设计的新的Text-to-SQL基准数据集。它由受DoorDash、Airbnb和Lululemon等企业启发的合成数据库组成,涵盖了描述性、解释性、预测性和推荐性等四种越来越复杂的商业查询类别。CORGI旨在模拟真实世界的商业环境,并要求因果推理、时间预测和战略推荐等多层次和多步骤的智能代理。该数据集通过GitHub公开提供,并附带了一个评估框架和一个公共提交平台。
提供机构:
康奈尔大学和Gena AI
创建时间:
2025-10-09
原始信息汇总
CORGI 数据集概述
数据集简介
CORGI 是一个专为商业智能场景设计的文本到 SQL 基准测试数据集,专注于现实商业环境中的因果推理、预测分析和战略推荐能力评估。
核心特征
- 领域定位:商业智能领域
- 创新点:超越传统事实检索,支持因果推理、预测分析和战略推荐
- 数据来源:受 DoorDash、Airbnb、Lululemon 等企业启发
- 覆盖范围:10 个主要垂直领域,涵盖消费平台、零售和数字服务
技术规格
数据库规模
- 平均每个模式包含约 26 个表
- 数据库规模显著大于 BIRD(7.3 个表)
查询分类
| 类型 | 描述 | 示例 |
|---|---|---|
| 描述性 | 基础数据检索 | "2025年9月1日的总销售额是多少?" |
| 解释性 | 原因分析 | "为什么Pop Mart纽约店上个月收入下降?" |
| 预测性 | 未来趋势预测 | "下季度在线将销售多少Labubu?" |
| 推荐性 | 战略建议 | "明年如何拓展Labubu在欧洲市场?" |
评估体系
评估维度
- 结构完整性
- SQL 执行成功率
- 数据感知能力
- 洞察力深度
- 操作可行性
- 目标对齐度
- 合规性(针对类型4)
评估方法
- 多智能体评估框架
- 七类专业评分智能体
- 结合人工配对比较(Bradley-Terry框架)
- 基于MBA咨询框架的业务逻辑评估
性能表现
- 难度比 BIRD 高 21%
- 大语言模型在类型4(推荐性)任务上表现较差
- GPT-4o 和 Gemini 2.5 的 SQL 执行成功率在 57-75% 之间
数据访问
- 数据集下载:https://drive.google.com/drive/folders/1w3MjpcdeccC6XJ7ODYOL56-baoVgoPAe?usp=sharing
- 在线评估平台:https://txt2sql.com
- 项目主页:https://github.com/corgibenchmark/CORGI
搜集汇总
数据集介绍

构建方式
在商业智能领域,CORGI数据集的构建采用多阶段合成流程,以平衡真实性与可扩展性。首先基于公开资料设计企业级实体关系图,模拟Doordash、Airbnb等10个垂直领域的业务逻辑;随后通过三类仿真规则生成数据:业务操作规则编码确定性流程,潜在特征分布模拟用户行为模式,季节性趋势反映动态波动。最后利用大语言模型生成符合规则的数据,并经过人工审核确保质量。
特点
CORGI的突出特点在于其深度契合商业决策场景的复杂性。数据集涵盖描述性、解释性、预测性和建议性四类渐进式查询,突破了传统文本到SQL任务仅关注事实检索的局限。其数据库平均包含26张表,显著高于同类基准,且每个场景均整合内部业务文档与外部市场信息,支持因果推理、时序预测等高级分析需求,为评估智能体多层级推理能力提供标准化测试环境。
使用方法
该数据集通过结构化流程支持端到端评估:用户输入自然语言问题后,系统依次执行查询生成、数据库执行与答案合成三个阶段。评估框架采用原子化多智能体机制,由判别器动态选择七个专项评分维度,涵盖逻辑结构、数据感知、运营可行性等商业咨询核心要素。研究者可通过公开平台提交模型输出,自动获取维度分数与人工评估的加权综合结果。
背景与挑战
背景概述
CORGI数据集于2025年由康奈尔大学与Gena AI联合研发,作为面向商业领域的文本到SQL基准测试,旨在填补现有基准在真实商业智能场景建模方面的空白。该数据集以Doordash、Airbnb、Lululemon等十家代表性企业的业务模型为蓝本,构建包含26张表的大型跨领域数据库,覆盖食品配送、房屋租赁、服装电商等三大商业类别。其核心研究问题聚焦于提升大语言模型在商业决策中的推理能力,通过描述性、解释性、预测性和建议性四类渐进复杂的查询类型,推动自然语言处理技术在因果推理、时序预测和战略推荐等高层商业分析任务中的发展。
当前挑战
在领域问题层面,CORGI需解决商业智能中从历史记录检索向趋势分析与战略决策的范式转换挑战,现有模型在解释性查询上的执行成功率较BIRD基准降低21%,尤其在高阶预测与推荐任务中面临因果推断与可操作方案生成的性能瓶颈。在构建过程中,研究团队需平衡合成数据的真实性与可访问性,通过业务运营规则、潜在特征分布和季节趋势三类仿真机制模拟企业运营逻辑,同时确保生成数据在支付方式分布与销售波动等维度保持统计合理性,但尚未建模规则间的复合效应,这限制了数据对现实商业复杂性的完全还原。
常用场景
经典使用场景
在商业智能分析领域,CORGI数据集作为文本到SQL转换任务的重要基准,主要应用于评估大型语言模型在复杂商业场景下的推理能力。该数据集通过模拟真实企业运营环境,涵盖从食品配送到奢侈品电商等十个垂直领域,为研究者提供了测试模型在描述性、解释性、预测性和推荐性查询中表现的标准平台。其精心设计的四层级问题分类体系,能够系统评估模型从基础数据检索到高级战略规划的全方位能力。
解决学术问题
CORGI数据集有效解决了传统文本到SQL基准在商业智能场景中的局限性问题。现有基准如BIRD和Spider主要关注历史记录的事实检索,而CORGI首次将因果推理、时间预测和战略推荐等高级商业推理纳入评估体系。通过引入基于商业文献的七维度评估框架,该数据集填补了模型在商业决策支持能力评估方面的学术空白,为研究语言模型在真实商业环境中的适用性提供了重要工具。
衍生相关工作
基于CORGI数据集的研究推动了文本到SQL领域多个方向的发展。其提出的原子化多智能体评估机制为复杂查询的自动评估提供了新范式,相关方法已被应用于其他领域的模型评估任务。数据集构建中引入的商业操作规则和潜在特征分布模拟技术,为合成数据生成领域提供了重要参考。此外,CORGI在线平台采用的布拉德利-特里偏好建模框架,也在人机协同评估系统中得到进一步应用。
以上内容由遇见数据集搜集并总结生成



