STARQA
收藏arXiv2025-09-24 更新2025-09-26 收录
下载链接:
https://zenodo.org/records/17157169
下载链接
链接失效反馈官方服务:
资源简介:
STARQA是一个包含复杂分析推理问题的公开数据集,由人类创建,涵盖了三个专业领域的数据库。该数据集包含362个真实复杂分析和推理问题及答案,涉及电影、体育和电子商务领域。每个问题都需要一种或多种推理类型,如数学运算、时间序列分析、嵌套查询、聚合分析计算、时间推理和情景理解。STARQA旨在评估分析推理能力,并为构建更强的结构化数据库推理系统提供研究方向。
STARQA is a public dataset of complex analytical and reasoning questions, created by human annotators, covering databases across three professional domains. This dataset includes 362 real-world complex analytical and reasoning questions paired with their corresponding answers, spanning the domains of film, sports, and e-commerce. Each question necessitates one or more reasoning types, including mathematical operations, time series analysis, nested queries, aggregate analytical computation, temporal reasoning, and situational understanding. STARQA is designed to evaluate analytical reasoning capabilities and offer research directions for developing more robust structured database reasoning systems.
提供机构:
印度理工学院德里分校
创建时间:
2025-09-24
搜集汇总
数据集介绍

构建方式
STARQA数据集的构建过程体现了对复杂分析推理问题的深度聚焦。研究团队基于三个专业领域数据库(IMDb电影数据、EuroSoccer体育数据和Olist电商数据),由具备编程与自然语言处理背景的专家人工编写了362个真实场景下的复杂分析问题。每个问题均需涉及统计运算、时间序列分析、嵌套查询等至少一种推理类型,并通过标准化流程确保问题语义明确、答案格式统一。构建过程中特别注重消除实体链接和模式适配等干扰因素,使数据集能精准评估模型的推理能力。
特点
STARQA的核心特点在于其问题设计的复杂性和多样性。该数据集覆盖12类推理场景,包括基于聚合分析的计算、复杂条件过滤、场景理解等高阶任务,平均每个问题涉及2.35个答案元组。不同于传统Text2SQL基准,STARQA的问题往往需要结合程序化逻辑处理,例如需要同时使用SQL进行数据提取和Python进行复杂运算。数据集还提供了精确的自动化评估框架,通过规范化的元组输出格式和集合匹配机制,确保评测结果的客观性。
使用方法
使用STARQA进行评测时,可采用传统Text2SQL方法或新型混合架构。研究提出的TEXT2SQLCODE框架将任务分解为三步:通过分解器识别需要SQL数据获取或Python逻辑处理的子任务,分别生成对应代码并执行。对于复杂问题,可启用HYBRID混合策略,当Text2SQL输出不一致时自动切换至TEXT2SQLCODE流程。评估时需严格遵循数据集的输出规范,以执行准确率作为核心指标,通过比较模型生成的元组列表与标准答案的集合匹配度来衡量性能。
背景与挑战
背景概述
STARQA数据集于2025年由Bloomberg与印度理工学院德里分校的研究团队联合发布,专门针对结构化数据库的复杂分析推理问答任务而构建。该数据集聚焦于超越传统文本到SQL转换的局限性,旨在解决专业分析师在处理大规模专有关系型数据库时面临的高阶推理需求。通过涵盖电影、体育和电子商务三个专业领域的真实数据库,STARQA首次系统性地整合了数学运算、时间序列分析、嵌套查询等12类复杂推理任务,为评估大语言模型在结构化数据上的深度推理能力提供了基准平台。
当前挑战
STARQA面临的领域挑战在于传统文本到SQL方法难以处理需要多步推理的复杂分析问题,例如涉及统计检验、场景模拟或跨周期计算的任务。在构建过程中,研究者需要平衡问题的真实性与可评估性,既要确保问题符合分析师的实际工作场景,又要避免因实体链接或模式适配等无关因素干扰推理能力的准确测量。此外,数据标注需同时编写SQL与Python的混合代码作为参考答案,这对标注者的多语言编程能力和领域知识提出了较高要求。
常用场景
经典使用场景
STARQA数据集在复杂分析推理的自然语言转SQL任务中展现出其核心价值,尤其在需要跨数据库进行深度计算和逻辑处理的场景下。该数据集通过涵盖统计运算、时间序列分析、嵌套查询等12类复杂推理问题,为评估模型在真实世界数据库上的多步骤推理能力提供了标准化测试平台。在电影、体育和电子商务三大领域的专业数据库上,研究人员能够系统性地检验模型处理聚合分析计算、场景理解和常识推理等挑战性任务的表现。
衍生相关工作
该数据集催生了TEXT2SQLCODE这一创新性框架,将传统文本转SQL任务扩展为SQL与Python的协同执行范式。后续研究在此基础上发展了动态路由机制,通过自一致性检测自动选择纯SQL执行或混合执行路径。相关工作还探索了基于检索增强的上下文学习策略,以及针对复杂查询的渐进式修复方法。这些衍生研究共同推动了面向分析型查询的多模态代码生成技术发展,为构建更鲁棒的数据库智能交互系统奠定了理论基础。
数据集最近研究
最新研究方向
在结构化数据库问答领域,STARQA数据集的推出标志着复杂分析推理任务研究的重要进展。该数据集聚焦于超越传统SQL表达能力的多维推理挑战,如时间序列分析、统计运算和嵌套查询等前沿方向。当前研究热点集中在探索SQL与Python的协同计算框架,通过分解数据获取与复杂处理的步骤,有效应对高复杂度问题的求解需求。这一趋势不仅推动了混合式语义解析方法的发展,也为大语言模型在专业数据分析场景下的能力评估提供了新的基准,对金融、体育和电子商务等领域的智能决策支持系统具有深远影响。
相关研究论文
- 1STARQA: A Question Answering Dataset for Complex Analytical Reasoning over Structured Databases印度理工学院德里分校 · 2025年
以上内容由遇见数据集搜集并总结生成



