SPARTA
收藏Hugging Face2026-03-03 更新2026-03-04 收录
下载链接:
https://huggingface.co/datasets/pshlego/SPARTA
下载链接
链接失效反馈官方服务:
资源简介:
SPARTA是一个创新的树状结构多跳问答(QA)基准数据集,涵盖文本和表格数据,旨在解决现有数据集如HybridQA和OTT-QA在推理深度、标注错误和规模限制等方面的不足。该数据集通过构建一个统一的参考事实数据库,将源表格与非结构化段落生成的接地表格合并,自动化生成数千个高质量的QA对,仅需四分之一的标注工作量。SPARTA包含三个领域的配置(电影、NBA、医疗),每个配置都有测试和验证集。测试集包含问题ID、问题和相关表格名称,而验证集还包括SQL查询、答案和查询元数据(13个字段)。该数据集适用于跨模态推理和复杂QA系统的开发和评估。
创建时间:
2026-02-17
原始信息汇总
SPARTA 数据集概述
数据集基本信息
- 数据集名称: SPARTA
- 许可证: CC BY-NC 4.0
- 主要任务类别: 问答、表格问答
- 语言: 英语
- 标签: 表格问答、文本-表格问答、多跳推理、SQL、基准测试
- 数据规模: 1K<n<10K
数据集简介
SPARTA 是一个针对文本和表格进行树状结构多跳问答的突破性基准测试。它通过构建一个统一的事实参考数据库(合并源表格与从非结构化文本段落衍生的基础表格),采用端到端框架自动生成数千个高保真度的问答对。该数据集旨在解决现有数据集(如 HybridQA 和 OTT-QA)在推理深度、标注错误和规模上的关键缺陷,并引入了聚合、分组和深度嵌套谓词等高级操作。其创新技术(如基于来源的细化和真实结构强制)确保了可执行且语义合理的查询,模拟了现实世界的复杂性。
数据集结构
数据集包含 3 个配置,对应 3 个领域,每个配置都包含测试集和验证集。
领域
- Movie: 包含电影、类型、评分和传记文本的电影数据库。
- NBA: 包含球员信息、球队、奖项和比赛叙述的篮球统计数据。
- Medical: 包含预约、账单、治疗和患者记录的医疗保健数据。
配置详情
| 配置 | 数据拆分 | 描述 |
|---|---|---|
workload_movie |
测试集、验证集 | 565 + 565 个电影领域查询 |
workload_nba |
测试集、验证集 | 565 + 565 个 NBA 领域查询 |
workload_medical |
测试集、验证集 | 565 + 565 个医疗领域查询 |
数据拆分内容
- 测试集: 包含
question_id、question、table(仅3个字段,答案被保留)。 - 验证集: 包含 SQL 查询、答案、查询元数据(共13个字段)。
验证集字段说明
| 字段名 | 类型 | 描述 |
|---|---|---|
question_id |
字符串 | 唯一查询ID ({domain}:{idx}) |
question |
字符串 | 自然语言问题 |
table |
列表[字符串] | 相关表名 |
sql_query |
字符串 | SQL 查询语句 |
answer |
列表[字符串] | 真实答案 |
is_nested |
布尔值 | 查询是否为嵌套查询 |
is_aggregated |
布尔值 | 查询是否使用聚合 |
height |
整数 | 查询嵌套深度 |
breadth |
字典 | 每层广度 |
max_breadth |
整数 | 最大广度 |
type |
字符串 | 查询类型描述 |
clause_usage |
字典 | SQL 子句使用情况(WHERE, GROUP BY 等) |
aggregate_usage |
字典 | 聚合函数使用情况(SUM, COUNT 等) |
使用方式
可通过 datasets 库加载数据集。示例代码展示了如何加载特定配置(如 workload_nba)的测试集(仅问题)或验证集(含答案和元数据)。
相关资源链接
- 论文: https://openreview.net/pdf?id=8KE9qvKhM4
- 代码: https://github.com/pshlego/SPARTA
- 项目主页: https://sparta-projectpage.github.io/
- 排行榜: https://sparta.postech.ac.kr/
搜集汇总
数据集介绍
构建方式
在跨模态推理领域,SPARTA数据集通过构建统一的事实参考数据库,将结构化表格与非结构化文本段落中的基础表格进行融合,实现了端到端的自动化生成框架。该框架以四分之一的人工标注成本,生成了数千个高质量问答对,并引入了聚合、分组及深度嵌套谓词等高级操作。借助基于来源的精细化处理和真实结构强化技术,确保了查询的可执行性与语义完整性,从而模拟了现实世界中的复杂推理场景。
特点
SPARTA数据集以其树状多跳推理为核心特征,覆盖电影、NBA和医疗三大领域,每个领域均包含测试集与验证集。数据集中的查询不仅具备嵌套结构与聚合操作,还通过详细的元数据字段,如查询深度、宽度及SQL子句使用情况,全面刻画了问题的复杂性。这种设计显著暴露了现有模型在跨模态推理上的不足,使其F1值下降超过30点,为评估与提升问答系统的鲁棒性提供了坚实基础。
使用方法
使用SPARTA数据集时,可通过Hugging Face的datasets库便捷加载不同领域与分割的数据。测试集仅包含问题与相关表格名称,适用于模型预测与评估;验证集则提供了完整的SQL查询、答案及丰富的元数据,支持深入的错误分析与性能诊断。用户可根据研究需求,灵活选择电影、NBA或医疗配置,以考察模型在多样化现实场景中的推理能力。
背景与挑战
背景概述
SPARTA数据集由Postech等研究机构于2023年推出,旨在解决跨模态多跳推理领域的核心问题。该数据集聚焦于文本与表格结合的树状结构问答,针对现有数据集如HybridQA和OTT-QA在推理深度、标注质量与规模上的不足,构建了一个统一的参考事实数据库。通过自动化生成高质量问答对,SPARTA显著降低了人工标注成本,同时引入了聚合、分组及深层嵌套谓词等复杂操作,模拟了电影、NBA和医疗等真实领域的查询场景,为推进跨模态推理研究提供了重要基准。
当前挑战
SPARTA数据集所应对的领域挑战在于,现有模型在跨模态多跳推理任务中表现薄弱,尤其在处理文本与表格混合的复杂查询时,准确率下降超过30个F1点。构建过程中的挑战包括:如何自动化生成兼具语义合理性与结构真实性的问答对,确保查询可执行且覆盖深层嵌套操作;以及如何在减少人工标注负担的同时,维持数据的高保真度与多样性,以准确反映现实世界问题的复杂性。
常用场景
经典使用场景
在跨模态推理领域,SPARTA数据集为树状多跳问答任务提供了标准化的评估平台。其经典使用场景集中于训练和测试模型在文本与表格数据间进行深度推理的能力,例如通过电影、NBA和医疗领域的复杂查询,模拟真实世界的信息检索过程。研究者利用该数据集验证模型在聚合、分组及嵌套谓词等高级操作上的表现,从而推动跨模态理解技术的边界。
解决学术问题
SPARTA数据集有效解决了现有跨模态问答基准中存在的推理浅层化、标注错误及规模有限等学术问题。通过构建统一的参考事实数据库,并自动化生成高保真问答对,该数据集显著降低了标注成本,同时引入了深层嵌套和复杂聚合操作,为评估模型在真实场景下的语义理解和执行能力提供了可靠依据。其创新性设计填补了多跳推理领域的空白,促进了更鲁棒的问答系统发展。
衍生相关工作
基于SPARTA数据集,学术界衍生了一系列经典研究工作,主要集中在改进跨模态推理模型和增强查询执行能力方面。例如,研究者开发了新型神经网络架构以应对深层嵌套查询,并提出了基于来源的细化方法优化语义一致性。这些工作不仅推动了表格问答技术的进步,还为多跳推理任务设立了新的性能基准,影响了后续基准数据集的设计理念。
以上内容由遇见数据集搜集并总结生成



