RUST-BENCH
收藏arXiv2025-11-07 更新2025-11-08 收录
下载链接:
https://github.com/tabula-r-reasoning/RUST-BENCH
下载链接
链接失效反馈官方服务:
资源简介:
RUST-BENCH是一个包含7,966个问题的数据集,这些数据来自2,031个真实世界的表格,涵盖科学和体育两个领域。与现有的大多数基准测试不同,RUST-BENCH在表格长度、异构性、领域特异性和推理复杂性四个维度上对语言模型进行了评估,提供了一个全面且真实的评估框架。数据集通过一个LLM驱动的混合符号-语义生成管道构建,该管道系统地构建了高质量的、多跳推理问题,这些问题基于真实世界的半结构化表格,同时降低了人工标注成本。RUST-BENCH旨在推动表格推理研究的发展,并为LLM在表格推理方面的研究提供一个挑战性的测试平台。
RUST-BENCH is a dataset consisting of 7,966 questions sourced from 2,031 real-world tables spanning two domains: science and sports. Unlike most existing benchmarks, RUST-BENCH evaluates language models across four dimensions: table length, heterogeneity, domain specificity, and reasoning complexity, providing a comprehensive and realistic evaluation framework. The dataset is constructed via an LLM-driven hybrid symbolic-semantic generation pipeline, which systematically generates high-quality, multi-hop reasoning questions grounded in real-world semi-structured tables while reducing manual annotation costs. RUST-BENCH aims to advance table reasoning research and serve as a challenging testbed for studies on LLMs' table reasoning capabilities.
提供机构:
弗吉尼亚理工大学,印度德里IGDTUW大学,亚利桑那州立大学
创建时间:
2025-11-07
搜集汇总
数据集介绍

构建方式
在表格推理研究领域,现有基准普遍采用规模有限且结构单一的数据表,难以充分评估大语言模型在真实场景下的复杂推理能力。RUST-BENCH通过精心设计的混合生成流程构建数据集:首先从NSF科研基金数据库和SportSett篮球数据集两个专业领域收集原始数据,经过清洗重组形成包含2,031张大型半结构化表格的基础语料;继而采用符号化与语义化双轨并行的生成策略,符号化方法基于75个SQL模板生成结构化查询并转化为自然语言问题,语义化方法则利用大语言模型从单行或多行文本中直接生成推理型问题;最后通过严格的人工验证机制,由计算机专业研究生对7,966个问题-答案对进行质量筛查,确保数据集的准确性与多样性。
特点
作为面向真实场景的表格推理基准,RUST-BENCH展现出多维度的显著特征。其表格规模远超传统基准,平均包含45.1行和约23,000个标记,充分模拟现实应用中常见的大规模数据表;数据结构呈现典型的半结构化特征,巧妙融合了规整的字段列与自由文本描述,要求模型同时处理符号化数据与自然语言内容;问题类型覆盖七大推理技能,包括时序推理、数值计算、聚合操作等,其中26.18%的问题需要多跳推理,显著提升了推理复杂度;领域专业性体现在科学和体育两大垂直领域,要求模型掌握特定领域的术语体系和推理模式;此外还特别设置了6.83%的不可回答问题,用于评估模型的认知边界判断能力。
使用方法
在模型评估实践中,RUST-BENCH支持多样化的使用方法以全面检验表格推理能力。研究者可将表格线性化为管道分隔格式,与自然语言问题拼接后输入模型,采用零样本、少样本、思维链或程序思维等提示策略进行基准测试;针对复杂推理场景,可结合TableMaster等专用表格推理方法,通过表格内容检索与语义表述增强技术实现自适应推理;评估体系采用精确匹配、BLEU分数和LLM评分三重指标,分别从字面匹配、表面流畅度和语义等价性角度综合评价模型表现;对于不可回答问题,要求模型输出特定拒绝短语以检验其认知边界判断能力,这一设计特别适用于需要高可靠性的实际应用场景。
背景与挑战
背景概述
RUST-BENCH数据集由弗吉尼亚理工大学、IGDTUW新德里分校及亚利桑那州立大学的研究团队于2025年联合推出,旨在解决现有表格推理基准在真实场景中的局限性。该数据集聚焦于半结构化表格中非结构化文本的复杂推理问题,覆盖科学(NSF资助记录)与体育(NBA统计数据)两大领域,包含2,031张真实世界表格及7,966个多跳推理问答对。其核心研究问题在于评估大语言模型在长文本、异构模式和领域专有知识下的推理能力,推动了表格推理研究向真实数据复杂性的跨越,成为该领域重要的评估基准。
当前挑战
RUST-BENCH针对的领域问题挑战在于大语言模型对长表格、异构数据混合及多跳推理的适应性不足,具体表现为模型在千级令牌长度的表格中检索分散证据时性能显著下降,且难以协调结构化字段与自由文本的跨模态推理。构建过程中的挑战包括:通过混合符号-语义流水线生成高质量问答对时,需平衡SQL模板的精确性与自然语言问题的流畅性;同时,人工验证环节需克服大语言模型生成内容的重复性偏差与语义失准,确保多跳推理路径的严谨性与领域术语的准确性。
常用场景
经典使用场景
在表格推理研究领域,RUST-BENCH作为评估大语言模型处理半结构化表格能力的基准测试平台,其经典使用场景聚焦于对科学文献和体育统计两大领域的长表格进行多跳推理。该数据集通过2,031个真实世界表格和7,966个精心设计的问题对,系统评估模型在混合结构化字段与自由文本的复杂环境中进行时序推理、数值计算和语义理解的能力。特别是在处理包含数千标记的长表格时,研究者通过该数据集能够深入分析模型在信息检索、证据整合和推理链构建等方面的表现。
解决学术问题
RUST-BENCH有效解决了传统表格推理基准存在的四大核心问题:表格规模局限性、结构同质化、领域特异性缺失和推理复杂度不足。通过引入平均45.1行、约23,000标记的大规模表格,该数据集突破了现有基准主要依赖维基百科短表格的局限。其混合符号-语义生成管道构建的多样化问题类型,为研究社区提供了评估模型处理异构模式、领域专业术语和多跳推理能力的标准化工具,显著推进了表格理解研究从简化场景向真实复杂环境的转变。
衍生相关工作
基于RUST-BENCH的评估框架,研究社区衍生出多项创新性工作。TableMaster通过自适应表格语言化方法结合文本与符号推理,在数据集上达到最佳性能;Chain-of-Table通过逐步表格演化机制提升推理可解释性;ProTrix集成SQL规划与组合推理策略,显著改善复杂查询处理能力。同时,该数据集还促进了TabSQLify等表格分解方法和NormTab等结构标准化技术的研发,为处理大规模异构表格提供了多样化的技术路线,推动了表格推理研究范式的多元化发展。
以上内容由遇见数据集搜集并总结生成



