ToRR

Name: ToRR
Creator: IBM Research, Bar-Ilan University, Stanford University, MIT
Published: 2025-02-27 02:56:38
License: 暂无描述

arXiv2025-02-27 更新2025-02-28 收录

下载链接：

https://crfm.stanford.edu/helm/torr/v1.0.0/

下载链接

链接失效反馈

官方服务：

资源简介：

ToRR是一个涵盖不同领域和类型的表格推理能力的广泛覆盖的表格基准，包括10个数据集，这些数据集涵盖了从知识提取到文本推理和数值推理不同层次的能力要求。数据集由IBM Research等机构收集，旨在评估模型在表格任务上的性能和鲁棒性。ToRR的设计考虑了模型在不同表格格式下的表现，提供了关于模型在处理表格数据时的鲁棒性测量，对于选择和评估语言模型在表格理解任务上的能力具有重要价值。

ToRR is a comprehensive table benchmark covering table reasoning capabilities across diverse domains and types. It comprises 10 datasets that span capability requirements ranging from knowledge extraction to textual reasoning and numerical reasoning at different levels. Collected by institutions including IBM Research, this benchmark aims to evaluate models' performance and robustness on table-related tasks. Designed to account for model performance across different table formats, ToRR provides robustness measurements for models when processing tabular data, holding significant value for selecting and evaluating language models' capabilities in table understanding tasks.

提供机构：

IBM Research, Bar-Ilan University, Stanford University, MIT

创建时间：

2025-02-27

搜集汇总

数据集介绍

构建方式

ToRR数据集的构建旨在评估模型在表格推理任务上的性能和鲁棒性。该数据集包括了10个数据集，覆盖了不同领域的表格推理能力。ToRR不仅关注模型的性能排名，还旨在反映模型是否能一致且鲁棒地处理各种常见的表格表示格式。通过使用多种提示配置，包括表格序列化和对表格结构的可选扰动，ToRR能够全面评估模型在表格任务上的表现。此外，ToRR还提供了一个排行榜，并对领先模型在ToRR上的结果进行了全面分析。

特点

ToRR数据集的特点在于其多样性和全面性。它包含了来自不同领域的10个数据集，这些数据集涵盖了从知识提取到文本推理再到数值推理的各种表格推理能力。ToRR不仅关注模型的性能，还关注模型的鲁棒性，即模型在不同提示配置下的一致性和稳定性。此外，ToRR还采用了多种表格序列化和结构扰动，以评估模型对不同表格格式的适应性和鲁棒性。

使用方法

使用ToRR数据集的方法包括以下步骤：首先，从ToRR数据集中选择一个或多个数据集。然后，根据数据集的特性，选择合适的评估指标。接下来，根据ToRR的提示配置，对模型进行评估。评估过程中，需要考虑模型的性能和鲁棒性，即模型在不同提示配置下的一致性和稳定性。最后，根据评估结果，对模型进行排名和分析，以了解模型在表格任务上的表现和鲁棒性。

背景与挑战

背景概述

ToRR数据集，全称Table Reasoning and Robustness，是IBM Research、Bar-Ilan University、Stanford University和MIT的研究人员于2025年创建的。该数据集旨在评估和衡量大型语言模型（LLMs）在表格数据处理和理解方面的性能和鲁棒性。ToRR包含10个数据集，涵盖了不同领域和类型的表格推理能力。该数据集不仅仅关注模型性能排名，更旨在反映模型是否能够一致且鲁棒地处理各种常见的表格表示格式。研究结果表明，即使在强大的模型中，也存在脆性模型行为，这些模型无法在表格数据任务上稳健地执行。尽管没有特定的表格格式能够始终如一地提高性能，但研究表明，在多个格式上进行测试对于可靠地估计模型能力至关重要。

当前挑战

ToRR数据集的相关挑战包括：1)所解决的领域问题的挑战：ToRR旨在评估LLMs在处理和理解表格数据方面的能力，这对于许多现实世界应用（如表格问答、表格事实核查和表格到文本生成）至关重要。然而，LLMs在表格数据处理方面仍然面临重大挑战，包括对表格格式的敏感性和缺乏鲁棒性。2)构建过程中所遇到的挑战：在构建ToRR数据集时，研究人员面临了几个挑战。首先，他们需要选择具有挑战性的数据集，这些数据集能够代表LLMs在表格任务上的推理能力。其次，他们需要设计一个评估流程，能够系统地评估LLMs在不同表格格式和输入扰动下的性能和鲁棒性。此外，他们还需要确保数据集的质量和评估的一致性。

常用场景

经典使用场景

ToRR数据集主要应用于评估大型语言模型（LLMs）在表格推理任务上的性能和鲁棒性。它涵盖了不同类型的表格推理能力，包括知识提取、文本推理和数值推理，并在多个领域和任务中进行了测试。ToRR数据集通过多种表格表示格式对模型进行评估，以检验模型在不同表格格式下的表现是否一致和鲁棒。

衍生相关工作

ToRR数据集的发布引发了关于LLMs在表格推理任务上的鲁棒性和性能评估的广泛研究。一些相关工作，如TableBench、DataBench和TQA-Bench，也评估了LLMs在表格数据任务上的推理能力。此外，一些研究还探讨了表格表示格式和噪声操作对LLMs表格结构理解任务的影响，以及结构变化和对抗性扰动对表格问答性能的影响。这些研究进一步推动了LLMs在表格推理任务上的发展。

数据集最近研究