ToRR

Name: ToRR
Creator: IBM Research, Bar-Ilan University, Stanford University, MIT
Published: 2025-03-03 00:16:39
License: 暂无描述

arXiv2025-03-03 更新2025-03-05 收录

下载链接：

https://github.com/IBM/unitxt/blob/main/prepare/benchmarks/torr.py

下载链接

链接失效反馈

官方服务：

资源简介：

ToRR是一个针对表格推理和鲁棒性的基准测试，包含了10个涵盖不同领域和表格推理能力的不同类型的数据集。这些数据集共同构成了ToRR，用于测试不同级别的推理和表格理解技能。ToRR不仅对模型的性能排名进行评估，还旨在反映模型在处理表格数据时的一致性和鲁棒性。

ToRR is a benchmark for table reasoning and robustness, encompassing 10 distinct datasets spanning diverse domains and table reasoning capabilities. These 10 datasets collectively form the ToRR benchmark, which is designed to evaluate models' reasoning and table comprehension skills at various levels. Beyond assessing the performance rankings of models, ToRR also aims to measure the consistency and robustness of models when processing tabular data.

提供机构：

IBM Research, Bar-Ilan University, Stanford University, MIT

创建时间：

2025-02-27

搜集汇总

数据集介绍

构建方式

ToRR数据集的构建方式是通过选取10个涵盖不同领域和任务类型的表格推理数据集，这些数据集涵盖了从知识提取到文本推理再到数值推理的不同技能层次。数据集的构建旨在评估模型在处理表格数据时的性能和鲁棒性，特别是在面对不同表格表示格式时。为了全面评估模型的能力，ToRR采用了多种提示配置，包括表格序列化（即将表格内容表示为字符串的方法）和表格结构的可选扰动。这些配置的变化旨在模拟现实世界中表格数据的多样性，从而更准确地反映模型在实际应用中的表现。

特点

ToRR数据集的特点在于其广泛性和鲁棒性评估。它不仅包括了多种类型的表格推理任务，还特别关注模型在处理不同表格格式时的表现。ToRR不仅提供了模型性能的排名，还设计用来反映模型是否能够在各种常见的表格表示格式下一致且鲁棒地处理数据。此外，ToRR还提供了一个排行榜，以及领先模型在ToRR上的综合分析结果。研究结果表明，即使是强大的模型也难以在表格数据任务上表现出鲁棒性。

使用方法

使用ToRR数据集的方法涉及对模型进行性能和鲁棒性的评估。首先，选择一个或多个表格推理任务的数据集，然后使用ToRR提供的多种提示配置对模型进行测试。对于每个数据集，模型需要在不同的表格序列化和结构扰动下进行推理。通过分析模型在不同配置下的性能和鲁棒性得分，可以评估模型处理表格数据的综合能力。此外，ToRR还提供了排行榜，帮助用户了解不同模型在表格推理任务上的相对表现。

背景与挑战

背景概述

表数据在现实世界的应用中无处不在，因此，理解和处理表的能力对于大型语言模型（LLMs）来说是一项至关重要的技能。为了评估LLMs在表格推理任务上的性能和鲁棒性，研究人员创建了ToRR数据集。ToRR是一个包含10个数据集的基准测试，这些数据集涵盖了不同领域中的各种表格推理能力。ToRR不仅评估模型的性能排名，还旨在反映模型是否能够在各种常见的表格表示格式中一致且鲁棒地处理表格数据。该数据集由IBM Research、Bar-Ilan University、Stanford University和MIT的研究人员共同创建，旨在解决现有评估中未能涵盖表格任务复杂性和LLMs在表格格式变化时的鲁棒性评估的问题。

当前挑战

ToRR数据集面临的挑战包括：1) LLMs在表格推理任务上的性能普遍较低，即使是强大的模型也很难在表格数据任务上表现鲁棒；2) LLMs对表格格式的微小变化极其敏感，这表明LLMs对提示的敏感性是一个更普遍的现象；3) 评估LLMs性能时，使用单一提示配置是不可靠的，而使用多个提示配置可以显著提高评估的可靠性；4) ToRR数据集包括的任务仅限于输入表格直接嵌入到提示中的情况，这可能无法涵盖所有现实世界场景，例如模型需要独立提取或搜索表格数据的情况。

常用场景

经典使用场景

ToRR数据集广泛应用于评估大型语言模型（LLMs）在表格推理任务上的性能和鲁棒性。它包含10个数据集，涵盖了不同领域和任务类型的表格推理能力。ToRR不仅关注模型的性能排名，还注重模型在处理各种常见表格表示格式时的一致性和鲁棒性。通过对ToRR的评估，研究者可以发现LLMs在表格推理任务上的弱点，并针对性地进行改进。

实际应用

ToRR数据集的实际应用场景包括但不限于金融数据分析、数据分析和可视化、事实核查、数值推理等。通过对ToRR的评估，研究者可以发现LLMs在处理不同类型表格数据时的性能和鲁棒性，并针对性地进行改进。例如，在金融数据分析领域，研究者可以使用ToRR评估LLMs在处理财务报表数据时的性能，并开发更可靠的金融分析模型。在数据分析和可视化领域，研究者可以使用ToRR评估LLMs在处理复杂数据集时的性能，并开发更高效的数据分析工具。在事实核查领域，研究者可以使用ToRR评估LLMs在处理表格数据时的性能，并开发更准确的事实核查模型。此外，ToRR还可以用于评估LLMs在其他领域的表格推理能力，例如科学研究和教育等领域。

衍生相关工作

ToRR数据集的发布推动了LLMs在表格推理领域的研究。研究者们基于ToRR数据集开展了许多相关工作，例如探索LLMs在不同表格格式和输入扰动下的性能变化，以及开发更鲁棒的LLMs模型。此外，ToRR还促进了LLMs在表格推理领域的应用，例如在金融数据分析、数据分析和可视化、事实核查、数值推理等领域。例如，研究者们可以使用ToRR评估LLMs在处理财务报表数据时的性能，并开发更可靠的金融分析模型。在数据分析和可视化领域，研究者可以使用ToRR评估LLMs在处理复杂数据集时的性能，并开发更高效的数据分析工具。在事实核查领域，研究者可以使用ToRR评估LLMs在处理表格数据时的性能，并开发更准确的事实核查模型。这些相关工作进一步推动了LLMs在表格推理领域的发展，并为实际应用提供了更可靠的模型和工具。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集