Sys2Bench

Name: Sys2Bench
Creator: 德克萨斯A&M大学计算机科学与工程系
Published: 2025-02-18 12:11:29
License: 暂无描述

arXiv2025-02-18 更新2025-02-20 收录

下载链接：

https://github.com/divelab/sys2bench

下载链接

链接失效反馈

官方服务：

资源简介：

Sys2Bench是一个全面评估大型语言模型在推理和规划能力上的基准，包含11个数据集，涵盖算术推理、逻辑推理、常识推理、算法推理和规划五大类别。这些数据集的任务包括解决算术问题、逻辑问题、利用常识进行推理、解决算法问题以及进行规划。Sys2Bench的构建旨在评估不同推理和规划任务中现有推理时间技术的效果，以推动大型语言模型在这方面的能力提升。

Sys2Bench is a benchmark for comprehensively evaluating the reasoning and planning capabilities of large language models. It consists of 11 datasets covering five major categories: arithmetic reasoning, logical reasoning, commonsense reasoning, algorithmic reasoning, and planning. The tasks included in these datasets cover solving arithmetic problems, logical problems, reasoning via commonsense, solving algorithmic problems, and carrying out planning. Sys2Bench is constructed to assess the effectiveness of existing reasoning-time techniques across diverse reasoning and planning tasks, so as to promote the improvement of large language models' capabilities in this field.

提供机构：

德克萨斯A&M大学计算机科学与工程系

创建时间：

2025-02-18

搜集汇总

数据集介绍

构建方式

Sys2Bench数据集的构建旨在全面评估大型语言模型（LLMs）在推理和规划方面的能力。该数据集涵盖了五类任务：算术推理、逻辑推理、常识推理、算法推理和规划，共包含11个不同的数据集。构建过程中，研究者采用了多种推理任务，包括算术问题解决、逻辑结论推导、常识知识问答、算法问题解决和规划任务，以此来模拟现实世界中的复杂问题。数据集的构建考虑了不同任务的多样性，以确保LLMs在各种推理和规划场景下都能得到充分的评估。

特点

Sys2Bench数据集的特点在于其多样性和复杂性。它不仅包含了各种类型的推理任务，而且每个任务都设计得既具有挑战性又具有实用性。此外，Sys2Bench数据集还包含了一系列流行的推理时间技术，如思维链（CoT）、自洽性（SC）、思维树（ToT）和思维规划（RAP），以及大型推理模型（LRMs）。这使得研究者可以全面评估这些技术在LLMs推理和规划能力提升方面的效果。Sys2Bench数据集的另一个特点是它揭示了推理时间技术提升的局限性，表明没有一种单一的技术能够在所有任务上始终表现出色。

使用方法

Sys2Bench数据集的使用方法包括以下几个方面：首先，研究者可以根据自己的需要选择特定的任务或数据集进行评估。其次，他们可以使用数据集中的推理时间技术，如CoT、SC、ToT和RAP，来测试LLMs在推理和规划方面的能力。此外，Sys2Bench数据集还提供了LRMs，如O1和O1-mini，这些模型在推理任务上表现优异。最后，Sys2Bench数据集还提供了详细的评估指标，如准确性，用于衡量LLMs在各种任务上的表现。通过使用Sys2Bench数据集，研究者可以全面了解LLMs在推理和规划方面的能力，并为未来LLMs的改进提供有价值的参考。

背景与挑战

背景概述

Sys2Bench数据集是在2025年由德克萨斯A&M大学计算机科学与工程系的Shubham Parashar、Blake Olson、Sambhav Khurana、Eric Li、Hongyi Ling、James Caverlee和Shuiwang Ji等研究人员创建的。该数据集旨在评估大型语言模型（LLMs）在解决复杂任务时的推理和规划能力。Sys2Bench数据集的研究背景是基于近年来推理时技术（inference-time techniques）的进步，这些技术通过在推理过程中探索中间步骤来增强LLMs的推理能力，而不需要进行额外的训练。Sys2Bench数据集通过构建一个包含十一项任务的综合基准，对现有推理时技术进行了广泛的实验评估，这些任务涵盖了算术推理、逻辑推理、常识推理、算法推理和规划等五个类别。Sys2Bench数据集的研究成果表明，简单地扩展推理时计算存在局限性，因为没有任何一种推理时技术能够在所有推理和规划任务中始终表现良好。Sys2Bench数据集的创建对相关领域产生了重要影响，为LLMs推理和规划能力的评估提供了新的视角和方法。

当前挑战

Sys2Bench数据集的挑战主要在于评估LLMs推理和规划能力的方法的局限性。尽管推理时技术已经提高了LLMs的推理和规划能力，但这些方法的评估仅限于特定的任务、模型和数据集。此外，这些方法具有额外的计算成本，呈现了计算开销和性能收益之间的权衡。Sys2Bench数据集的创建旨在克服这一局限性，通过在一个综合基准上评估多个任务和模型，揭示推理时技术的模式和局限性。Sys2Bench数据集的实验结果表明，简单地扩展推理时计算存在局限性，因为没有任何一种推理时技术能够在所有推理和规划任务中始终表现良好。因此，需要探索更多样化的方法来提高LLMs的整体推理能力。

常用场景

经典使用场景

Sys2Bench数据集被广泛用于评估大型语言模型（LLMs）在推理和规划能力方面的性能。该数据集涵盖了包括算术推理、逻辑推理、常识推理、算法推理和规划在内的五个主要推理类型，为研究人员提供了一个全面评估LLMs推理和规划能力的框架。Sys2Bench通过将复杂的任务分解为更简单的中间步骤，帮助研究人员探索推理和规划过程中LLMs的表现，从而更好地理解LLMs在处理复杂任务时的推理和规划能力。

衍生相关工作

Sys2Bench数据集的发布引发了学术界对LLMs推理和规划能力的研究热潮。许多研究机构和公司开始利用Sys2Bench数据集进行LLMs推理和规划能力的研究，并取得了一系列成果。例如，OpenAI的O1模型和LLaMA模型在Sys2Bench数据集上取得了优异的性能，展示了LLMs在推理和规划能力方面的巨大潜力。此外，Sys2Bench数据集还促进了推理和规划算法的研究，为LLMs在实际应用中的使用提供了更多的可能性。

数据集最近研究