Sys2Bench

github2025-03-05 更新2025-02-19 收录

下载链接：

https://github.com/divelab/Sys2Bench

下载链接

链接失效反馈

官方服务：

资源简介：

Sys2Bench是一个综合基准测试集，用于评估大型语言模型在解决复杂数学任务时的推理和规划能力。

Sys2Bench is a comprehensive benchmark dataset designed to evaluate the reasoning and planning capabilities of large language models (LLMs) when tackling complex mathematical tasks.

创建时间：

2025-02-17

原始信息汇总

Sys2Bench 数据集概述

项目简介

Sys2Bench 是一个专门评估大型语言模型（LLMs）推理和规划能力的基准测试。该基准测试关注于推理过程中中间步骤的探索，以增强LLMs的推理和规划能力，而不需要额外的训练。

主要贡献：

探索了扩展推理时技术如何提高推理和规划能力，并理解计算成本与性能之间的权衡。
构建了一个全面的基准测试 Sys2Bench，并在五个类别（算术推理、逻辑推理、常识推理、算法推理和规划）的十一个不同任务上对现有的推理时技术进行了广泛实验。

Sys2Bench 任务概览

Sys2Bench 包含以下任务和相应信息：

算法推理与规划

Game of 24: 提出一个算术表达式以达到24。
Binpacking: 将物品打包到尽可能少的箱子中。
Blocksworld: 规划动作以从初始状态转换到目标状态。
Trip Plan: 规划一个跨城市的旅行行程。
Calendar Plan: 考虑人员时间约束安排会议。
Rubiks Cube: 解出一个2×2的魔方。

算术推理

GSM8K: 解决高中算术问题。
AQuA: 解决代数问题。

逻辑推理

ProntoQA: 从一组谓词中得出逻辑结论。

常识推理

StrategyQA: 回答一般知识问题。
HotPotQA: 使用提供的事实回答一般知识问题。

快速入门

先决条件

Conda 或 Miniconda
Python 3.10+
CUDA 12.0+

安装

克隆仓库
设置 Python 路径
运行 setup.sh 脚本

使用示例

运行完整 Sys2Bench 套件

sh bash sys2bench.sh

通过 Shell 脚本运行特定方法

sh bash methods/CoT/gsm8k/cot.sh

通过 Python 运行特定方法

sh python methods/ToT/game24/inference.py --base_lm openai --n_beam 5 --depth_limit 4 --openai_model gpt-4o-mini

许可证

Apache-2.0 许可证

联系方式

Shubham Parashar - shubhamprshr@tamu.edu
Blake Olson - blakeolson@tamu.edu
Eric Li - draydere@tamu.edu
Hongyi Ling - hongyiling@tamu.edu

搜集汇总

数据集介绍

构建方式

Sys2Bench数据集的构建，旨在评估大型语言模型在解决复杂任务时的推理和规划能力。该数据集通过综合十一项不同任务，涵盖算法推理、规划、算术推理、逻辑推理和常识推理五个类别，对现有的推理时技术进行了全面评估。

特点

Sys2Bench数据集的特点在于其多样性，包含多种类型的推理任务，能够全面评估大型语言模型在不同场景下的表现。此外，数据集提供了详细的任务描述和输入输出示例，有助于研究者更好地理解和应用。

使用方法

使用Sys2Bench数据集，用户首先需要确保安装了所需的依赖环境，包括Conda或Miniconda、Python 3.10和CUDA 12.0。安装完成后，可以通过执行提供的shell脚本或Python脚本，运行全部或特定的实验。用户还可以自定义参数进行不同的配置尝试。

背景与挑战

背景概述

Sys2Bench是一个专门用于评估大型语言模型在解决复杂数学任务时的推理和规划能力的数据集。该数据集由德克萨斯大学阿灵顿分校的DiveLab团队创建于近期，旨在探索推理时技术如何在不增加额外训练的情况下提升LLM的推理和规划能力。Sys2Bench包含了11个不同的数据集，跨越了算法推理、规划、算术推理、逻辑推理和常识推理五个类别，为研究提供了丰富的实验材料。该数据集的构建，对理解和提升大型语言模型的推理和规划能力具有重要意义，对相关领域产生了显著影响。

当前挑战

Sys2Bench面临的挑战主要涉及两个方面：一是所解决领域问题的挑战，即如何准确评估和提升LLM在推理和规划方面的性能；二是构建过程中的挑战，包括如何设计具有多样性和代表性的任务，以及如何高效地处理和评估大量的实验数据。此外，Sys2Bench还需要不断地更新和完善，以适应不断发展的LLM技术，并解决新的研究领域问题。

常用场景

经典使用场景

Sys2Bench作为一个评估大型语言模型在解决复杂数学任务中的推理和规划能力的基准，其经典使用场景在于对模型在算术推理、逻辑推理、常识推理、算法推理和规划任务中的表现进行综合评价。通过这一基准，研究者能够深入理解模型在不同类型任务中的性能差异，为大型语言模型在实际应用中的优化提供重要参考。

解决学术问题

Sys2Bench解决了学术界在评估大型语言模型推理和规划能力时缺乏统一标准的问题。该数据集提供了多种类型的问题，覆盖了从算术到逻辑再到规划的不同领域，使得研究者可以在一个框架下对比不同模型的表现，从而促进了学术研究的深入和比较的公正性。

衍生相关工作

Sys2Bench的推出，激发了大量相关研究工作，包括但不限于对现有推理方法的改进、新型推理算法的提出，以及在不同应用场景中模型性能的评估。这些衍生工作不仅推动了语言模型推理技术的发展，也为理解和提升模型在实际应用中的表现提供了宝贵的研究资源。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集