procbench

Hugging Face2024-10-15 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/ifujisawa/procbench

下载链接

链接失效反馈

官方服务：

资源简介：

ProcBench是一个用于评估大型语言模型（LLMs）多步骤推理能力的基准数据集。它专注于指令遵循性，要求模型通过遵循明确的、逐步的程序来解决问题。数据集中的任务不需要复杂的隐含知识，而是强调严格遵守提供的指令。数据集评估模型在任务上的表现，这些任务对人类来说是直接的，但随着步骤的增加对LLMs来说是具有挑战性的。数据集包含23种任务类型，共有5,520个示例，涉及字符串操作、列表处理和数值计算等操作。任务分为三个难度级别：短（2-6步）、中（7-16步）和长（17-25步）。

创建时间：

2024-10-04

原始信息汇总

ProcBench 数据集概述

数据集描述

ProcBench 是一个用于评估大型语言模型（LLMs）多步骤推理能力的基准数据集。它专注于指令遵循性，要求模型通过遵循明确的、逐步的程序来解决问题。数据集中的任务不需要复杂的隐含知识，而是强调严格遵循提供的指令。该数据集评估模型在任务上的表现，这些任务对人类来说是直接的，但随着步骤的增加对LLMs来说是具有挑战性的。

语言：英语
许可证：CC-BY-4.0

数据集结构

数据集包含23种任务类型，总计5,520个示例。任务涉及字符串操作、列表处理和数值计算等操作。每个任务都配有一组明确的指令，要求模型输出中间状态以及最终结果。

难度级别

任务分为三个难度级别：

短：2-6步
中：7-16步
长：17-25步

难度级别可以通过运行GitHub仓库中提供的预处理脚本preprocess.py来获取。

数据集创建

ProcBench 的创建旨在评估LLMs遵循指令的能力。目标是隔离并测试指令遵循性，而不依赖于复杂的隐含知识，提供了一个独特的程序推理视角。

数据收集和处理

每个示例由模板和问题组合而成。每个任务都与一个固定的模板相关联，该模板包含解决问题的程序。所有用于创建问题的模板和生成器都可以在GitHub仓库中找到。

引用

bibtex @misc{fujisawa2024procbench, title={ProcBench: Benchmark for Multi-Step Reasoning and Following Procedure}, author={Ippei Fujisawa and Sensho Nobe and Hiroki Seto and Rina Onda and Yoshiaki Uchida and Hiroki Ikoma and Pei-Chun Chien and Ryota Kanai}, year={2024}, eprint={2410.03117}, archivePrefix={arXiv}, primaryClass={cs.AI} }

搜集汇总

数据集介绍

构建方式

ProcBench数据集的构建旨在评估大型语言模型（LLMs）在多步骤推理任务中的表现。该数据集通过结合模板和问题的方式生成每个示例，每个任务均与一个固定的模板相关联，模板中包含了解决问题的步骤。所有模板和问题生成器均可在GitHub仓库中获取，确保了数据生成的透明性和可重复性。

特点

ProcBench数据集包含23种任务类型，共计5,520个示例，涵盖了字符串操作、列表处理和数值计算等多种操作。每个任务均配有明确的指令，要求模型在输出最终结果的同时，展示中间状态。任务根据步骤数量分为短、中、长三个难度级别，分别为2-6步、7-16步和17-25步，为模型提供了不同层次的挑战。

使用方法

ProcBench数据集主要用于评估LLMs在多步骤程序任务中的指令遵循能力。用户可以通过加载数据集中的Parquet文件，直接使用任务数据进行模型测试。此外，GitHub仓库中提供的预处理脚本`preprocess.py`可用于获取任务的难度级别，便于用户根据需求进行任务筛选和分析。

背景与挑战

背景概述

ProcBench数据集由Araya、AI Alignment Network和AutoRes等机构于2024年联合开发，旨在评估大型语言模型（LLMs）在多步骤推理任务中的指令遵循能力。该数据集包含23种任务类型，共计5,520个示例，涵盖字符串操作、列表处理和数值计算等多种操作。其核心研究问题聚焦于模型在无需复杂隐含知识的情况下，严格遵循显式步骤指令的能力。ProcBench的发布为研究LLMs在程序化推理中的表现提供了独特的视角，推动了相关领域的发展。

当前挑战

ProcBench数据集在解决多步骤推理任务时面临多重挑战。首先，随着步骤数量的增加，模型在保持指令遵循一致性方面的难度显著提升，尤其是在长步骤任务中，模型容易偏离预期路径。其次，数据集的构建过程中，确保每个任务的模板与问题之间的精确匹配是一项复杂的工作，需要细致的验证与调整。此外，如何在不依赖隐含知识的情况下，设计出既能测试模型能力又不过于简单化的任务，也是构建过程中的一大挑战。

常用场景

经典使用场景

ProcBench数据集主要用于评估大型语言模型（LLMs）在多步骤推理任务中的指令遵循能力。通过提供明确的步骤化指令，该数据集要求模型在解决字符串操作、列表处理和数值计算等任务时，严格遵循指令并输出中间状态和最终结果。这种设计使得ProcBench成为衡量模型在复杂任务中表现的重要工具。

实际应用

在实际应用中，ProcBench可用于优化和验证大型语言模型在自动化任务中的表现。例如，在自动化客服、智能助手和编程辅助工具中，模型需要准确理解和执行多步骤指令。通过使用ProcBench，开发者可以更好地评估和改进模型在这些场景中的表现，从而提高系统的可靠性和用户体验。

衍生相关工作

ProcBench的发布催生了一系列相关研究，特别是在多步骤推理和指令遵循领域。许多研究者利用该数据集开发了新的模型训练和评估方法，进一步推动了大型语言模型在复杂任务中的应用。此外，ProcBench还为其他基准测试的设计提供了参考，促进了该领域的多样化和深度发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集