five

procbench

收藏
Hugging Face2024-10-15 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/ifujisawa/procbench
下载链接
链接失效反馈
官方服务:
资源简介:
ProcBench是一个用于评估大型语言模型(LLMs)多步骤推理能力的基准数据集。它专注于指令遵循性,要求模型通过遵循明确的、逐步的程序来解决问题。数据集中的任务不需要复杂的隐含知识,而是强调严格遵守提供的指令。数据集评估模型在任务上的表现,这些任务对人类来说是直接的,但随着步骤的增加对LLMs来说是具有挑战性的。数据集包含23种任务类型,共有5,520个示例,涉及字符串操作、列表处理和数值计算等操作。任务分为三个难度级别:短(2-6步)、中(7-16步)和长(17-25步)。
创建时间:
2024-10-04
原始信息汇总

ProcBench 数据集概述

数据集描述

ProcBench 是一个用于评估大型语言模型(LLMs)多步骤推理能力的基准数据集。它专注于指令遵循性,要求模型通过遵循明确的、逐步的程序来解决问题。数据集中的任务不需要复杂的隐含知识,而是强调严格遵循提供的指令。该数据集评估模型在任务上的表现,这些任务对人类来说是直接的,但随着步骤的增加对LLMs来说是具有挑战性的。

  • 语言:英语
  • 许可证:CC-BY-4.0

数据集结构

数据集包含23种任务类型,总计5,520个示例。任务涉及字符串操作、列表处理和数值计算等操作。每个任务都配有一组明确的指令,要求模型输出中间状态以及最终结果。

难度级别

任务分为三个难度级别:

  • :2-6步
  • :7-16步
  • :17-25步

难度级别可以通过运行GitHub仓库中提供的预处理脚本preprocess.py来获取。

数据集创建

ProcBench 的创建旨在评估LLMs遵循指令的能力。目标是隔离并测试指令遵循性,而不依赖于复杂的隐含知识,提供了一个独特的程序推理视角。

数据收集和处理

每个示例由模板和问题组合而成。每个任务都与一个固定的模板相关联,该模板包含解决问题的程序。所有用于创建问题的模板和生成器都可以在GitHub仓库中找到。

引用

bibtex @misc{fujisawa2024procbench, title={ProcBench: Benchmark for Multi-Step Reasoning and Following Procedure}, author={Ippei Fujisawa and Sensho Nobe and Hiroki Seto and Rina Onda and Yoshiaki Uchida and Hiroki Ikoma and Pei-Chun Chien and Ryota Kanai}, year={2024}, eprint={2410.03117}, archivePrefix={arXiv}, primaryClass={cs.AI} }

搜集汇总
数据集介绍
main_image_url
构建方式
ProcBench数据集的构建旨在评估大型语言模型(LLMs)在多步骤推理任务中的表现。该数据集通过结合模板和问题的方式生成每个示例,每个任务均与一个固定的模板相关联,模板中包含了解决问题的步骤。所有模板和问题生成器均可在GitHub仓库中获取,确保了数据生成的透明性和可重复性。
特点
ProcBench数据集包含23种任务类型,共计5,520个示例,涵盖了字符串操作、列表处理和数值计算等多种操作。每个任务均配有明确的指令,要求模型在输出最终结果的同时,展示中间状态。任务根据步骤数量分为短、中、长三个难度级别,分别为2-6步、7-16步和17-25步,为模型提供了不同层次的挑战。
使用方法
ProcBench数据集主要用于评估LLMs在多步骤程序任务中的指令遵循能力。用户可以通过加载数据集中的Parquet文件,直接使用任务数据进行模型测试。此外,GitHub仓库中提供的预处理脚本`preprocess.py`可用于获取任务的难度级别,便于用户根据需求进行任务筛选和分析。
背景与挑战
背景概述
ProcBench数据集由Araya、AI Alignment Network和AutoRes等机构于2024年联合开发,旨在评估大型语言模型(LLMs)在多步骤推理任务中的指令遵循能力。该数据集包含23种任务类型,共计5,520个示例,涵盖字符串操作、列表处理和数值计算等多种操作。其核心研究问题聚焦于模型在无需复杂隐含知识的情况下,严格遵循显式步骤指令的能力。ProcBench的发布为研究LLMs在程序化推理中的表现提供了独特的视角,推动了相关领域的发展。
当前挑战
ProcBench数据集在解决多步骤推理任务时面临多重挑战。首先,随着步骤数量的增加,模型在保持指令遵循一致性方面的难度显著提升,尤其是在长步骤任务中,模型容易偏离预期路径。其次,数据集的构建过程中,确保每个任务的模板与问题之间的精确匹配是一项复杂的工作,需要细致的验证与调整。此外,如何在不依赖隐含知识的情况下,设计出既能测试模型能力又不过于简单化的任务,也是构建过程中的一大挑战。
常用场景
经典使用场景
ProcBench数据集主要用于评估大型语言模型(LLMs)在多步骤推理任务中的指令遵循能力。通过提供明确的步骤化指令,该数据集要求模型在解决字符串操作、列表处理和数值计算等任务时,严格遵循指令并输出中间状态和最终结果。这种设计使得ProcBench成为衡量模型在复杂任务中表现的重要工具。
实际应用
在实际应用中,ProcBench可用于优化和验证大型语言模型在自动化任务中的表现。例如,在自动化客服、智能助手和编程辅助工具中,模型需要准确理解和执行多步骤指令。通过使用ProcBench,开发者可以更好地评估和改进模型在这些场景中的表现,从而提高系统的可靠性和用户体验。
衍生相关工作
ProcBench的发布催生了一系列相关研究,特别是在多步骤推理和指令遵循领域。许多研究者利用该数据集开发了新的模型训练和评估方法,进一步推动了大型语言模型在复杂任务中的应用。此外,ProcBench还为其他基准测试的设计提供了参考,促进了该领域的多样化和深度发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作