ProcessBench 数学推理基准数据集
收藏超神经2024-12-23 更新2024-12-21 收录
下载链接:
https://hyper.ai/cn/datasets/36482
下载链接
链接失效反馈官方服务:
资源简介:
ProcessBench 是一个专注于识别数学推理过程中错误的基准数据集,旨在衡量语言模型在数学推理中识别错误步骤的能力,由阿里巴巴集团 Qwen 团队于 2024 年推出,相关论文成果为「ProcessBench: Identifying Process Errors in Mathematical Reasoning」。
ProcessBench is a benchmark dataset dedicated to identifying errors in mathematical reasoning processes. It aims to evaluate the capability of language models to detect erroneous steps during mathematical reasoning, and was released by the Qwen Team of Alibaba Group in 2024. Its associated research paper is titled "ProcessBench: Identifying Process Errors in Mathematical Reasoning".
创建时间:
2024-12-16
搜集汇总
数据集介绍

背景与挑战
背景概述
ProcessBench是一个由阿里巴巴Qwen团队于2024年推出的数学推理基准数据集,专注于评估语言模型识别数学解题过程中错误步骤的能力。该数据集包含3.4k个竞赛及奥林匹克难度的测试实例,每个实例均提供分步解答并由专家标注错误,数据经过精选和审核以确保高质量。
以上内容由遇见数据集搜集并总结生成



