Randolphzeng/DiagGSM8K

Name: Randolphzeng/DiagGSM8K
Creator: Randolphzeng
Published: 2024-01-07 04:07:46
License: 暂无描述

Hugging Face2024-01-07 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Randolphzeng/DiagGSM8K

下载链接

链接失效反馈

官方服务：

资源简介：

在这项工作中，我们引入了一种新的评估范式，挑战大型语言模型进行元推理。我们的范式将评估重点从结果导向的评估转向更全面的评估，有效区分模型之间的认知能力。具体来说，给定一个GSM8K问题及其解决方案，评估模型需要预测解决方案的正确性。如果解决方案不正确，模型需要进一步定位第一个错误位置并解释错误原因。每个测试问题还包含两个变体，需要代码解决方案和逆向推理。字段model_output_steps是逐步解决方案，model_output_solution_correctness、model_output_solution_first_error_step和model_output_solution_first_error_reason是标识其正确性、潜在第一个错误步骤和错误原因的标签。解决方案的正确性和第一个错误步骤可以自动评分，错误原因应由领域专家或GPT4谨慎手动评分。

提供机构：

Randolphzeng

原始信息汇总

数据集概述

基本信息

许可证: Apache 2.0
任务类别:
- 问答
- 文本生成
语言: 英语
标签:
- 代码
- 数学
名称: DiagGSM8k
大小类别: 1K<n<10K

描述

本数据集引入了一种新的评估大型语言模型（LLMs）的范式，重点在于元推理能力的评估。该范式从结果导向的评估转向更全面的评估，以有效区分模型的认知能力。例如，在基准测试中，GPT-4的准确性是GPT3-5的十倍。

具体来说，给定一个GSM8K问题及其解决方案，被评估的模型需要预测解决方案的正确性。如果解决方案不正确，模型还需定位第一个错误位置并阐明错误原因。每个测试问题都包含两种变体，分别需要代码解决方案和反向推理。

数据集中的字段包括：

model_output_steps: 逐步解决方案
model_output_solution_correctness: 解决方案正确性标签
model_output_solution_first_error_step: 解决方案第一个错误步骤标签
model_output_solution_first_error_reason: 解决方案第一个错误原因标签

解决方案的正确性和第一个错误步骤可以自动评分，错误原因应由领域专家手动评分或由GPT-4谨慎评分。

评估结果

模型	评估方法	准确率	真阳性率	真阴性率	步骤	步骤+原因
Claude2	0-shot	1968/3000	962/1427	1006/1573	311/1573	173/1573
GPT3-5	0-shot	1701/3000	1125/1427	576/1573	159/1573	68/1573
GPT4	0-shot	2359/3000	985/1427	1374/1573	784/1573	644/1573
WizardMath-70B	3-shot	1187/3000	1176/1427	11/1573	4/1573	1/1573
Mammoth-70B	3-shot	1451/3000	1410/1427	41/1573	4/1573	1/1573
MetaMath-70B	3-shot	1471/3000	1305/1427	166/1573	22/1573	6/1573
llama2-70B-diag	0-shot	1609/3000	453/1427	1156/1573	323/1573	99/1573

引用

如果您觉得本文和数据集对您有帮助，请考虑引用我们的工作：

@misc{zeng2023challenge, title={Challenge LLMs to Reason About Reasoning: A Benchmark to Unveil Cognitive Depth in LLMs}, author={Zhongshen Zeng and Pengguang Chen and Haiyun Jiang and Jiaya Jia}, year={2023}, eprint={2312.17080}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集