five

Randolphzeng/DiagGSM8K

收藏
Hugging Face2024-01-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Randolphzeng/DiagGSM8K
下载链接
链接失效反馈
官方服务:
资源简介:
在这项工作中,我们引入了一种新的评估范式,挑战大型语言模型进行元推理。我们的范式将评估重点从结果导向的评估转向更全面的评估,有效区分模型之间的认知能力。具体来说,给定一个GSM8K问题及其解决方案,评估模型需要预测解决方案的正确性。如果解决方案不正确,模型需要进一步定位第一个错误位置并解释错误原因。每个测试问题还包含两个变体,需要代码解决方案和逆向推理。字段model_output_steps是逐步解决方案,model_output_solution_correctness、model_output_solution_first_error_step和model_output_solution_first_error_reason是标识其正确性、潜在第一个错误步骤和错误原因的标签。解决方案的正确性和第一个错误步骤可以自动评分,错误原因应由领域专家或GPT4谨慎手动评分。

在这项工作中,我们引入了一种新的评估范式,挑战大型语言模型进行元推理。我们的范式将评估重点从结果导向的评估转向更全面的评估,有效区分模型之间的认知能力。具体来说,给定一个GSM8K问题及其解决方案,评估模型需要预测解决方案的正确性。如果解决方案不正确,模型需要进一步定位第一个错误位置并解释错误原因。每个测试问题还包含两个变体,需要代码解决方案和逆向推理。字段model_output_steps是逐步解决方案,model_output_solution_correctness、model_output_solution_first_error_step和model_output_solution_first_error_reason是标识其正确性、潜在第一个错误步骤和错误原因的标签。解决方案的正确性和第一个错误步骤可以自动评分,错误原因应由领域专家或GPT4谨慎手动评分。
提供机构:
Randolphzeng
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache 2.0
  • 任务类别:
    • 问答
    • 文本生成
  • 语言: 英语
  • 标签:
    • 代码
    • 数学
  • 名称: DiagGSM8k
  • 大小类别: 1K<n<10K

描述

本数据集引入了一种新的评估大型语言模型(LLMs)的范式,重点在于元推理能力的评估。该范式从结果导向的评估转向更全面的评估,以有效区分模型的认知能力。例如,在基准测试中,GPT-4的准确性是GPT3-5的十倍。

具体来说,给定一个GSM8K问题及其解决方案,被评估的模型需要预测解决方案的正确性。如果解决方案不正确,模型还需定位第一个错误位置并阐明错误原因。每个测试问题都包含两种变体,分别需要代码解决方案和反向推理。

数据集中的字段包括:

  • model_output_steps: 逐步解决方案
  • model_output_solution_correctness: 解决方案正确性标签
  • model_output_solution_first_error_step: 解决方案第一个错误步骤标签
  • model_output_solution_first_error_reason: 解决方案第一个错误原因标签

解决方案的正确性和第一个错误步骤可以自动评分,错误原因应由领域专家手动评分或由GPT-4谨慎评分。

评估结果

模型 评估方法 准确率 真阳性率 真阴性率 步骤 步骤+原因
Claude2 0-shot 1968/3000 962/1427 1006/1573 311/1573 173/1573
GPT3-5 0-shot 1701/3000 1125/1427 576/1573 159/1573 68/1573
GPT4 0-shot 2359/3000 985/1427 1374/1573 784/1573 644/1573
WizardMath-70B 3-shot 1187/3000 1176/1427 11/1573 4/1573 1/1573
Mammoth-70B 3-shot 1451/3000 1410/1427 41/1573 4/1573 1/1573
MetaMath-70B 3-shot 1471/3000 1305/1427 166/1573 22/1573 6/1573
llama2-70B-diag 0-shot 1609/3000 453/1427 1156/1573 323/1573 99/1573

引用

如果您觉得本文和数据集对您有帮助,请考虑引用我们的工作:

@misc{zeng2023challenge, title={Challenge LLMs to Reason About Reasoning: A Benchmark to Unveil Cognitive Depth in LLMs}, author={Zhongshen Zeng and Pengguang Chen and Haiyun Jiang and Jiaya Jia}, year={2023}, eprint={2312.17080}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作