pharaouk/DiagGSM8K
收藏Hugging Face2024-04-10 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/pharaouk/DiagGSM8K
下载链接
链接失效反馈官方服务:
资源简介:
在这项工作中,我们引入了一种新的评估范式,用于挑战大型语言模型进行元推理。我们的范式将评估重点从结果导向的评估转向更全面的评估,有效区分模型之间的认知能力。具体来说,给定一个GSM8K问题及其解决方案,评估模型需要预测解决方案的正确性。如果解决方案不正确,模型需要进一步定位第一个错误位置并解释错误原因。每个测试问题都结合了两种变体,需要代码解决方案和逆向推理。字段model_output_steps是逐步解决方案,model_output_solution_correctness、model_output_solution_first_error_step和model_output_solution_first_error_reason是标识其正确性、潜在第一个错误步骤和错误原因的标签。解决方案的正确性和第一个错误步骤可以自动评分,错误原因应由领域专家或GPT4谨慎手动评分。
在这项工作中,我们引入了一种新的评估范式,用于挑战大型语言模型进行元推理。我们的范式将评估重点从结果导向的评估转向更全面的评估,有效区分模型之间的认知能力。具体来说,给定一个GSM8K问题及其解决方案,评估模型需要预测解决方案的正确性。如果解决方案不正确,模型需要进一步定位第一个错误位置并解释错误原因。每个测试问题都结合了两种变体,需要代码解决方案和逆向推理。字段model_output_steps是逐步解决方案,model_output_solution_correctness、model_output_solution_first_error_step和model_output_solution_first_error_reason是标识其正确性、潜在第一个错误步骤和错误原因的标签。解决方案的正确性和第一个错误步骤可以自动评分,错误原因应由领域专家或GPT4谨慎手动评分。
提供机构:
pharaouk
原始信息汇总
数据集概述
基本信息
- 许可证: Apache-2.0
- 任务类别:
- 问答
- 文本生成
- 语言: 英语
- 标签:
- 代码
- 数学
- 数据集名称: DiagGSM8k
- 数据集大小: 1K<n<10K
数据集描述
- 评估范式: 引入一种新的评估大型语言模型的范式,强调元推理能力。
- 评估内容: 模型需预测GSM8K问题的解决方案正确性,若不正确,需定位并解释第一个错误。
- 测试问题: 每个问题伴随两种变体,需代码解决方案和反向推理。
- 输出字段:
model_output_steps: 逐步解决方案model_output_solution_correctness: 解决方案正确性标签model_output_solution_first_error_step: 第一个错误步骤标签model_output_solution_first_error_reason: 错误原因标签
- 评分方式:
- 解决方案正确性和第一个错误步骤自动评分
- 错误原因需领域专家手动评分或使用GPT4谨慎评分
评估结果
| 模型 | 评估方法 | 准确率 | TPR | TNR | 步骤 | 步骤+原因 |
|---|---|---|---|---|---|---|
| Claude2 | 0-shot | 1968/3000 | 962/1427 | 1006/1573 | 311/1573 | 173/1573 |
| GPT3-5 | 0-shot | 1701/3000 | 1125/1427 | 576/1573 | 159/1573 | 68/1573 |
| GPT4 | 0-shot | 2359/3000 | 985/1427 | 1374/1573 | 784/1573 | 644/1573 |
| WizardMath-70B | 3-shot | 1187/3000 | 1176/1427 | 11/1573 | 4/1573 | 1/1573 |
| Mammoth-70B | 3-shot | 1451/3000 | 1410/1427 | 41/1573 | 4/1573 | 1/1573 |
| MetaMath-70B | 3-shot | 1471/3000 | 1305/1427 | 166/1573 | 22/1573 | 6/1573 |
| llama2-70B-diag | 0-shot | 1609/3000 | 453/1427 | 1156/1573 | 323/1573 | 99/1573 |
引用信息
@misc{zeng2023challenge, title={Challenge LLMs to Reason About Reasoning: A Benchmark to Unveil Cognitive Depth in LLMs}, author={Zhongshen Zeng and Pengguang Chen and Haiyun Jiang and Jiaya Jia}, year={2023}, eprint={2312.17080}, archivePrefix={arXiv}, primaryClass={cs.CL} }



