SuperCLUE-Math6

github2024-02-05 更新2024-05-31 收录

下载链接：

https://github.com/CLUEbenchmark/SuperCLUE-Math6

下载链接

链接失效反馈

官方服务：

资源简介：

SuperCLUE-Math6是一个专门为测试中文大模型在数学推理方面的核心能力而设计的数据集。它延续了GSM8K的高质量和多样性，并在难度和应用广度上进行了适当的扩充。该数据集具有中文原生场景的数学推理、多轮交互下的推理能力考察和推理能力等级自动评定三大特点，旨在解决中文模型评估中的关键问题，并提供一个全面的测试平台。

SuperCLUE-Math6 is a dataset specifically designed to test the core capabilities of Chinese large language models in mathematical reasoning. It maintains the high quality and diversity of GSM8K, with appropriate expansions in difficulty and application breadth. This dataset features mathematical reasoning in native Chinese contexts, the examination of reasoning abilities under multi-turn interactions, and automatic assessment of reasoning ability levels. It aims to address key issues in the evaluation of Chinese models and provide a comprehensive testing platform.

创建时间：

2024-01-15

原始信息汇总

SuperCLUE-Math6数据集概述

数据集介绍

SuperCLUE-Math6是一个专为测试中文大模型在数学推理方面的核心能力而设计的数据集。它是GSM8K的中文升级版，不仅延续了GSM8K的高质量和多样性，还在难度和应用广度上进行了适当的扩充。

数据集特点

中文原生场景的数学推理：每个问题均以中文原生环境呈现，配备详细的自然语言解题方案，强化了模型在本土语言环境下的适用性和实际应用价值。
多轮交互下的推理能力考察：通过问题及其追问，考察模型在连续对话环境中的逻辑推理与问题解决能力。
推理能力等级自动评定：独创的评估系统能自动给出大模型处理数学问题的推理能力等级，为模型智力水平提供量化指标。

数据集应用

SuperCLUE-Math6的推出不仅填补了中文数学推理数据集的空缺，而且对于提升中文大模型在复杂逻辑和数学问题解决能力上的表现具有重要价值。它的应用将加速人工智能在教育、金融分析和技术领域等的本土化进程，同时助力模型更贴近人类的思维方式，为实现真正的通用人工智能奠定坚实的基础。

数据集详情

数据字段说明

id: 编号
question: 问题
follow_up_question: 追问
language solution: 问题的自然语言解决方案
language solution_followup: 追问的自然语言解决方案
reasoning_step_ref: 问题的推理步数，供参考
reasoning_step_followup_ref: 追问的推理步数，供参考
answer: 问题的答案
answer_followup: 追问的答案

使用方式及测评代码

测评代码：<a href="https://github.com/CLUEbenchmark/SuperCLUE-Math6/blob/main/scripts/evaluate.py">scripts/evaluate.py</a>
模型预测的示例文件：<a href="https://github.com/CLUEbenchmark/SuperCLUE-Math6/blob/main/scripts/sample_answer.json">scripts/sample_answer.json</a>

评估标准

采取完全匹配的方式，计算准确率。答案只能是非负整数。

模型列表及使用方式

模型名称	机构	使用方式
GPT_4_1106_Preview	OpenAI	API
GPT_4	OpenAI	API
文心一言4.0	百度	API
GPT_3.5_Turbo	OpenAI	API
ChatGLM_Turbo	智谱AI	API
Qwen_14B_Chat	阿里云	API
Baichuan2_13B_Chat	百川智能	模型
ChatGLM3_6B	智谱AI	模型
讯飞星火_V3.0	科大讯飞	API
文心一言3.5	百度	模型
Chinese_Alpaca2_13B	Yiming Cui	模型

测评结果

SuperCLUE推理能力等级

模型名称	推理等级	综合得分	推理步数加权得分	准确率综合得分
GPT_4_1106_Preview	5级	87.76	88.60	86.92
GPT_4	5级	83.86	83.60	84.12
文心一言4.0	5级	79.64	80.73	78.55
GPT_35_Turbo	4级	53.75	54.87	52.64
ChatGLM_Turbo	4级	52.55	53.60	51.49
Qwen_14B_Chat	4级	49.05	49.73	48.37
讯飞星火_V3.0	3级	37.39	40.87	33.91
Baichuan2_13B_Chat	3级	36.76	38.40	35.12
ChatGLM3_6B	3级	33.03	34.13	31.92
文心一言3.5	2级	21.01	22.20	19.82
Chinese_Alpaca2_13B	2级	18.09	18.67	17.51

模型准确率得分

模型名称	全面准确率	平均准确率	第一轮准确率	第二轮准确率	两轮差异
GPT_4_1106_Preview	83.68	90.16	94.22	86.10	-8.12
GPT_4	80.50	87.73	91.70	83.77	-7.93
文心一言4.0	73.32	83.77	89.74	77.80	-11.94
GPT_3.5_Turbo	43.94	61.33	72.48	50.19	-22.29
ChatGLM_Turbo	42.44	60.54	71.92	49.16	-22.76
Qwen_14B_Chat	38.54	58.19	72.31	44.06	-28.25
Baichuan2_13B_Chat	25.09	45.15	59.24	31.06	-28.18
ChatGLM3_6B	21.23	42.60	56.72	28.44	-28.28
讯飞星火_V3.0	20.52	47.29	69.12	25.47	-43.65
Chinese_Alpaca2_13B	10.23	24.79	33.21	16.32	-16.89
文心一言3.5	9.51	30.13	43.00	17.26	-25.74

指令遵循率与回答长度

模型名称	指令遵循率（答案）	回答长度
GPT_4_1106_Preview	99.44	173.48
GPT_4	99.21	126.75
文心一言4.0	68.04	143.78
GPT_3.5_Turbo	54.64	82.11
ChatGLM_Turbo	60.15	91.84
Qwen_14B_Chat	90.67	71.1
Baichuan2_13B_Chat	1.54	70.00
ChatGLM3_6B	20.91	56.29
讯飞星火_V3.0	53.66	61.03
Chinese_Alpaca2_13B	18.15	46.50
文心一言3.5	64.68	43.14

推理步数的成绩分布

模型名称	步数1	步数2	步数3	步数4	步数5
GPT_4_1106_Preview	0.92	0.89	0.91	0.89	0.86
GPT_4	0.92	0.91	0.89	0.82	0.77
文心一言4.0	0.87	0.85	0.85	0.81	0.75
GPT_3.5_Turbo	0.73	0.65	0.61	0.48	0.49
ChatGLM_Turbo	0.70	0.65	0.60	0.51	0.44
Qwen_14B_Chat	0.72	0.58	0.60	0.47	0.38
Baichuan2_13B_Chat	0.56	0.48	0.44	0.38	0.28
ChatGLM3_6B	0.58	0.49	0.41	0.27	0.25
讯飞星火_V3.0	0.62	0.48	0.47	0.31	0.38
文心一言3.5	0.49	0.29	0.29	0.16	0.15
Chinese_Alpaca2_13B	0.40	0.29	0.22	0.14	0.12

成绩对比：SC-Math vs GSM8K

模型名称	SC-Math6全面准确率	GSM8K	成绩来源
GPT_4_1106_Preview	83.68	未报告	--
GPT_4	80.50	92.0 (5-shot CoT)	GPT-4 report
文心一言4.0	73.32	未报告	--
GPT_3.5_Turbo	43.94	57.1 (5-shot)	GPT-4 report
ChatGLM_Turbo	42.44	未报告	--
Qwen_14B_Chat	38.54	50.3 (0-shot)	Modelscope项目
Baichuan2_13B_Chat	25.09	52.77 (base)	Baichuan2 report
ChatGLM3_6B	21.23	72.3 (0-shot CoT)	ChatGLM3-6B Github
讯飞星火_V3.0	20.52	未报告	-
Chinese_Alpaca2_13B	10.23	未报告	-
文心一言3.5	9.51	未报告	-

测评结论

先进模型的卓越表现

顶级模型（如GPT_4_1106_Preview、GPT_4和文心一言4.0）在推理任务中展现了卓越的性能，特别是在处理高难度的多步推理任务时。它们在推理能力和准确性方面均达到了较高的标准，证明了当前大模型的先进水平。

性能分层明显

通过对不同模型的综合评估，我们可以看到性能上的明显分层。高等级模型在复杂任务上的表现远远超过低等级模型，这反映了在大模型领域内技术和能力的多样性和分层。

针对不同需求的模型选择

不同等级的模型提供了根据具体应用场景和需求选择合适模型的依据。例如，对于需要高精度和复杂推理能力的任务，更适合选择等级较高的模型；而对于一些基础应用，则可以考虑使用等级较低但仍具有效率和准确性的模型。

准确率的递减趋势

在所有模型中，第二轮准确率普遍低于第一轮准确率，这表明随着任务复杂度的增加，模型的性能出现了下降。这种趋势在所有模型中普遍存在，表明在设计和优化模型时，需要特别关注其在持续任务中的稳定性和适应性。

GPT系列模型的卓越性能

GPT_4_1106_Preview和GPT_4在各项指标中均表现优异，尤其在全面准确率和平均准确率方面。这反映了GPT系列模型在处理复杂任务时的高效性和可靠性，同时也表明了其在语言理解和生成方面的先进性。

指令遵循率与准确率的相关性

高指令遵循率模型（如GPT_4_1106_Preview和GPT_4）通常也展现了较高的准确率，而低指令遵循率模型（如Baichuan2_13B_Chat）则准确率较低。这表明指令遵循率可能是衡量模型整体性能的一个重要指标，尤其在评估模型对任务要求的理解和执行能力时。

准确率与答案长度的潜在关系

在某些模型（如GPT_4_1106_Preview）中，较高的准确率伴随着较长的平均答案长度，这可能暗示这些模型在生成详尽回答时更为精确。然而，这一趋势并不在所有模型中一致出现，表明答案长度与准确率之间的关系可能受多种因素影响，包括模型的设计和训练数据。

性能差异的可能原因

观察各模型之间的性能差异，可能反映了它们在架构、训练数据集、优化策略等方面的不同。例如，GPT系列模型可能因为更大的模型规模、更广泛的训练数据或更高级的优化技术而表现更佳。对这些差异的深入研究有助于理解和改进现有模型的性能。

搜集汇总

数据集介绍

构建方式

SuperCLUE-Math6数据集的构建基于GSM8K，旨在填补中文大模型在数学推理能力评估方面的空白。该数据集通过精心设计的中文原生数学问题，涵盖了多步推理和多轮交互的场景，确保了问题的高质量和多样性。每个问题均配备详细的自然语言解题方案，强化了模型在本土语言环境下的适用性和实际应用价值。此外，数据集还引入了独创的评估系统，能够自动给出大模型处理数学问题的推理能力等级，为模型智力水平提供量化指标。

特点

SuperCLUE-Math6数据集的显著特点包括：中文原生场景的数学推理，确保问题和解决方案均以中文呈现，增强了模型在本土语言环境下的适用性；多轮交互下的推理能力考察，通过问题及其追问，模拟真实交流环境，全面评估模型的逻辑推理与问题解决能力；推理能力等级自动评定，独创的评估系统能够科学且公正地评估模型的推理能力，提供量化指标，便于模型间的比较和优化。

使用方法

使用SuperCLUE-Math6数据集时，用户需遵循特定的数据构造和评估流程。首先，根据数据集提供的字段说明，构造第一轮和第二轮的数据，确保问题和追问的格式符合要求。接着，使用提供的测评代码进行模型评估，计算模型的推理步数得分和综合得分，并根据综合得分进行等级划分。用户可以通过运行评估脚本，获取模型的推理能力等级和各项性能指标，从而进行模型优化和比较。

背景与挑战

背景概述

在人工智能领域，大语言模型如ChatGPT和GPT-4的快速发展标志着通用人工智能的重要进展。中文大模型的推出进一步推动了人工智能在各行业的应用。然而，现有的数学推理数据集主要以英文为主，缺乏针对中文大模型的原生数据集，导致中文模型的数学推理能力评估受限。为了填补这一空白，SuperCLUE-Math6数据集应运而生。该数据集由一支专注于人工智能研究的团队开发，旨在提供一个高质量、多样化的中文数学推理测试平台。SuperCLUE-Math6不仅继承了GSM8K的高质量和多样性，还在难度和应用广度上进行了扩充，特别设计来测试中文大模型在数学推理方面的核心能力。其推出对于提升中文大模型在复杂逻辑和数学问题解决能力上的表现具有重要价值，加速了人工智能在教育、金融分析和技术领域等的本土化进程。

当前挑战

SuperCLUE-Math6数据集在构建过程中面临多项挑战。首先，设计一个能够全面评估中文大模型数学推理能力的数据集需要克服语言和文化差异，确保问题和解决方案符合中文原生环境。其次，多轮交互下的推理能力考察要求数据集能够模拟真实对话环境，这对数据集的复杂性和多样性提出了更高要求。此外，推理能力等级的自动评定系统需要精确且公正，确保不同模型在处理数学问题时的推理能力能够被准确量化。这些挑战不仅涉及数据集的设计和构建，还包括评估方法的创新和实施，以确保数据集能够真实反映模型的性能，并为模型的进一步优化提供可靠依据。

常用场景

经典使用场景

SuperCLUE-Math6数据集的经典使用场景主要集中于评估和提升中文大模型在数学推理方面的能力。通过提供中文原生的数学问题及其详细的自然语言解题方案，该数据集能够有效测试模型在多步逻辑推理、应用数学知识和自然语言理解方面的表现。此外，数据集还支持多轮交互下的推理能力考察，模拟真实对话环境，进一步强化模型在连续对话中的问题解决能力。

解决学术问题

SuperCLUE-Math6数据集解决了中文大模型在数学推理能力评估中缺乏原生数据集的问题。此前，中文模型的数学逻辑能力评估主要依赖于英文测试集，这限制了对其本土语言环境下推理能力的全面考察。该数据集的推出填补了这一空白，为学术界提供了一个全面的测试平台，有助于提升中文大模型在复杂逻辑和数学问题解决能力上的表现，推动人工智能技术在教育、金融分析和技术领域等的本土化进程。

衍生相关工作

SuperCLUE-Math6数据集的推出激发了大量相关研究工作。例如，基于该数据集，研究人员开发了多种评估模型推理能力的方法，包括多轮交互下的推理能力考察和推理能力等级自动评定。此外，该数据集还促进了中文大模型在数学推理方面的优化和改进，推动了模型在复杂逻辑和数学问题解决能力上的提升。这些衍生工作不仅丰富了人工智能领域的研究内容，也为实现真正的通用人工智能奠定了坚实的基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集