five

SuperCLUE-Math6|数学推理数据集|语言模型评估数据集

收藏
arXiv2024-02-02 更新2024-06-21 收录
数学推理
语言模型评估
下载链接:
https://www.CLUEbenchmarks.com/superclue math6.html
下载链接
链接失效反馈
资源简介:
SuperCLUE-Math6是由SuperCLUE团队开发的中文数学推理基准数据集,包含2144个多步骤数学问题,旨在评估和提升中文语言模型的数学推理能力。该数据集源自小学考试和书籍,经过手动筛选和调整,确保问题的独特性和难度。每个问题都配有详细的自然语言解决方案,并设计了多轮后续问题以测试模型的持续推理能力。SuperCLUE-Math6不仅填补了中文数学推理基准的空白,还为模型选择和评估提供了参考,推动了中文语言模型在复杂数学问题解决能力上的进步。
提供机构:
SuperCLUE团队
创建时间:
2024-01-22
AI搜集汇总
数据集介绍
main_image_url
构建方式
SuperCLUE-Math6数据集的构建基于对小学数学考试和书籍中大量中文数学问题的精心筛选与改编。首先,从这些资源中挑选出至少需要一步推理且具有无误自然语言解答的问题。随后,通过人工验证确保问题的唯一性和解答的准确性,最终形成了包含1072个独特问题的初始数据集。为了评估模型在持续推理中的表现,每个问题都设计了多轮后续问题,使得总问题数达到2144个。此外,数据集还通过随机抽样检查确保了98%的准确率,并控制了推理步骤的分布,以测试模型在不同复杂度问题上的能力。
特点
SuperCLUE-Math6数据集的显著特点在于其多步骤推理和多轮交互的设计,这使得它能够全面评估模型在复杂数学问题上的推理能力。数据集中的问题涵盖了广泛的小学数学主题,且每个问题都配有详细的中文自然语言解答,确保了评估的透明性和公平性。此外,数据集还引入了创新的评分方案,结合了不同推理步骤的得分和整体准确率,生成从1到5的可解释推理等级,从而为模型的数学推理能力提供了量化的评估标准。
使用方法
使用SuperCLUE-Math6数据集时,研究者可以通过评估模型在不同推理步骤问题上的表现,来量化其数学推理能力。数据集提供了详细的评分方案,包括推理步骤得分、整体准确率和综合得分,以及相应的推理等级。这些指标可以帮助研究者选择和优化模型,特别是在需要高级数学推理能力的应用场景中。此外,数据集的多轮交互设计也使得研究者能够评估模型在持续推理任务中的稳定性和适应性,从而为模型的进一步改进提供有价值的反馈。
背景与挑战
背景概述
近年来,大型语言模型如GPT-4的快速发展引发了对其在解决推理问题上的能力评估的广泛兴趣。尽管现有的基准数据集如GSM8K在评估数学推理能力方面具有重要影响,但它们主要局限于英语环境,并未充分测试多步骤推理能力。为了克服这些局限性,并系统地评估中文模型的数学推理能力,SuperCLUE团队于2024年推出了SuperCLUE-Math6(SC-Math6)数据集。SC-Math6作为GSM8K的升级版,包含超过2000个需要多步骤推理的数学应用题,并提供自然语言解决方案。该数据集不仅填补了中文数学推理基准的空白,还为提升中文语言模型的智能水平提供了全面的测试平台。
当前挑战
SC-Math6数据集在构建过程中面临多项挑战。首先,设计一个能够充分测试多步骤推理能力的数据集需要精心挑选和编写问题,确保每个问题都具有至少一个推理步骤,并提供无误的自然语言解决方案。其次,为了评估模型的持续推理能力,数据集设计了多轮跟进问题,这增加了数据集的复杂性和构建难度。此外,提出一种创新的评分方案,结合不同推理步骤的性能和整体准确性,以量化模型的推理能力,这一过程需要精确的算法设计和验证。最后,数据集的多样性和广泛应用范围要求在问题选择和质量控制上进行严格把关,确保数据集的公平性和有效性。
常用场景
经典使用场景
SuperCLUE-Math6数据集在评估中文语言模型在多步骤数学推理能力方面具有经典应用。该数据集通过提供超过2000道需要多步骤推理的数学题,测试模型在复杂问题上的推理能力。其设计不仅涵盖了基础数学知识,还通过自然语言解决方案和多轮互动问题,全面评估模型的连续推理能力。
实际应用
在实际应用中,SuperCLUE-Math6数据集可用于教育科技领域,帮助开发智能辅导系统,提升学生解决复杂数学问题的能力。此外,该数据集还可应用于金融、工程等需要复杂计算和推理的行业,通过训练和评估模型,提高其在实际问题中的决策和推理效率。
衍生相关工作
基于SuperCLUE-Math6数据集,研究者们开发了多种评估和训练方法,进一步提升了中文语言模型的数学推理能力。例如,一些研究通过分析模型在不同推理步骤上的表现,提出了改进模型推理路径的策略。此外,该数据集还激发了更多针对中文数学推理任务的研究,推动了相关领域的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

中国省级灾害统计空间分布数据集(1999-2020年)

该数据集为中国省级灾害统计空间分布数据集,时间为1999-2020年。该数据集包含中国各省自然灾害、地质灾害、地震灾害、森林火灾、森林病虫鼠害、草原灾害六类灾害的详细数据。数据量为206MB,数据格式为excel。

国家地球系统科学数据中心 收录