five

MATH-500, AMC-23|数学教育数据集|数学竞赛数据集

收藏
arXiv2025-03-05 更新2025-03-07 收录
数学教育
数学竞赛
下载链接:
http://arxiv.org/abs/2503.03238v1
下载链接
链接失效反馈
资源简介:
MATH-500数据集包含500个高中级别的数学问题,涵盖7个主要领域,包括预科数学、代数、数论等。AMC-23数据集包含40个高中级别数学竞赛问题,难度较大且形式多样。FANS框架利用形式化语言方法增强现有答案选择方法,并为生成的自然语言解决方案提供可验证的支持。
提供机构:
伊利诺伊大学厄巴纳-香槟分校, 威斯康星大学麦迪逊分校
创建时间:
2025-03-05
AI搜集汇总
数据集介绍
main_image_url
构建方式
FANS数据集的构建方法主要基于对自然语言数学推理问题的形式化处理。首先,通过一个名为LeanTranslator的长链式思维(Long CoT)翻译器,将自然语言中的数学问题-答案对转换为Lean4可证明的形式化语句。接着,利用Lean4证明器和验证器尝试对转换后的形式化语句进行证明和验证。最后,将验证过的答案与其他答案选择方法(如多数投票或基于奖励模型的最佳答案选择)相结合,以选择最可能的正确答案。
使用方法
FANS数据集的使用方法包括三个主要阶段:自然语言到形式语言的翻译、形式语言的证明和验证以及答案的选择和输出。首先,使用LeanTranslator翻译器将自然语言数学问题-答案对转换为Lean4形式化语句。然后,利用Lean4证明器和验证器对转换后的形式化语句进行证明和验证。最后,将验证过的答案与其他答案选择方法相结合,以选择最可能的正确答案。
背景与挑战
背景概述
MATH-500和AMC-23数据集是数学问题解决能力评估的重要基准。FANS(Formal ANswer Selection for Natural Language Math Reasoning Using Lean4)框架的提出,旨在通过利用形式语言,特别是Lean4,来增强大型语言模型(LLMs)的数学推理能力。FANS框架由伊利诺伊大学香槟分校和威斯康星大学麦迪逊分校的研究人员共同开发,它通过将自然语言数学问题及其答案转化为Lean4定理陈述,并利用Lean4证明器和验证器进行证明和验证,从而为LLMs的答案选择提供了坚实的数学基础。该框架已在MATH-500和AMC-23数据集上取得了显著的效果,显著提高了LLMs的答案选择准确率,尤其是在数学领域的某些特定子领域,如数论和代数。
当前挑战
FANS框架在数学问题解决中面临着一些挑战。首先,自然语言与形式语言之间的转换过程需要精确,以避免错误地将数学问题表述为定理。其次,形式语言的证明过程需要不断改进,以提高其自动证明更复杂数学问题的能力。此外,形式语言证明系统的局限性,例如Lean4在特定数学领域的库支持不足,也是需要解决的挑战。最后,如何将形式语言证明的方法应用于更广泛的数学领域,以实现更通用的数学推理能力,是未来研究的重要方向。
常用场景
经典使用场景
MATH-500 和 AMC-23 数据集在数学推理领域扮演着重要角色。它们提供了高中水平的数学问题,涵盖了预微积分、代数、数论等七大领域。这些数据集被广泛应用于评估大型语言模型(LLMs)的数学推理能力,并作为训练和测试数学推理模型的基础。
解决学术问题
MATH-500 和 AMC-23 数据集解决了数学推理中 LLMs 缺乏可验证推理能力的问题。FANS 框架通过将自然语言数学问题转化为 Lean4 定理陈述,并使用 Lean4 证明器进行证明和验证,提高了 LLMs 的自然语言数学推理能力。实验结果表明,FANS 框架可以显著提高 LLMs 在 MATH-500 和 AMC-23 数据集上的准确率,尤其是在 Lean4 专家领域,如数论。
实际应用
MATH-500 和 AMC-23 数据集在实际应用场景中具有广泛的应用。例如,在教育领域,这些数据集可以用于评估学生的数学推理能力;在人工智能领域,这些数据集可以用于训练和测试数学推理模型,提高 LLMs 的数学推理能力。此外,FANS 框架还可以用于其他领域,如自然语言处理、计算机视觉等。
数据集最近研究
最新研究方向
在自然语言数学推理领域,FANS框架通过将自然语言数学问题转化为形式语言(FL)表示,并利用Lean4进行证明和验证,实现了对大语言模型(LLMs)推理能力的增强。该框架不仅提高了LLMs在MATH-500和AMC-23数据集上的答案选择准确率,还为其提供了形式化支持的答案,增强了答案的可信度。这一研究为LLMs在数学推理领域的应用提供了新的思路和方法,有望推动该领域的发展。
相关研究论文
  • 1
    FANS -- Formal Answer Selection for Natural Language Math Reasoning Using Lean4伊利诺伊大学厄巴纳-香槟分校, 威斯康星大学麦迪逊分校 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

HyperGlobal-450K - 全球最大规模高光谱图像数据集

HyperGlobal-450K数据集由武汉大学联合国内外多所知名高校及研究机构共同构建,是迄今为止全球规模最大的高光谱图像数据集。该数据集包含约45万张高光谱图像,规模等价于超过2000万张不重叠的三波段图像,远超现有的同类数据集。数据集涵盖了全球范围内的高光谱遥感图像,包括来自地球观测一号(EO-1)Hyperion和高分五号(GF-5B)两种传感器的图像,光谱范围从可见光到短波及中波红外,具有从紫外到长波红外的330个光谱波段,空间分辨率为30米。每幅图像经过精心处理,去除了无效波段和水汽吸收波段,保留了具有实际应用价值的光谱信息。HyperGlobal-450K数据集不仅支持高光谱图像的基础研究,还能够用于开发和测试各种高光谱图像处理方法,比如图像分类、目标检测、异常检测、变化检测、光谱解混、图像去噪和超分辨率等任务。

github 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录

MultiTalk

MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。

arXiv 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

中国劳动力动态调查

“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库 收录