five

DeepMath-Creative

收藏
arXiv2025-05-14 更新2025-05-15 收录
下载链接:
https://github.com/DeepMathLLM/DeepMath
下载链接
链接失效反馈
官方服务:
资源简介:
DeepMath-Creative是一个高质量的数据集,由DeepMath团队创建,旨在评估大型语言模型在数学创造力方面的能力。该数据集涵盖了代数、拓扑、实分析和几何等重要数学分支,包括两种类型的问题:需要正式证明的问题和需要反例的问题。数据集中的问题由数学专家精心设计和注释,确保了逻辑严谨性和数学准确性。DeepMath-Creative旨在解决现有数据集在评估模型创造力方面的不足,为大型语言模型在数学领域的应用提供了新的评估基准。

DeepMath-Creative is a high-quality dataset developed by the DeepMath team to evaluate the mathematical creativity capabilities of large language models (LLMs). This dataset covers core mathematical disciplines including algebra, topology, real analysis, and geometry, and contains two categories of problems: those that require formal mathematical proofs, and those that demand counterexamples. All problems in the dataset are meticulously designed and annotated by professional mathematicians, ensuring strict logical rigor and mathematical accuracy. DeepMath-Creative aims to address the limitations of existing datasets in evaluating model creativity, thus providing a novel evaluation benchmark for the application of large language models in the mathematical field.
提供机构:
同济大学数学科学学院
创建时间:
2025-05-14
原始信息汇总

DeepMath 数据集概述

项目背景

  • 由同济大学数学科学学院 DeepMath 团队发起
  • 目标:训练达到数学专业博士生水平的数学大模型
  • 研究方向:数学推理能力提升、数学创造能力探索、前沿数学研究应用

数据集组成

DeepMath-Creative 评测集

  • 定位:评估大语言模型数学创造能力的基准数据集
  • 内容范围
    • 涵盖代数、几何、分析等数学分支的构造性问题
    • 包含创新评测集和开放问题集
  • 存储位置:项目仓库的 DeepMath/DeepMath-Creative/ 目录

数据特点

  • 评测维度:重点评估模型的数学创造能力
  • 评分标准
    • 强调核心解题步骤
    • 忽略次要错误(逻辑小漏洞、论证不完整、表述冗余等)
  • 性能基准
    • 当前最优模型 O3 Mini 在本科层级问题准确率 70%
    • 复杂问题和开放问题表现显著下降

应用方向

  • 大模型数学创造能力评估
  • 数学构造性问题求解研究
  • 数学难题的人机协作研究

获取方式

  • 开源地址:https://github.com/DeepMathLLM/DeepMath
  • 数据集路径:DeepMath/DeepMath-Creative/

联系方式

  • 项目邮箱:xychen100@tongji.edu.cn
搜集汇总
数据集介绍
main_image_url
构建方式
DeepMath-Creative数据集的构建遵循严格的专家主导原则,由同济大学数学系教授及研究生团队基于专业数学教材和研究经验精心设计。通过多轮专家讨论与评审机制,确保问题在代数、拓扑、几何和分析等核心数学分支具有原创性和逻辑严谨性。数据集包含179个创新性问题,其中60%为本科难度、40%为硕士难度,并按证明类问题(40%)与反例构造问题(60%)分类,采用“命题描述+证明或反例”的统一双向提问格式,以激发模型的多维思考。
使用方法
使用该数据集时需通过标准化API接口集成模型,采用统一提示格式生成响应。评估分为定量与定性两部分:定量指标关注解题方向正确性(0/0.5/1分制)和构造过程完整性,定性分析由数学专家人工评分,重点考察逻辑严谨性、表达清晰度与解决方案原创性。针对证明类问题,模型需判断命题真伪并给出完整证明或反例;反例类问题则需构建满足条件的反例。为避免评估偏差,需忽略次要错误(如微小逻辑漏洞),仅聚焦核心构造能力。该框架已成功应用于GPT、DeepSeek等主流模型的系统性评测,其标准化流程可为数学创造力研究提供可复现的基准。
背景与挑战
背景概述
DeepMath-Creative数据集由同济大学DeepMath团队于2025年推出,旨在填补大语言模型在数学创造力评估方面的空白。该数据集聚焦代数、几何、拓扑等核心数学领域,包含179个创新性构造问题,涵盖本科至硕士难度层级。创始成员包括陈晓阳、高雨婷等数学家,其创新性体现在首创双向问题框架(证明/反例构造),突破了传统数学数据集对计算准确性和逻辑完整性的单一关注。该基准通过量化模型在概念生成、方法创新和案例构造三个维度的表现,为评估AI的数学原创能力提供了首个系统性框架,对推动智能体在基础科学研究中的创造性应用具有里程碑意义。
当前挑战
该数据集面临双重挑战:在领域问题层面,数学创造力的本质特征(如非结构化思维过程、新颖性判别标准)导致传统评估方法失效,现有模型70%的准确率仅体现在基础构造任务上;在构建过程中,专家团队需平衡问题的专业深度与可评估性,既要保持抽象数学的严谨性(如拓扑空间的同胚判定),又要设计可验证的构造任务(如勒贝格可测集的反例)。实验显示主流模型普遍存在方向误判(38%)、伪证现象(24%)和发散性输出等问题,反映出记忆重组与真实创造的根本性差异。
常用场景
经典使用场景
DeepMath-Creative数据集作为评估大型语言模型数学创造力的基准,其经典使用场景主要聚焦于模型在代数、几何、分析和拓扑等数学领域的创造性问题解决能力。通过设计需要构造性证明或反例的问题,该数据集能够系统评估模型是否能够超越简单的记忆重组,展现出独立思考和创新的能力。例如,在解决“是否存在一个在恰好五个点可微的函数”这类问题时,模型需要构建具体的数学对象或反例,从而验证其创造性思维的深度和广度。
解决学术问题
DeepMath-Creative数据集解决了当前数学推理研究中一个关键问题:如何量化评估大型语言模型的数学创造力。传统数据集如GSM8K和MATH主要关注基础计算和逻辑推理,而该数据集通过引入构造性问题和开放性问题,填补了创造力评估的空白。其意义在于为研究者提供了一个标准化工具,用于衡量模型在生成新概念、发明新方法和构造新示例方面的能力,从而推动数学人工智能向更高层次的创造性思维发展。
实际应用
在实际应用中,DeepMath-Creative数据集可显著提升大型语言模型在数学教育和研究中的辅助作用。例如,在高等教育中,模型通过解决构造性问题,能够帮助学生理解抽象数学概念的边界条件;在数学研究初期阶段,模型生成的反例或证明框架可为研究者提供灵感。此外,该数据集还能用于开发自动化数学工具,辅助验证猜想或探索新理论的可能性边界,尽管当前模型在开放问题上的表现仍有限。
数据集最近研究
最新研究方向
在数学创造力评估领域,DeepMath-Creative数据集作为首个专注于大语言模型数学创造力系统化评估的基准,填补了现有数学推理数据集在创新性构造问题上的空白。该数据集通过代数、几何、分析等核心数学领域的构造性问题,开创性地建立了包含形式证明与反例构造的双维评估框架。当前研究热点集中在大语言模型对高等数学开放问题的处理能力,特别是模型在概念生成、方法创新和反例构建三个创造力维度的表现。最新实验表明,即使在放宽评分标准的情况下,主流模型在本科级构造性问题上的最高准确率仅达70%,而在研究生级问题和开放问题上的表现显著下降,揭示了当前模型依赖模式重组而非真正数学创新的本质局限。这一发现为探索强化学习等新型训练范式以提升模型的数学创造力提供了明确方向,对推动AI参与前沿数学研究具有重要启示意义。
相关研究论文
  • 1
    DeepMath-Creative: A Benchmark for Evaluating Mathematical Creativity of Large Language Models同济大学数学科学学院 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作