five

MMathCoT-1M, DualMath-1.1M|多模态数学推理数据集|逻辑推理数据集

收藏
arXiv2025-01-09 更新2025-01-14 收录
多模态数学推理
逻辑推理
下载链接:
https://ursa-math.github.io/
下载链接
链接失效反馈
资源简介:
MMathCoT-1M是由清华大学和字节跳动联合创建的高质量多模态数学推理指令微调数据集,包含100万条数据。该数据集通过CoT蒸馏、轨迹格式重写和格式统一的三模块合成策略生成,旨在提升多模态大语言模型在数学推理中的表现。数据集内容涵盖几何问题、数学应用题和表格问答等任务,数据来源包括Multimath、MAVIS、PUMA-VarsityTutors和MathV-360K等开源数据集。DualMath-1.1M是一个自动生成的过程注释数据集,包含110万条数据,专注于解释和逻辑推理,用于进一步提升模型在测试时的推理能力。这些数据集的应用领域主要集中在多模态数学推理,旨在解决现有模型在复杂数学问题中推理能力不足的问题。
提供机构:
清华大学, 字节跳动
创建时间:
2025-01-09
AI搜集汇总
数据集介绍
main_image_url
构建方式
MMathCoT-1M数据集的构建采用了三模块合成策略,包括CoT蒸馏、轨迹格式重写和格式统一。首先,从现有的开源数学数据集中收集多模态数学训练数据,涵盖几何问题、数学应用题和表格问答等任务。随后,利用Gemini-1.5-Flash-002模型进行CoT路径蒸馏,生成高质量的推理轨迹。最后,通过格式统一和过滤,确保数据的一致性和高质量,最终形成了包含100万条指令微调数据的MMathCoT-1M数据集。
特点
MMathCoT-1M数据集的特点在于其高质量的多模态数学推理轨迹。数据集不仅涵盖了广泛的数学任务,还通过CoT蒸馏和格式统一确保了推理过程的逻辑性和一致性。此外,数据集中的每条数据都经过严格的验证,确保推理轨迹的正确性和完整性。这使得MMathCoT-1M成为训练多模态大语言模型进行数学推理的理想选择。
使用方法
MMathCoT-1M数据集主要用于多模态大语言模型的指令微调。通过使用该数据集,模型可以学习到复杂的数学推理过程,从而在测试时表现出更高的推理精度。具体使用方法包括将数据集输入模型进行训练,并通过微调提升模型在几何问题、数学应用题等任务上的表现。此外,该数据集还可用于生成过程监督数据,进一步提升模型的推理能力。
背景与挑战
背景概述
MMathCoT-1M和DualMath-1.1M数据集是由清华大学和字节跳动的研究团队于2025年提出的,旨在解决多模态数学推理中的链式思维(Chain-of-Thought, CoT)推理问题。随着大语言模型(LLMs)在数学推理中的应用日益广泛,CoT推理被证明能够显著提升模型的推理能力。然而,现有的多模态数学推理数据集缺乏高质量的CoT训练数据,导致模型在推理过程中难以实现高精度。为此,研究团队提出了一个三模块合成策略,包括CoT蒸馏、轨迹格式重写和格式统一,生成了高质量的CoT推理指令微调数据集MMathCoT-1M。此外,为了进一步提升模型的推理能力,团队还开发了DualMath-1.1M数据集,专注于解释和逻辑的过程注释生成。这些数据集的推出为多模态数学推理领域的研究提供了重要的数据支持,推动了模型在复杂数学问题上的表现。
当前挑战
MMathCoT-1M和DualMath-1.1M数据集在构建和应用过程中面临多重挑战。首先,多模态数学推理本身具有高度复杂性,模型不仅需要处理文本信息,还需准确理解视觉信息,如几何图形和图表。这种跨模态的信息融合增加了推理的难度,尤其是在处理几何问题时,模型容易出现视觉幻觉或逻辑不一致。其次,数据集的构建过程中,高质量CoT数据的稀缺性是一个主要瓶颈。现有的开源数据集大多缺乏详细的推理步骤,导致模型在训练时难以捕捉完整的推理过程。此外,生成过程注释数据时,如何确保逻辑正确性和视觉准确性也是一个挑战。研究团队通过引入蒙特卡洛树搜索(MCTS)和错误定位技术,解决了部分问题,但仍需进一步优化数据生成策略,以提升模型的推理精度和泛化能力。
常用场景
经典使用场景
MMathCoT-1M和DualMath-1.1M数据集主要用于多模态数学推理任务,特别是在大语言模型(LLMs)和多模态大语言模型(MLLMs)中的链式思维(Chain-of-Thought, CoT)推理。这些数据集通过提供高质量的CoT推理轨迹,帮助模型在复杂的数学问题中进行逐步推理,尤其是在几何、代数和统计等领域。经典的使用场景包括几何问题的求解、数学应用题的多模态推理以及图表数据的逻辑分析。
衍生相关工作
基于MMathCoT-1M和DualMath-1.1M数据集,衍生出了许多经典的研究工作。例如,URSA-7B模型通过在这些数据集上进行微调,实现了在多模态数学推理任务中的最先进性能。此外,URSA-RM-7B模型作为验证器,进一步提升了模型在推理过程中的轨迹选择和错误修正能力。这些工作不仅推动了多模态数学推理领域的发展,还为未来的研究提供了强大的基础模型和数据支持。
数据集最近研究
最新研究方向
近年来,多模态数学推理领域的研究重点逐渐转向如何通过高质量的链式思维(Chain-of-Thought, CoT)数据增强模型的推理能力。MMathCoT-1M和DualMath-1.1M数据集的提出,标志着该领域在数据合成和模型训练策略上的重要进展。MMathCoT-1M通过整合CoT蒸馏、轨迹格式重写和格式统一,生成了高质量的多模态数学推理指令微调数据集,显著提升了模型在复杂数学问题上的推理精度。DualMath-1.1M则进一步通过双视角过程监督数据合成策略,自动生成过程注释数据集,增强了模型在推理过程中的逻辑和视觉准确性。这些数据集不仅推动了多模态大语言模型(MLLMs)在数学推理任务中的表现,还为测试时的扩展能力提供了新的研究方向。通过引入过程奖励模型(PRM),如URSA-RM-7B,模型能够在推理过程中选择更优的轨迹,进一步提升推理性能。这些进展为多模态数学推理领域的研究奠定了坚实的基础,并为未来的强化学习和批评模型应用提供了新的可能性。
相关研究论文
  • 1
    URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics清华大学, 字节跳动 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国劳动力动态调查

“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库 收录

Comparative Toxicogenomics Database (CTD)

Comparative Toxicogenomics Database(CTD)是一个公开的综合性数据库,专注于研究环境暴露与人类健康之间的关系。该数据库整合了化学物质、基因、疾病、通路等多维度信息,支持用户查询基因与疾病、化学物质与疾病以及化学物质与基因之间的相互作用,为毒理学研究和环境健康效应研究提供了重要资源。其最新成果包括2025年发布的20周年更新版本,进一步扩展了数据内容和功能。

ctdbase.org 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

CHARLS

中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。

charls.pku.edu.cn 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录