five

MathFusionQA|数学问题解决数据集|自然语言处理数据集

收藏
arXiv2025-03-20 更新2025-03-22 收录
数学问题解决
自然语言处理
下载链接:
https://github.com/QizhiPei/mathfusion
下载链接
链接失效反馈
资源简介:
MathFusionQA数据集是由中国人民大学高灵人工智能学院、上海人工智能实验室等机构提出的一个数学问题数据集。该数据集通过三种融合策略(顺序融合、平行融合和条件融合)从原有数学训练集中构建问题对,生成新的数学问题。这些问题涵盖了数学知识的基本关系和组成方面,旨在通过增强数学问题之间的逻辑联系来提升大型语言模型的数学推理能力。MathFusionQA数据集共有60000个样本,用于训练和评估数学问题解决模型。
提供机构:
中国人民大学高灵人工智能学院, 上海人工智能实验室, 清华大学, 上海交通大学, 武汉大学计算机科学与技术学院
创建时间:
2025-03-20
AI搜集汇总
数据集介绍
main_image_url
构建方式
MathFusionQA数据集的构建基于MathFusion框架,该框架通过三种融合策略生成新的数学问题:顺序融合、并行融合和条件融合。顺序融合通过共享变量将两个相关问题的解决方案链接起来,模拟解题依赖关系;并行融合通过整合类比问题来增强概念理解,生成一个包含其共享数学本质的新问题;条件融合则基于特定上下文生成选择性问题,以增强推理的灵活性。首先从现有数据集中识别适合融合的问题对,然后应用这些融合策略生成新问题,并使用强大的语言模型生成相应的解决方案。最终生成的MathFusionQA数据集用于微调多个大型语言模型,如DeepSeekMath-7B、Mistral-7B和Llama3-8B。
特点
MathFusionQA数据集的特点在于其通过融合策略生成的数学问题具有高度的多样性和复杂性。顺序融合通过链式依赖关系增强了问题的连贯性,并行融合通过类比问题强化了概念理解,而条件融合则通过上下文选择性问题提升了推理的灵活性。这些融合策略不仅丰富了数据集的多样性,还使得模型能够更好地捕捉数学任务中的内在关系结构,从而在解决复杂的多步骤问题时表现出色。此外,MathFusionQA数据集在保持高数据效率的同时,显著提升了模型在多个数学推理基准测试中的表现,平均准确率提升了18.0个百分点。
使用方法
MathFusionQA数据集的使用方法主要包括将其用于微调大型语言模型,以提升其在数学推理任务中的表现。首先,用户可以选择不同的融合策略(顺序融合、并行融合或条件融合)生成新的数学问题,并将其与原始训练集结合,形成最终的MathFusionQA数据集。然后,使用该数据集对模型进行微调,通常采用标准的指令微调方法,训练多个epoch以确保模型充分学习数据集中的数学关系。微调后的模型可以在多个数学推理基准测试中进行评估,如GSM8K、MATH、CollegeMath等,以验证其在领域内和领域外的泛化能力。此外,MathFusionQA还可以与其他数据增强方法(如DART-Math)结合使用,以进一步提升模型的性能。
背景与挑战
背景概述
MathFusionQA数据集是由Qizhi Pei、Lijun Wu等研究人员于2025年提出的,旨在通过指令融合增强大语言模型(LLMs)在数学问题解决中的能力。该数据集的创建灵感来源于人类学习数学的过程,即通过系统性地接触相互关联的概念来提升数学能力。MathFusion框架通过三种融合策略(顺序融合、并行融合和条件融合)生成新的数学问题,从而增强模型的推理能力。实验结果表明,MathFusion在多个数学推理基准测试中显著提升了模型的准确性,尤其是在数据效率方面表现突出。该数据集对数学推理领域的研究具有重要影响,尤其是在如何通过数据增强提升LLMs的数学能力方面提供了新的思路。
当前挑战
MathFusionQA数据集在构建和应用过程中面临多重挑战。首先,数学问题的复杂性和多样性使得传统的单指令微调方法难以有效捕捉数学知识的内在关系结构。MathFusion通过融合策略生成的问题虽然增强了模型的推理能力,但如何确保生成的问题逻辑一致且具有足够的多样性仍然是一个难题。其次,数据集的构建依赖于强大的生成模型(如GPT-4o-mini),生成的问题和解决方案可能存在错误或模糊性,这增加了数据质量控制的难度。此外,尽管MathFusion在数据效率方面表现出色,但其生成的合成指令数量相对较少(仅45K),如何在更少的数据下进一步提升模型的泛化能力仍是一个挑战。最后,如何将MathFusion与其他数据增强方法(如DART-Math)有效结合,以进一步提升模型性能,也是未来研究的重要方向。
常用场景
经典使用场景
MathFusionQA数据集在数学推理领域具有广泛的应用,尤其是在大语言模型(LLMs)的数学问题解决能力提升方面。该数据集通过融合策略生成新的数学问题,帮助模型更好地理解数学概念之间的内在关系。经典使用场景包括在数学竞赛、教育评估和自动解题系统中,模型通过该数据集进行微调后,能够显著提升其在复杂数学问题上的推理能力。
实际应用
在实际应用中,MathFusionQA数据集被广泛用于教育技术领域,尤其是在智能辅导系统和自动解题工具中。通过该数据集微调的模型能够为学生提供个性化的数学问题解答和反馈,帮助他们在学习过程中更好地理解数学概念。此外,该数据集还被应用于数学竞赛的自动评分系统,能够快速准确地评估参赛者的解题能力,提升竞赛的公平性和效率。
衍生相关工作
MathFusionQA数据集衍生了一系列相关研究工作,尤其是在数学数据增强和模型微调领域。基于该数据集的研究工作包括MetaMath、WizardMath和DART-Math等,这些工作进一步探索了数学问题的生成和增强策略。此外,MathFusionQA还为其他领域的数据增强提供了新的思路,例如在自然语言处理中的文本生成和机器翻译任务中,类似的融合策略也被广泛应用,进一步推动了数据增强技术的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

yahoo-finance-data

该数据集包含从Yahoo! Finance、Nasdaq和U.S. Department of the Treasury获取的财务数据,旨在用于研究和教育目的。数据集包括公司详细信息、高管信息、财务指标、历史盈利、股票价格、股息事件、股票拆分、汇率和每日国债收益率等。每个数据集都有其来源、简要描述以及列出的列及其数据类型和描述。数据定期更新,并以Parquet格式提供,可通过DuckDB进行查询。

huggingface 收录

Materials Project 在线材料数据库

Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。

超神经 收录

Differential introgression in a mosaic hybrid zone reveals candidate barrier genes

Hybrid zones act as genomic sieves; although globally advantageous alleles will spread throughout the zone and neutral alleles can be freely exchanged between species, introgression will be restricted for genes that contribute to reproductive barriers or local adaptation. Seminal fluid proteins (SFPs) are known to contribute to reproductive barriers in insects and have been proposed as candidate barrier genes in the hybridizing field crickets G. pennsylvanicus and G. firmus. Here, we have used 125 SNPs to characterize patterns of differential introgression and to identify genes that may contribute to prezygotic barriers between these species. Using a transcriptome scan of the male cricket accessory gland (the site of SFP synthesis), we identified genes with major allele frequency differences between the species. We then compared patterns of introgression for genes encoding seminal fluid proteins with patterns for genes expressed in the same tissue that do not encode SFPs. We find no evi...

DataONE 收录

SARDet-100K

SARDet-100K数据集是由南开大学计算机科学与技术学院的研究团队开发的,旨在解决SAR目标检测领域数据集有限和代码不可访问的问题。该数据集通过整合和标准化10个公开的SAR检测数据集,提供了约116,598张图像和245,653个目标实例,覆盖了飞机、船只、汽车、桥梁、坦克和港口等6个类别。SARDet-100K不仅是首个COCO级别的大规模多类别SAR目标检测数据集,而且通过其大规模和多样性,为SAR目标检测算法的研究和评估提供了强有力的支持。数据集的标准化处理确保了图像分辨率和标注格式的统一,便于与流行的开源检测代码框架兼容,极大地促进了SAR目标检测技术的发展和创新。

arXiv 收录

olympics.csv

该数据集包含不同国家参加奥运会的奖牌榜,数据来源于维基百科的历届奥运会奖牌榜。

github 收录