named_math_formulas_ft
收藏Hugging Face2025-04-25 更新2025-04-26 收录
下载链接:
https://huggingface.co/datasets/ddrg/named_math_formulas_ft
下载链接
链接失效反馈官方服务:
资源简介:
基于71个著名数学恒等式的数学数据集,每个条目包含一个知名数学恒等式的名称和一个可能的表示形式(LaTeX或文本描述),以及一个标签指示该表示形式是否正确。数据集包含大量真实和设计用于挑战的虚假例子,适用于公式分类或排名任务的模型微调。
提供机构:
Dresden Database Research Group
创建时间:
2025-04-25
搜集汇总
数据集介绍

构建方式
在数学公式识别领域,named_math_formulas_ft数据集基于71个著名数学恒等式构建而成。该数据集通过系统化的数据增强策略,从原始数学公式模板中生成具有挑战性的负样本,每个恒等式包含250个正例和10倍数量的负例。数据构建过程采用MAMUT框架,运用变量替换、函数替换、常量篡改等八种精细化策略生成语义相近但数学含义不同的负样本,同时保留原始数据集的训练-测试划分结构。
特点
该数据集最显著的特征在于其精细的元数据标注体系。每个样本不仅包含公式名称、LaTeX表达式和真假标签,还详细记录了12种数据增强策略的应用情况,包括变量替换、函数替换、常量篡改等。数据集特别设计了10:1的负正样本比例,支持动态负样本训练策略。所有数学公式均以LaTeX格式呈现,并区分文本描述与数学表达式两种形式,为模型训练提供多模态学习素材。
使用方法
该数据集专为微调语言模型设计,适用于数学公式分类和排序任务。研究人员可利用其丰富的元数据开展细粒度分析,探究不同公式变换策略对模型性能的影响。典型使用场景包括:基于公式名称的数学表达式检索、公式等价性判断等任务。数据集已预分为训练集、验证集和测试集,建议采用动态负采样策略,每轮训练迭代使用不同的负样本组合以提升模型鲁棒性。
背景与挑战
背景概述
Named Math Formulas - Fine-Tuning Dataset(简称NMF-FT)是基于71个著名数学恒等式构建的专用数据集,旨在为语言模型的微调提供支持。该数据集由aieng-lab团队开发,其核心研究问题聚焦于数学公式的分类与匹配任务,即判断给定的公式表示是否与特定数学恒等式的名称相符。数据集中的正例与负例均经过精心设计,负例通过多种策略生成,以增加分类任务的挑战性。NMF-FT的构建依托于MAMUT框架,该框架通过修改数学公式生成多样化数据,为语言模型训练提供了高质量的专业化数据支持。
当前挑战
NMF-FT数据集在解决数学公式分类任务时面临多重挑战。首先,数学公式的多样性和复杂性使得模型需要具备强大的语义理解能力,以区分看似相似但实质不同的公式。其次,数据集中负例的生成采用了多种策略(如变量替换、常量修改、随机公式选择等),这些策略旨在模拟真实场景中的复杂干扰,增加了模型训练的难度。在构建过程中,确保负例的挑战性同时避免过度偏离正例的语义范围,是数据集设计的关键难点。此外,数据集的规模与平衡性也需精心把控,以确保模型在不同数学恒等式上的泛化性能。
常用场景
经典使用场景
在数学公式识别与分类领域,named_math_formulas_ft数据集为语言模型提供了精细调优的基准。通过包含71个著名数学恒等式的真实与刻意构造的负例,该数据集特别适用于训练模型区分等效公式表示与非等效变体。其独特的负例生成策略(如变量替换、常量篡改等)使得模型能够学习更深层次的数学语义特征,而非简单模式匹配。
实际应用
在教育科技领域,该数据集支撑的模型可应用于智能解题系统的公式验证模块,自动检测学生作答与目标公式的语义等价性。在学术搜索引擎中,基于此训练的模型能精准关联数学概念的不同表达形式,提升跨文献公式检索的召回率。其LaTeX表示特性使其可直接集成到科研文档处理流程中。
衍生相关工作
该数据集已催生多项重要研究,包括原团队开发的transformer-math-evaluation评估框架,系统测试预训练模型在数学公式理解上的盲点。基于其构建的基准被MathBERT等专业模型采纳为微调标准,相关策略标注方法更启发了后续数学对抗样本生成工作如MathAttack。
以上内容由遇见数据集搜集并总结生成



