ddrg/math_formulas
收藏Hugging Face2025-07-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ddrg/math_formulas
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含基于AMPS Khan数据集和ARQMath数据集V1.3的数学公式。通过应用随机化的LaTeX打印,生成了更多等效版本的公式,这些公式适用于MLM(掩码语言模型)任务。例如,对于公式`(a+b)^2 = a^2 + 2ab + b^2`,可以进行掩码处理(如`(a+[MASK])^2 = a^2 + [MASK]ab + b[MASK]2`),掩码标记可以通过上下文推断出来,而对于公式`f(x) = 3x+1`,掩码处理(如`[MASK](x) = 3x[MASK]1`)则会导致掩码标记不明确。
提供机构:
ddrg
原始信息汇总
数据集概述
数据集信息
- 特征:
id: 数据类型为int64text: 数据类型为string
数据分割
- 训练集:
- 字节数: 225647910.0
- 样本数: 2886810
- 测试集:
- 字节数: 23848817.0
- 样本数: 311298
数据集大小
- 下载大小: 131762427
- 数据集大小: 249496727.0



