five

ddrg/math_formulas

收藏
Hugging Face2025-07-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ddrg/math_formulas
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含基于AMPS Khan数据集和ARQMath数据集V1.3的数学公式。通过应用随机化的LaTeX打印,生成了更多等效版本的公式,这些公式适用于MLM(掩码语言模型)任务。例如,对于公式`(a+b)^2 = a^2 + 2ab + b^2`,可以进行掩码处理(如`(a+[MASK])^2 = a^2 + [MASK]ab + b[MASK]2`),掩码标记可以通过上下文推断出来,而对于公式`f(x) = 3x+1`,掩码处理(如`[MASK](x) = 3x[MASK]1`)则会导致掩码标记不明确。
提供机构:
ddrg
原始信息汇总

数据集概述

数据集信息

  • 特征:
    • id: 数据类型为 int64
    • text: 数据类型为 string

数据分割

  • 训练集:
    • 字节数: 225647910.0
    • 样本数: 2886810
  • 测试集:
    • 字节数: 23848817.0
    • 样本数: 311298

数据集大小

  • 下载大小: 131762427
  • 数据集大小: 249496727.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作