five

ddrg/math_text

收藏
Hugging Face2025-07-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ddrg/math_text
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含数学文本的数据集,其中包括LaTeX公式的文本。该数据集基于AMPS Khan数据集和ARQMath数据集V1.3,通过随机LaTeX打印生成了更多数学上等效的文本版本。每个正的ID对应于生成的文本版本的ARQMath帖子ID,负的ID表示AMPS文本。

A mathematical dataset containing texts with LaTeX formulas, based on the AMPS Khan dataset and the ARQMath dataset V1.3, with mathematically equivalent versions generated by applying randomized LaTeX printing. A positive `id` corresponds to the ARQMath post id of the generated text version, a negative `id` indicates an AMPS text.
提供机构:
ddrg
原始信息汇总

数据集概述

数据集信息

  • 特征:
    • id: 数据类型为 int64
    • text: 数据类型为 string

数据分割

  • 训练集:
    • 字节数: 5466822546.0
    • 样本数: 6320415
  • 测试集:
    • 字节数: 606109387.0
    • 样本数: 701969

数据集大小

  • 下载大小: 3381871008
  • 数据集大小: 6072931933.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作