five

Yxanul/cc-math-finest

收藏
Hugging Face2025-08-25 更新2025-10-25 收录
下载链接:
https://hf-mirror.com/datasets/Yxanul/cc-math-finest
下载链接
链接失效反馈
官方服务:
资源简介:
CC-Math-Filtered数据集是一个从NVIDIA CC-MAIN数学数据集中筛选出的高质量子集,专为训练语言模型而设计,包含了经过严格挑选的数学内容。该数据集包含约1046万份文档,总标记数约为123亿个,平均每份文档约1176个标记。数据集的语言为英语,领域为数学,格式为Parquet文件,使用Snappy压缩。数据集通过FineMatch和NemoCurator评分系统进行了质量过滤,以保证内容的数学和质量标准。数据集适用于训练和微调数学内容的语言模型,数学推理和问题解决的研究,以及教育AI应用。

A high-quality filtered subset of the NVIDIA CC-MAIN mathematics dataset, containing rigorously selected mathematical content for training language models.
提供机构:
Yxanul
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作