Yxanul/cc-math-finest
收藏Hugging Face2025-08-25 更新2025-10-25 收录
下载链接:
https://hf-mirror.com/datasets/Yxanul/cc-math-finest
下载链接
链接失效反馈官方服务:
资源简介:
CC-Math-Filtered数据集是一个从NVIDIA CC-MAIN数学数据集中筛选出的高质量子集,专为训练语言模型而设计,包含了经过严格挑选的数学内容。该数据集包含约1046万份文档,总标记数约为123亿个,平均每份文档约1176个标记。数据集的语言为英语,领域为数学,格式为Parquet文件,使用Snappy压缩。数据集通过FineMatch和NemoCurator评分系统进行了质量过滤,以保证内容的数学和质量标准。数据集适用于训练和微调数学内容的语言模型,数学推理和问题解决的研究,以及教育AI应用。
A high-quality filtered subset of the NVIDIA CC-MAIN mathematics dataset, containing rigorously selected mathematical content for training language models.
提供机构:
Yxanul



