five

CrowdMind/score-4-fineweb-edu

收藏
Hugging Face2025-11-09 更新2025-11-15 收录
下载链接:
https://hf-mirror.com/datasets/CrowdMind/score-4-fineweb-edu
下载链接
链接失效反馈
官方服务:
资源简介:
这个数据集名为score-4-fineweb-edu,它包含了aynetdia/fineweb-edu-score-4-dedup数据集中的text列,并以Parquet格式导出。该数据集仅包含文本数据,没有其他元信息如URL或分数。它是为那些期望纯文本例子的训练数据加载器优化的。数据集的分片是基于字符数的,每个分片大约包含2500万个字符,并且整个数据集被分为18个分片。数据集的行组大小为1024,创建于2025年11月9日。

This dataset, named score-4-fineweb-edu, includes only the text column from the aynetdia/fineweb-edu-score-4-dedup dataset, exported in Parquet format. It contains text data only, without any metadata such as URLs or scores. It is optimized for training data loaders that expect text-only examples. The dataset is sharded based on character count, with each shard containing approximately 25 million characters, and the entire dataset is divided into 18 shards. The dataset has a row group size of 1024 and was created on November 9, 2025.
提供机构:
CrowdMind
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作