five

KnutJaegersberg/essential-web-smol-sample-fdc-partitioned

收藏
Hugging Face2025-06-22 更新2025-10-25 收录
下载链接:
https://hf-mirror.com/datasets/KnutJaegersberg/essential-web-smol-sample-fdc-partitioned
下载链接
链接失效反馈
官方服务:
资源简介:
Essential-Web是一个包含24万亿个token的网络数据集,具有广泛的文档级元数据,旨在通过SQL-like过滤快速进行数据集整理。该数据集按照FDC Level-2类别进行划分,以便研究人员能够快速识别和筛选相关内容领域。

Essential-Web is a 24-trillion-token web dataset with extensive document-level metadata designed to enable rapid dataset curation through SQL-like filtering. This dataset is partitioned by Free Decimal Correspondence (FDC) level-2 categories to facilitate quick identification and filtering of relevant content domains.
提供机构:
KnutJaegersberg
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作