five

prithivMLmods/OpenWeb383K

收藏
Hugging Face2025-02-06 更新2025-02-15 收录
下载链接:
https://hf-mirror.com/datasets/prithivMLmods/OpenWeb383K
下载链接
链接失效反馈
官方服务:
资源简介:
OpenWeb Datasets Web Collection是一个由FineWeb数据集衍生出来的大型英文网页数据集,包含了超过15万亿个清理过和去重的英文网页数据,来自于CommonCrawl。它旨在作为大型语言模型预训练数据集的公共数据研究工具,覆盖了多种领域和主题。

The OpenWeb Datasets Web Collection is a large English web dataset derived from the FineWeb dataset, containing more than 15 trillion tokens of cleaned and deduplicated English web data from CommonCrawl. It is intended to serve as a research tool for public data in the context of pretraining datasets for large language models, covering a variety of domains and topics.
提供机构:
prithivMLmods
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作