five

ByteSpanTokenisers/common-corpus

收藏
Hugging Face2025-06-24 更新2025-11-01 收录
下载链接:
https://hf-mirror.com/datasets/ByteSpanTokenisers/common-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
Common Corpus 25是一个主要用于语言模型训练的语料库,包含多种配置如bytelevel、bytelevel-llm-data以及子集。该数据集以英语为主要语言,适用于构建和训练语言模型。数据集的大小范围在10B到100B之间。

Common Corpus 25 is a corpus primarily designed for language model training, including configurations like bytelevel, bytelevel-llm-data, and subsets. The dataset is mainly in English, suitable for building and training language models. The size of the dataset ranges from 10B to 100B.
提供机构:
ByteSpanTokenisers
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作