five

maxkaufmann/allenai_dolma_test_set

收藏
Hugging Face2025-03-26 更新2025-08-30 收录
下载链接:
https://hf-mirror.com/datasets/maxkaufmann/allenai_dolma_test_set
下载链接
链接失效反馈
官方服务:
资源简介:
Dolma 数据集是一个包含 3 万亿个 token 的数据集,由来自网络内容、学术论文、代码、书籍和百科全书材料的多样化混合数据组成。数据集分为多个版本,包括 v1_7、v1_6、v1_5 等,每个版本都有不同的默认状态、发布日期、大小和描述。数据集的统计信息包括来源、文件类型、文档数量、token 数量等。Dolma 数据集可用于语言模型预训练研究。

Dolma is a dataset of 3 trillion tokens from a diverse mix of web content, academic publications, code, books, and encyclopedic materials. The dataset is available in multiple versions, each with different default status, release date, size, and description. The statistical information of the dataset includes source, document type, number of documents, number of tokens, etc. Dolma dataset can be used for language model pre-training research.
提供机构:
maxkaufmann
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作