maxkaufmann/allenai_dolma_test_set
收藏Hugging Face2025-03-26 更新2025-08-30 收录
下载链接:
https://hf-mirror.com/datasets/maxkaufmann/allenai_dolma_test_set
下载链接
链接失效反馈官方服务:
资源简介:
Dolma 数据集是一个包含 3 万亿个 token 的数据集,由来自网络内容、学术论文、代码、书籍和百科全书材料的多样化混合数据组成。数据集分为多个版本,包括 v1_7、v1_6、v1_5 等,每个版本都有不同的默认状态、发布日期、大小和描述。数据集的统计信息包括来源、文件类型、文档数量、token 数量等。Dolma 数据集可用于语言模型预训练研究。
Dolma is a dataset of 3 trillion tokens from a diverse mix of web content, academic publications, code, books, and encyclopedic materials. The dataset is available in multiple versions, each with different default status, release date, size, and description. The statistical information of the dataset includes source, document type, number of documents, number of tokens, etc. Dolma dataset can be used for language model pre-training research.
提供机构:
maxkaufmann



