emozilla/dolma-v1_7-305B
收藏Hugging Face2024-05-13 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/emozilla/dolma-v1_7-305B
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是Dolma v1.7的10%样本,包含约305B个tokens,并且直接上传为Hugging Face数据集。作为一个纯样本,它遵循ODC-BY许可证。
This dataset is a 10% sample of Dolma v1.7, containing around ~305B tokens, used for language modeling tasks. It follows the ODC-BY license.
提供机构:
emozilla
原始信息汇总
数据集概述
基本信息
- 数据集名称: Dolma
- 许可证: ODC-BY
- 任务类别:
- 文本生成
- 语言:
- 英语
- 标签:
- 语言建模
- 休闲语言模型
- 大型语言模型
- 数据集大小:
- 100B < n < 1T
详细描述
- 数据来源:
- 该数据集是 Dolma v1.7 的 10% 样本。
- 数据量:
- 约 305B 个 token。
- 上传平台:
- 直接上传至 Hugging Face 数据集。
- 许可证:
- 该样本数据集保留了 ODC-BY 许可证。



