yuntian-deng/dolmasample
收藏Hugging Face2024-02-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/yuntian-deng/dolmasample
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个特征字段,如added、created、id、metadata、source和text。metadata字段是一个结构体,包含bucket、cc_segment、date_download等多个子字段。数据集仅包含一个train分割,共有127250个示例,总大小为438217413字节。
该数据集包含多个特征字段,如added、created、id、metadata、source和text。metadata字段是一个结构体,包含bucket、cc_segment、date_download等多个子字段。数据集仅包含一个train分割,共有127250个示例,总大小为438217413字节。
提供机构:
yuntian-deng
原始信息汇总
数据集概述
数据集特征
- added: 数据类型为字符串。
- created: 数据类型为时间戳(秒)。
- id: 数据类型为字符串。
- metadata: 结构化数据,包含以下字段:
- bucket: 数据类型为字符串。
- cc_segment: 数据类型为字符串。
- date_download: 数据类型为时间戳(秒)。
- digest: 数据类型为字符串。
- language: 数据类型为字符串。
- language_score: 数据类型为浮点数(float64)。
- length: 数据类型为整数(int64)。
- line_ids: 序列数据,数据类型为整数(int64)。
- nlines: 数据类型为整数(int64)。
- original_length: 数据类型为整数(int64)。
- original_nlines: 数据类型为整数(int64)。
- perplexity: 数据类型为浮点数(float64)。
- provenance: 数据类型为字符串。
- source_domain: 数据类型为字符串。
- title: 数据类型为字符串。
- url: 数据类型为字符串。
- source: 数据类型为字符串。
- text: 数据类型为字符串。
数据集分割
- train: 包含438,217,413字节的数据和127,250个样本。
数据集大小
- 下载大小: 240,405,343字节。
- 数据集大小: 438,217,413字节。
配置
- config_name: default
- data_files:
- split: train
- path: data/train-*
- data_files:



