BramVanroy/HPLT-Dutch-cleaned-v1.2
收藏Hugging Face2024-03-07 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/BramVanroy/HPLT-Dutch-cleaned-v1.2
下载链接
链接失效反馈官方服务:
资源简介:
HPLT Dutch cleaned v1.2数据集由High Performance Language Technologies创建,主要用于文本生成任务。数据集包含多个字段,如文档ID、文档语言、段落语言识别分数、段落语言、文档文本、文档URL和集合名称。数据集的语言为荷兰语,下载大小为115421732523字节,总大小为274349094022字节,包含31745184个训练样本。数据集采用CC0-1.0许可证,允许无保留权利的使用。
HPLT Dutch cleaned v1.2数据集由High Performance Language Technologies创建,主要用于文本生成任务。数据集包含多个字段,如文档ID、文档语言、段落语言识别分数、段落语言、文档文本、文档URL和集合名称。数据集的语言为荷兰语,下载大小为115421732523字节,总大小为274349094022字节,包含31745184个训练样本。数据集采用CC0-1.0许可证,允许无保留权利的使用。
提供机构:
BramVanroy
原始信息汇总
HPLT Dutch cleaned v1.2 数据集概述
数据集信息
特征字段
- id: 文档ID,数据类型为
int64。 - document_lang: 文档语言,由CLD2在WARC提取过程中识别,数据类型为
string。 - scores: 每个段落的语言识别分数,数据类型为
float64序列。 - langs: 每个段落中得分最高的语言,数据类型为
string序列。 - text: 文档文本(由换行符分隔的段落连接而成),数据类型为
string。 - url: 文档URL,数据类型为
string。 - collection: 集合名称,数据类型为
string。
数据分割
- train: 训练集,包含 31745184 个样本,总字节数为 274349094022。
数据大小
- 下载大小: 115421732523 字节。
- 数据集大小: 274349094022 字节。
配置
- default: 默认配置,包含训练集数据文件
data/train-*。
许可证
- 数据集使用 Creative Commons CC0 许可证("no rights reserved")。
任务类别
- 文本生成
语言
- 荷兰语
数据集名称
- HPLT Dutch cleaned v1.2
数据集大小类别
- 100B < n < 1T



