BramVanroy/HPLT-Dutch-cleaned-v1.2

Name: BramVanroy/HPLT-Dutch-cleaned-v1.2
Creator: BramVanroy
Published: 2024-03-07 08:45:53
License: 暂无描述

Hugging Face2024-03-07 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/BramVanroy/HPLT-Dutch-cleaned-v1.2

下载链接

链接失效反馈

官方服务：

资源简介：

HPLT Dutch cleaned v1.2数据集由High Performance Language Technologies创建，主要用于文本生成任务。数据集包含多个字段，如文档ID、文档语言、段落语言识别分数、段落语言、文档文本、文档URL和集合名称。数据集的语言为荷兰语，下载大小为115421732523字节，总大小为274349094022字节，包含31745184个训练样本。数据集采用CC0-1.0许可证，允许无保留权利的使用。

提供机构：

BramVanroy

原始信息汇总

HPLT Dutch cleaned v1.2 数据集概述

数据集信息

特征字段

id: 文档ID，数据类型为 int64。
document_lang: 文档语言，由CLD2在WARC提取过程中识别，数据类型为 string。
scores: 每个段落的语言识别分数，数据类型为 float64 序列。
langs: 每个段落中得分最高的语言，数据类型为 string 序列。
text: 文档文本（由换行符分隔的段落连接而成），数据类型为 string。
url: 文档URL，数据类型为 string。
collection: 集合名称，数据类型为 string。

数据分割

train: 训练集，包含 31745184 个样本，总字节数为 274349094022。

数据大小

下载大小: 115421732523 字节。
数据集大小: 274349094022 字节。

配置

default: 默认配置，包含训练集数据文件 data/train-*。

许可证

数据集使用 Creative Commons CC0 许可证（"no rights reserved"）。

任务类别

文本生成

语言

荷兰语

数据集名称

HPLT Dutch cleaned v1.2

数据集大小类别

100B < n < 1T

5,000+

优质数据集

54 个

任务类型

进入经典数据集