five

BramVanroy/HPLT-Dutch-cleaned-v1.2

收藏
Hugging Face2024-03-07 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/BramVanroy/HPLT-Dutch-cleaned-v1.2
下载链接
链接失效反馈
官方服务:
资源简介:
HPLT Dutch cleaned v1.2数据集由High Performance Language Technologies创建,主要用于文本生成任务。数据集包含多个字段,如文档ID、文档语言、段落语言识别分数、段落语言、文档文本、文档URL和集合名称。数据集的语言为荷兰语,下载大小为115421732523字节,总大小为274349094022字节,包含31745184个训练样本。数据集采用CC0-1.0许可证,允许无保留权利的使用。

HPLT Dutch cleaned v1.2数据集由High Performance Language Technologies创建,主要用于文本生成任务。数据集包含多个字段,如文档ID、文档语言、段落语言识别分数、段落语言、文档文本、文档URL和集合名称。数据集的语言为荷兰语,下载大小为115421732523字节,总大小为274349094022字节,包含31745184个训练样本。数据集采用CC0-1.0许可证,允许无保留权利的使用。
提供机构:
BramVanroy
原始信息汇总

HPLT Dutch cleaned v1.2 数据集概述

数据集信息

特征字段

  • id: 文档ID,数据类型为 int64
  • document_lang: 文档语言,由CLD2在WARC提取过程中识别,数据类型为 string
  • scores: 每个段落的语言识别分数,数据类型为 float64 序列。
  • langs: 每个段落中得分最高的语言,数据类型为 string 序列。
  • text: 文档文本(由换行符分隔的段落连接而成),数据类型为 string
  • url: 文档URL,数据类型为 string
  • collection: 集合名称,数据类型为 string

数据分割

  • train: 训练集,包含 31745184 个样本,总字节数为 274349094022。

数据大小

  • 下载大小: 115421732523 字节。
  • 数据集大小: 274349094022 字节。

配置

  • default: 默认配置,包含训练集数据文件 data/train-*

许可证

  • 数据集使用 Creative Commons CC0 许可证("no rights reserved")。

任务类别

  • 文本生成

语言

  • 荷兰语

数据集名称

  • HPLT Dutch cleaned v1.2

数据集大小类别

  • 100B < n < 1T
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作