four-two-labs/culturax-nord

Name: four-two-labs/culturax-nord
Creator: four-two-labs
Published: 2024-05-12 19:45:22
License: 暂无描述

Hugging Face2024-05-12 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/four-two-labs/culturax-nord

下载链接

链接失效反馈

官方服务：

资源简介：

CulturaX数据集是一个庞大的多语言数据集，包含167种语言的6.3万亿个令牌，专为大型语言模型（LLM）开发而设计。数据集经过了严格的清洗和去重处理，以确保训练模型的最佳质量。数据集结合了mC4和OSCAR语料库的最新版本，并进行了深度清洗和去重。数据集支持多种语言，包括德语、荷兰语、瑞典语、芬兰语、丹麦语、挪威语、爱沙尼亚语和冰岛语。

提供机构：

four-two-labs

原始信息汇总

数据集概述

数据集特征

text: 数据类型为字符串。
timestamp: 数据类型为字符串。
url: 数据类型为字符串。
source: 数据类型为字符串，可能的值为 "mc4" 或 "OSCAR-xxxx"。

数据集分割

swe: 497,091,890 条记录，大小为 165,856,225,313 字节。
nor: 18,907,310 条记录，大小为 77,788,663,940 字节。
dan: 25,429,808 条记录，大小为 96,599,020,220 字节。
isl: 2,373,560 条记录，大小为 9,224,688,518 字节。
nld: 117,392,666 条记录，大小为 342,228,993,872 字节。
deu: 420,017,484 条记录，大小为 1,563,101,303,688 字节。
fin: 30,467,667 条记录，大小为 121,611,691,135 字节。
est: 8,004,753 条记录，大小为 34,500,545,108 字节。

数据集大小

下载大小: 1,496,468,851,078 字节。
数据集大小: 2,410,911,131,794 字节。

支持的语言

sv (瑞典语)
no (挪威语)
da (丹麦语)
is (冰岛语)
de (德语)
fi (芬兰语)
et (爱沙尼亚语)

数据集结构

json { "text": ..., "timestamp": ..., "url": ..., "source": "mc4" | "OSCAR-xxxx", }

使用考虑

数据集是从 CommonCrawl 提取的 mC4 和 OSCAR 数据集的清理版本，可能仍包含个人和敏感信息。

许可证信息

数据集的许可证遵循 mC4 和 OSCAR 的许可证，具体信息请参考各自的许可证文件。

引用信息

引用此数据集时，请使用提供的引用格式。

搜集汇总

数据集介绍

背景与挑战

背景概述

CulturaX-nord是一个多语言文本数据集，专注于北欧和日耳曼语言（包括瑞典语、挪威语、丹麦语、冰岛语、荷兰语、德语、芬兰语和爱沙尼亚语），共包含672M行数据，经过严格清洗和去重处理。该数据集基于CulturaX项目，旨在为大型语言模型提供高质量的多语言训练数据，支持非英语语言的模型开发，适用于自然语言处理研究和应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集