four-two-labs/culturax-nord
收藏Hugging Face2024-05-12 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/four-two-labs/culturax-nord
下载链接
链接失效反馈官方服务:
资源简介:
CulturaX数据集是一个庞大的多语言数据集,包含167种语言的6.3万亿个令牌,专为大型语言模型(LLM)开发而设计。数据集经过了严格的清洗和去重处理,以确保训练模型的最佳质量。数据集结合了mC4和OSCAR语料库的最新版本,并进行了深度清洗和去重。数据集支持多种语言,包括德语、荷兰语、瑞典语、芬兰语、丹麦语、挪威语、爱沙尼亚语和冰岛语。
CulturaX数据集是一个庞大的多语言数据集,包含167种语言的6.3万亿个令牌,专为大型语言模型(LLM)开发而设计。数据集经过了严格的清洗和去重处理,以确保训练模型的最佳质量。数据集结合了mC4和OSCAR语料库的最新版本,并进行了深度清洗和去重。数据集支持多种语言,包括德语、荷兰语、瑞典语、芬兰语、丹麦语、挪威语、爱沙尼亚语和冰岛语。
提供机构:
four-two-labs
原始信息汇总
数据集概述
数据集特征
- text: 数据类型为字符串。
- timestamp: 数据类型为字符串。
- url: 数据类型为字符串。
- source: 数据类型为字符串,可能的值为 "mc4" 或 "OSCAR-xxxx"。
数据集分割
- swe: 497,091,890 条记录,大小为 165,856,225,313 字节。
- nor: 18,907,310 条记录,大小为 77,788,663,940 字节。
- dan: 25,429,808 条记录,大小为 96,599,020,220 字节。
- isl: 2,373,560 条记录,大小为 9,224,688,518 字节。
- nld: 117,392,666 条记录,大小为 342,228,993,872 字节。
- deu: 420,017,484 条记录,大小为 1,563,101,303,688 字节。
- fin: 30,467,667 条记录,大小为 121,611,691,135 字节。
- est: 8,004,753 条记录,大小为 34,500,545,108 字节。
数据集大小
- 下载大小: 1,496,468,851,078 字节。
- 数据集大小: 2,410,911,131,794 字节。
支持的语言
- sv (瑞典语)
- no (挪威语)
- da (丹麦语)
- is (冰岛语)
- de (德语)
- fi (芬兰语)
- et (爱沙尼亚语)
数据集结构
json { "text": ..., "timestamp": ..., "url": ..., "source": "mc4" | "OSCAR-xxxx", }
使用考虑
- 数据集是从 CommonCrawl 提取的 mC4 和 OSCAR 数据集的清理版本,可能仍包含个人和敏感信息。
许可证信息
- 数据集的许可证遵循 mC4 和 OSCAR 的许可证,具体信息请参考各自的许可证文件。
引用信息
- 引用此数据集时,请使用提供的引用格式。
搜集汇总
数据集介绍

背景与挑战
背景概述
CulturaX-nord是一个多语言文本数据集,专注于北欧和日耳曼语言(包括瑞典语、挪威语、丹麦语、冰岛语、荷兰语、德语、芬兰语和爱沙尼亚语),共包含672M行数据,经过严格清洗和去重处理。该数据集基于CulturaX项目,旨在为大型语言模型提供高质量的多语言训练数据,支持非英语语言的模型开发,适用于自然语言处理研究和应用。
以上内容由遇见数据集搜集并总结生成



