five

four-two-labs/culturax-nord

收藏
Hugging Face2024-05-12 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/four-two-labs/culturax-nord
下载链接
链接失效反馈
官方服务:
资源简介:
CulturaX数据集是一个庞大的多语言数据集,包含167种语言的6.3万亿个令牌,专为大型语言模型(LLM)开发而设计。数据集经过了严格的清洗和去重处理,以确保训练模型的最佳质量。数据集结合了mC4和OSCAR语料库的最新版本,并进行了深度清洗和去重。数据集支持多种语言,包括德语、荷兰语、瑞典语、芬兰语、丹麦语、挪威语、爱沙尼亚语和冰岛语。

CulturaX数据集是一个庞大的多语言数据集,包含167种语言的6.3万亿个令牌,专为大型语言模型(LLM)开发而设计。数据集经过了严格的清洗和去重处理,以确保训练模型的最佳质量。数据集结合了mC4和OSCAR语料库的最新版本,并进行了深度清洗和去重。数据集支持多种语言,包括德语、荷兰语、瑞典语、芬兰语、丹麦语、挪威语、爱沙尼亚语和冰岛语。
提供机构:
four-two-labs
原始信息汇总

数据集概述

数据集特征

  • text: 数据类型为字符串。
  • timestamp: 数据类型为字符串。
  • url: 数据类型为字符串。
  • source: 数据类型为字符串,可能的值为 "mc4" 或 "OSCAR-xxxx"。

数据集分割

  • swe: 497,091,890 条记录,大小为 165,856,225,313 字节。
  • nor: 18,907,310 条记录,大小为 77,788,663,940 字节。
  • dan: 25,429,808 条记录,大小为 96,599,020,220 字节。
  • isl: 2,373,560 条记录,大小为 9,224,688,518 字节。
  • nld: 117,392,666 条记录,大小为 342,228,993,872 字节。
  • deu: 420,017,484 条记录,大小为 1,563,101,303,688 字节。
  • fin: 30,467,667 条记录,大小为 121,611,691,135 字节。
  • est: 8,004,753 条记录,大小为 34,500,545,108 字节。

数据集大小

  • 下载大小: 1,496,468,851,078 字节。
  • 数据集大小: 2,410,911,131,794 字节。

支持的语言

  • sv (瑞典语)
  • no (挪威语)
  • da (丹麦语)
  • is (冰岛语)
  • de (德语)
  • fi (芬兰语)
  • et (爱沙尼亚语)

数据集结构

json { "text": ..., "timestamp": ..., "url": ..., "source": "mc4" | "OSCAR-xxxx", }

使用考虑

  • 数据集是从 CommonCrawl 提取的 mC4 和 OSCAR 数据集的清理版本,可能仍包含个人和敏感信息。

许可证信息

  • 数据集的许可证遵循 mC4 和 OSCAR 的许可证,具体信息请参考各自的许可证文件。

引用信息

  • 引用此数据集时,请使用提供的引用格式。
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
CulturaX-nord是一个多语言文本数据集,专注于北欧和日耳曼语言(包括瑞典语、挪威语、丹麦语、冰岛语、荷兰语、德语、芬兰语和爱沙尼亚语),共包含672M行数据,经过严格清洗和去重处理。该数据集基于CulturaX项目,旨在为大型语言模型提供高质量的多语言训练数据,支持非英语语言的模型开发,适用于自然语言处理研究和应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作