five

RWKV World v3

收藏
arXiv2025-03-19 更新2025-03-20 收录
下载链接:
https://huggingface.co/RWKV
下载链接
链接失效反馈
官方服务:
资源简介:
RWKV World v3数据集是由RWKV Project、EleutherAI等机构创建的一个大规模多语言语料库,包含3.1万亿个token,旨在为训练新的语言模型提供优秀的英语、代码和多种语言能力。该数据集是基于公开可获得的多语言数据构建的,用于训练从0.19亿到2.9亿参数不等的四个RWKV-7模型,这些模型在多种语言任务上表现出卓越的性能。

The RWKV World v3 Dataset is a large-scale multilingual corpus created by institutions including the RWKV Project, EleutherAI, and others. It contains 3.1 trillion tokens, and is designed to provide robust English, code, and multilingual capabilities for training new language models. Built upon publicly available multilingual data, this dataset was used to train four RWKV-7 models with parameter sizes ranging from 19 million to 290 million, which have demonstrated outstanding performance across various multilingual tasks.
提供机构:
RWKV Project (under Linux Foundation AI & Data), EleutherAI, Tsinghua University, Dalle Molle Institute for Artificial Intelligence USI-SUPSI, Guangdong Laboratory of Artificial Intelligence and Digital Economy (SZ), George Mason University, New York University, Tano Labs, Shenzhen University, University of Oslo, Beijing Normal University, Denigma
创建时间:
2025-03-19
搜集汇总
数据集介绍
main_image_url
构建方式
RWKV World v3数据集的构建基于广泛的公开多语言数据源,包括英语、多语言和代码数据。该数据集从RWKV World v2数据集扩展而来,分两个阶段进行构建:首先,World v2.1增加了约1.4万亿个RWKV World Tokenizer的token;随后,World v3进一步增加了更多数据源,最终达到约3.1万亿个token。数据集的选择旨在近似于先前World数据集的分布,同时略微增强了中文小说的比例。所有token在组合语料库中具有相同的权重,除非另有说明。
特点
RWKV World v3数据集的特点在于其规模庞大且多样化,涵盖了3.1万亿个token,涵盖了英语、多语言和代码数据。该数据集的设计旨在缩小与现代大型语言模型训练数据量之间的差距,同时保持了数据的多样性和广泛性。数据集中的token分布均匀,确保了模型在训练过程中能够接触到多种语言和领域的内容,从而提升其多语言任务的表现。此外,数据集的构建过程注重数据的公开性和可重复性,所有数据源均来自公开可用的资源。
使用方法
RWKV World v3数据集的使用方法包括将其用于训练RWKV-7模型,以提升模型在多语言任务中的表现。数据集通过内存映射(mmap)机制加载,并采用自定义的数据加载策略,确保训练序列的多样性和伪随机性。训练过程中,模型使用AdamW优化器,并在bfloat16格式下进行训练。数据集的加载策略基于数学函数,确保在训练过程中能够均匀访问数据集中的所有token。通过这种方式,模型能够在训练过程中接触到多样化的数据,从而提升其泛化能力和多语言任务的表现。
背景与挑战
背景概述
RWKV World v3 数据集是一个多语言语料库,由RWKV项目团队于2025年创建,旨在为大规模语言模型(LLM)提供高质量的训练数据。该数据集包含了3.1万亿个标记,涵盖了英语、多语言和代码等多种数据类型,特别增强了中文小说的比例。RWKV World v3 数据集的构建是为了缩小与现代LLM训练数据量之间的差距,后者通常需要15至18万亿个标记。该数据集的发布标志着RWKV-7架构的推出,该架构在3亿参数规模上在多语言任务中达到了新的最先进水平,并在英语任务中与当前最先进的模型表现相当,尽管其训练标记数量显著少于其他顶级模型。RWKV-7的推出不仅展示了其在语言建模任务中的强大能力,还通过其线性时间复杂度和恒定内存使用,为RNN架构在序列建模任务中的应用提供了新的可能性。
当前挑战
RWKV World v3 数据集及其相关模型面临的主要挑战包括:1) 在多语言任务中保持高性能的同时,确保模型在较少训练标记的情况下仍能表现出色;2) 在构建数据集时,如何有效地整合和平衡不同语言和领域的数据,以确保模型的泛化能力;3) 在模型训练过程中,如何解决数值精度问题,特别是在WKV7内核等敏感操作中,确保训练的稳定性;4) 如何在不从头开始训练的情况下,通过升级RWKV架构来减少计算开销,同时保持模型的竞争力。此外,模型在长上下文任务中的表现仍需进一步优化,特别是在处理超过10k的上下文时,模型的损失开始增加,表明可能存在过拟合问题。
常用场景
经典使用场景
RWKV World v3数据集在自然语言处理领域中被广泛用于训练和评估多语言任务中的序列建模架构。该数据集包含了3.1万亿个多语言标记,涵盖了英语、代码和其他多种语言,能够为模型提供丰富的上下文信息。RWKV-7架构通过其独特的动态状态演化机制,能够在这些任务中表现出色,尤其是在处理长序列和复杂语言结构时。
解决学术问题
RWKV World v3数据集解决了多语言任务中模型性能不足的问题,尤其是在资源有限的情况下。通过提供大规模的、多样化的多语言数据,该数据集帮助研究人员训练出能够在多种语言上表现优异的模型。此外,RWKV-7架构通过其常数内存使用和常数推理时间的特性,解决了传统Transformer模型在处理长序列时内存和计算资源消耗过大的问题。
衍生相关工作
RWKV World v3数据集和RWKV-7架构的发布催生了一系列相关研究,特别是在多语言模型和长序列处理领域。许多研究工作基于该数据集开发了新的模型架构和训练方法,进一步提升了多语言任务中的性能。此外,RWKV-7的常数内存特性也激发了更多关于高效序列建模的研究,推动了该领域的技术进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作