five

WanJuan3.0

收藏
github2025-01-10 更新2025-01-11 收录
下载链接:
https://github.com/opendatalab/WanJuan3.0
下载链接
链接失效反馈
官方服务:
资源简介:
WanJuan3.0(“万卷·丝路”)是一个综合性的纯文本语料库,采集了多个国家地区的网络公开信息、文献、专利等资料,数据总规模超1.2TB,Token总数超过300B,处于国际领先水平。首期开源的语料库主要由泰语、俄语、阿拉伯语、韩语和越南语5个子集构成,每个子集的数据规模均超过150GB。

WanJuan3.0 ("Wanjuan·Silk Road") is a comprehensive pure-text corpus. It collects publicly available online information, literature, patents and other materials from multiple countries and regions, with a total data size exceeding 1.2 TB and a total token count exceeding 300 billion, placing it at the internationally leading level. The first-phase open-sourced corpus mainly comprises five subsets in Thai, Russian, Arabic, Korean and Vietnamese, each with a data size of over 150 GB.
创建时间:
2025-01-10
原始信息汇总

WanJuan3.0 数据集概述

数据集简介

WanJuan3.0(“万卷·丝路”)是一个综合性的纯文本语料库,采集了多个国家地区的网络公开信息、文献、专利等资料。数据总规模超过1.2TB,Token总数超过300B(300 billion),处于国际领先水平。首期开源的语料库主要由泰语、俄语、阿拉伯语、韩语和越南语5个子集构成,每个子集的数据规模均超过150GB。

下载链接

  1. WanJuan-Thai(泰语):https://opendatalab.com/OpenDataLab/WanJuan-Thai
  2. WanJuan-Russian(俄语):https://opendatalab.com/OpenDataLab/WanJuan-Russian
  3. WanJuan-Korean(韩语):https://opendatalab.com/OpenDataLab/WanJuan-Korean
  4. WanJuan-Vietnamese(越南语):https://opendatalab.com/OpenDataLab/WanJuan-Vietnamese
  5. WanJuan-Arabic(阿拉伯语):https://opendatalab.com/OpenDataLab/WanJuan-Arabic

主题分类

基于“书生·浦语”智能标签分类体系,每个语料子集细分为7个大类和32个小类,覆盖历史、政治、文化、房产、购物、天气、餐饮、百科、专业知识等多类具有语言所在地特征的内容。

数据质量评估

“万卷·丝路”语料库通过专家人工标注,确立了包含七个维度的文本数据质量评估体系,从完整性、有效性、可理解性、流畅性、相关性、相似性和安全性等方面保障数据的高标准与高质量。

质量评估维度

序号 一级分类 二级分类 定义
1 质量类 完整性 数据内容是否语义完整
2 质量类 有效性 数据内容是否含有效的语义内容
3 质量类 可理解性 数据内容是否因格式等错误导致语义有歧义不可理解
4 质量类 流畅性 数据内容语义是否流畅
5 质量类 相关性 数据是否有上下文主题不相关内容
6 重复类 相似性 数据是否重复
7 安全类 安全性 数据是否涉及内容安全

数据处理流程

  1. 对网页及非网页数据进行标准化处理,统一数据格式,运用局部敏感哈希算法高效去重。
  2. 建立域名黑名单筛除不良网页数据,构建多语言特色敏感词表并结合语境评估,精准过滤有害内容。
  3. 利用主题分类器对数据进行分类,优化知识域分布。
  4. 通过PPL初筛快速剔除低质量数据,再借助基于BERT的质量分类模型精准筛选高质量内容。

模型验证

使用“万卷·丝路”数据在开源基座上进行继续预训练,实验结果显示,模型在多语言内容理解及推理能力上的表现均获得了提升。

许可

WanJuan3.0(万卷·丝路)整体采用CC BY 4.0许可协议。用户可以自由共享、改编该数据集,但需遵循署名和没有附加限制的条件。

特别注意事项

某些子集可能受制于其他协议规定,使用前请仔细阅读相关协议,确保合规使用。

引文

bibtex @misc{he2024opendatalabempoweringgeneralartificial, title={OpenDataLab: Empowering General Artificial Intelligence with Open Datasets}, author={Conghui He and Wei Li and Zhenjiang Jin and Chao Xu and Bin Wang and Dahua Lin}, year={2024}, eprint={2407.13773}, archivePrefix={arXiv}, primaryClass={cs.DL}, url={https://arxiv.org/abs/2407.13773}, }

搜集汇总
数据集介绍
main_image_url
构建方式
WanJuan3.0数据集通过采集多个国家地区的网络公开信息、文献、专利等资料构建而成,数据总规模超过1.2TB,Token总数超过300B。研究团队采用局部敏感哈希算法进行高效去重,并通过域名黑名单和多语言敏感词表进行安全性处理,确保数据的高质量与安全性。此外,数据经过主题分类器分类,并通过PPL初筛和BERT质量分类模型进行精准筛选,确保数据的多样性和高质量。
特点
WanJuan3.0数据集以其多语言特色和高质量著称,涵盖泰语、俄语、阿拉伯语、韩语和越南语五个子集,每个子集数据规模均超过150GB。数据集基于‘书生·浦语’智能标签分类体系,细分为7个大类和32个小类,覆盖历史、政治、文化等多个领域。通过专家人工标注和Dingo工具的多维度评估,数据集在完整性、有效性、可理解性等方面表现出色,显著优于同类语料库。
使用方法
WanJuan3.0数据集适用于多语言模型的训练与评估,用户可通过OpenDataLab平台下载各语言子集。数据集采用CC BY 4.0许可协议,允许用户自由共享和改编,但需遵循署名和没有附加限制的条件。使用前需仔细阅读相关协议,确保合规使用。研究团队已使用该数据集在开源基座上进行继续预训练,验证了其在多语言内容理解及推理能力上的显著提升。
背景与挑战
背景概述
WanJuan3.0(万卷·丝路)是由上海AI实验室研究团队开发的一个综合性多语言文本语料库,旨在为多语言自然语言处理研究提供高质量的数据支持。该数据集创建于2024年,涵盖了泰语、俄语、阿拉伯语、韩语和越南语等多种语言,数据总规模超过1.2TB,Token总数达到300B,处于国际领先水平。通过采集网络公开信息、文献、专利等资料,并结合“书生·浦语”智能标签分类体系,WanJuan3.0将数据细分为7个大类和32个小类,覆盖了广泛的主题领域。该数据集的发布为多语言模型训练和跨语言理解研究提供了重要的数据基础,推动了自然语言处理领域的进步。
当前挑战
WanJuan3.0在构建过程中面临了多方面的挑战。首先,多语言数据的采集与整合需要克服语言多样性带来的复杂性,尤其是在处理非拉丁字母语言时,数据格式的统一和语义的准确表达成为难点。其次,数据质量的保障是另一大挑战,研究团队通过专家人工标注和基于大语言模型的评估工具Dingo,从完整性、有效性、可理解性等多个维度对数据进行严格筛选,确保数据的高质量。此外,数据的安全性处理也至关重要,研究团队通过建立域名黑名单和多语言敏感词表,结合语境评估和语言安全模型,精准过滤有害内容。这些挑战的克服为多语言模型训练提供了高质量、安全可靠的数据基础,但也凸显了多语言数据处理的技术难度和复杂性。
常用场景
经典使用场景
WanJuan3.0数据集广泛应用于多语言自然语言处理(NLP)领域,尤其是在跨语言文本理解、机器翻译和多语言模型训练中。其丰富的多语言语料库为研究者提供了多样化的语言资源,使得模型能够在不同语言之间进行有效的语义转换和理解。通过使用该数据集,研究者可以构建和优化多语言模型,提升其在多语言环境下的表现。
解决学术问题
WanJuan3.0数据集解决了多语言NLP研究中的关键问题,如语言资源匮乏、数据质量不均等。其高质量的多语言语料库为研究者提供了标准化的数据基础,使得跨语言模型的训练和评估更加可靠。通过该数据集,研究者能够更好地理解不同语言之间的语义差异,推动多语言NLP技术的发展。
衍生相关工作
WanJuan3.0数据集衍生了许多经典的多语言NLP研究工作,如基于该数据集的多语言预训练模型、跨语言文本分类和多语言情感分析等。这些研究不仅推动了多语言NLP技术的发展,还为后续的研究者提供了宝贵的参考和基础。通过该数据集,研究者能够更好地探索多语言环境下的NLP问题,推动了该领域的进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作