WanJuan3.0
收藏WanJuan3.0 数据集概述
数据集简介
WanJuan3.0(“万卷·丝路”)是一个综合性的纯文本语料库,采集了多个国家地区的网络公开信息、文献、专利等资料。数据总规模超过1.2TB,Token总数超过300B(300 billion),处于国际领先水平。首期开源的语料库主要由泰语、俄语、阿拉伯语、韩语和越南语5个子集构成,每个子集的数据规模均超过150GB。
下载链接
- WanJuan-Thai(泰语):https://opendatalab.com/OpenDataLab/WanJuan-Thai
- WanJuan-Russian(俄语):https://opendatalab.com/OpenDataLab/WanJuan-Russian
- WanJuan-Korean(韩语):https://opendatalab.com/OpenDataLab/WanJuan-Korean
- WanJuan-Vietnamese(越南语):https://opendatalab.com/OpenDataLab/WanJuan-Vietnamese
- WanJuan-Arabic(阿拉伯语):https://opendatalab.com/OpenDataLab/WanJuan-Arabic
主题分类
基于“书生·浦语”智能标签分类体系,每个语料子集细分为7个大类和32个小类,覆盖历史、政治、文化、房产、购物、天气、餐饮、百科、专业知识等多类具有语言所在地特征的内容。
数据质量评估
“万卷·丝路”语料库通过专家人工标注,确立了包含七个维度的文本数据质量评估体系,从完整性、有效性、可理解性、流畅性、相关性、相似性和安全性等方面保障数据的高标准与高质量。
质量评估维度
| 序号 | 一级分类 | 二级分类 | 定义 |
|---|---|---|---|
| 1 | 质量类 | 完整性 | 数据内容是否语义完整 |
| 2 | 质量类 | 有效性 | 数据内容是否含有效的语义内容 |
| 3 | 质量类 | 可理解性 | 数据内容是否因格式等错误导致语义有歧义不可理解 |
| 4 | 质量类 | 流畅性 | 数据内容语义是否流畅 |
| 5 | 质量类 | 相关性 | 数据是否有上下文主题不相关内容 |
| 6 | 重复类 | 相似性 | 数据是否重复 |
| 7 | 安全类 | 安全性 | 数据是否涉及内容安全 |
数据处理流程
- 对网页及非网页数据进行标准化处理,统一数据格式,运用局部敏感哈希算法高效去重。
- 建立域名黑名单筛除不良网页数据,构建多语言特色敏感词表并结合语境评估,精准过滤有害内容。
- 利用主题分类器对数据进行分类,优化知识域分布。
- 通过PPL初筛快速剔除低质量数据,再借助基于BERT的质量分类模型精准筛选高质量内容。
模型验证
使用“万卷·丝路”数据在开源基座上进行继续预训练,实验结果显示,模型在多语言内容理解及推理能力上的表现均获得了提升。
许可
WanJuan3.0(万卷·丝路)整体采用CC BY 4.0许可协议。用户可以自由共享、改编该数据集,但需遵循署名和没有附加限制的条件。
特别注意事项
某些子集可能受制于其他协议规定,使用前请仔细阅读相关协议,确保合规使用。
引文
bibtex @misc{he2024opendatalabempoweringgeneralartificial, title={OpenDataLab: Empowering General Artificial Intelligence with Open Datasets}, author={Conghui He and Wei Li and Zhenjiang Jin and Chao Xu and Bin Wang and Dahua Lin}, year={2024}, eprint={2407.13773}, archivePrefix={arXiv}, primaryClass={cs.DL}, url={https://arxiv.org/abs/2407.13773}, }




