five

WanJuan2.0 (万卷-CC)|自然语言处理数据集|预训练数据集数据集

收藏
OpenDataLab2026-01-17 更新2024-05-09 收录
自然语言处理
预训练数据集
下载链接:
https://opendatalab.org.cn/OpenDataLab/WanJuanCC
下载链接
链接失效反馈
资源简介:
WanJuan2.0(万卷-CC) 是从CommonCrawl获取的一个 1T Tokens 的高质量英文网络文本数据集。结果显示,与各类开源英文CC语料在 Perspective API 不同维度的评估上,WanJuan-CC都表现出更高的安全性。此外,通过在4个验证集上的困惑度(PPL)和6下游任务的准确率,也展示了WanJuan-CC的实用性。WanJuan-CC在各种验证集上的PPL表现出竞争力,特别是在要求更高语言流畅性的tiny-storys等集上。通过与同类型数据集进行1B模型训练对比,使用验证数据集的困惑度(perplexity)和下游任务的准确率作为评估指标,实验证明,WanJuan-CC显著提升了英文文本补全和通用英文能力任务的性能。
提供机构:
OpenDataLab
创建时间:
2024-01-15
AI搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
WanJuan2.0 (万卷-CC) 是一个高质量英文网络文本数据集,源自CommonCrawl,包含约100B Tokens的纯文本数据,主要用于文本预训练和自然语言处理任务。该数据集通过多步处理流程(如去重、安全过滤)确保了数据的安全性和流畅性,在安全评估和下游任务性能上优于同类开源语料。数据以Jsonlines格式存储,附带毒性、流畅性等评分字段,采用CC BY 4.0许可协议,适用于大模型训练和学术研究。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作