five

WuDaoCorpora Text文本预训练数据集

收藏
极市2025-03-07 更新2025-03-08 收录
下载链接:
https://www.cvmart.net/dataSets/detail/1206
下载链接
链接失效反馈
官方服务:
资源简介:
WuDaoCorpora是北京智源人工智能研究院(智源研究院)构建的大规模、高质量数据集,用于支撑大模型训练研究

WuDaoCorpora is a large-scale, high-quality dataset constructed by Beijing Academy of Artificial Intelligence (Zhiyuan Institute) to support the training and research of large models.
提供机构:
极市
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
WuDaoCorpora Text文本预训练数据集是由北京智源人工智能研究院构建的大规模、高质量中文数据集,专门用于支持大模型训练研究。该数据集包含5TB文本数据,开源200GB,采用json格式,注重隐私清洗并覆盖教育、科技等50多个行业标签,旨在提供多领域预训练模型的基础数据支撑。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务