WuDaoCorpus2.0_base_200G
收藏OpenDataLab2026-05-24 更新2025-12-20 收录
下载链接:
https://opendatalab.org.cn/lweiranl/WUDAO
下载链接
链接失效反馈官方服务:
资源简介:
WUDAO data used for CoreTech_LLM Continuous Pre-Training.
用于核心技术大语言模型(CoreTech_LLM)持续预训练的悟道(WUDAO)数据集
提供机构:
lweiranl
创建时间:
2025-06-18
搜集汇总
数据集介绍

背景与挑战
背景概述
WuDaoCorpus2.0_base_200G是一个用于文本预训练语言建模的开源数据集,容量为200G,采用Apache 2.0许可证。该数据集由lweiranl/WUDAO维护,目前暂无数据文件。
以上内容由遇见数据集搜集并总结生成



