five

WuDaoCorpus2.0_base_200G

收藏
OpenDataLab2026-05-24 更新2025-12-20 收录
下载链接:
https://opendatalab.org.cn/lweiranl/WUDAO
下载链接
链接失效反馈
官方服务:
资源简介:
WUDAO data used for CoreTech_LLM Continuous Pre-Training.

用于核心技术大语言模型(CoreTech_LLM)持续预训练的悟道(WUDAO)数据集
提供机构:
lweiranl
创建时间:
2025-06-18
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
WuDaoCorpus2.0_base_200G是一个用于文本预训练语言建模的开源数据集,容量为200G,采用Apache 2.0许可证。该数据集由lweiranl/WUDAO维护,目前暂无数据文件。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作