高效可扩展训练部署子系统GPT-2实验数据集
收藏国家基础学科公共科学数据中心2026-01-30 收录
下载链接:
https://nbsdc.cn/general/dataDetail?id=686a8dcb195d2621a90dbfd5&type=1
下载链接
链接失效反馈官方服务:
资源简介:
GPT-2实验数据集Wikipedia语料主要面向自然语言处理及大规模语言模型训练研究,旨在提供高质量、覆盖面广的语义语料支持模型的预训练任务。该数据集来源于Wikimedia官方提供的Wikipedia XML Dumps(https://mela.wikimedia.org/wiki/Mirroring_Wikimedia_project_XML_dumps#Current_Mirrors),通过定期抓取维基百科全量页面内容,并经过结构化解析和预处理生成。数据产生方法主要包括原始XML结构解析、内容去重、标记清理、断句分词等步骤,确保语料语义完整性和语言表达多样性。该数据集内容涵盖人文、科学、技术、历史等多个领域条目,文本语言规范、上下文逻辑性强,是语言模型通用语义理解能力训练的重要资源。目前公开版本数据量超过20GB(压缩后),未压缩原始数据体量更大,适合用于预训练、迁移学习、语言建模等多种NLP研究与开发任务。
提供机构:
北京一流科技有限公司



