高效可扩展训练部署子系统GPT-2实验数据集

Name: 高效可扩展训练部署子系统GPT-2实验数据集
Creator: 北京一流科技有限公司
License: 暂无描述

国家基础学科公共科学数据中心2026-01-30 收录

下载链接：

https://nbsdc.cn/general/dataDetail?id=686a8dcb195d2621a90dbfd5&type=1

下载链接

链接失效反馈

官方服务：

资源简介：

GPT-2实验数据集Wikipedia语料主要面向自然语言处理及大规模语言模型训练研究，旨在提供高质量、覆盖面广的语义语料支持模型的预训练任务。该数据集来源于Wikimedia官方提供的Wikipedia XML Dumps（https://mela.wikimedia.org/wiki/Mirroring_Wikimedia_project_XML_dumps#Current_Mirrors），通过定期抓取维基百科全量页面内容，并经过结构化解析和预处理生成。数据产生方法主要包括原始XML结构解析、内容去重、标记清理、断句分词等步骤，确保语料语义完整性和语言表达多样性。该数据集内容涵盖人文、科学、技术、历史等多个领域条目，文本语言规范、上下文逻辑性强，是语言模型通用语义理解能力训练的重要资源。目前公开版本数据量超过20GB（压缩后），未压缩原始数据体量更大，适合用于预训练、迁移学习、语言建模等多种NLP研究与开发任务。

提供机构：

北京一流科技有限公司