3GPP
收藏Hugging Face2026-03-30 更新2026-03-31 收录
下载链接:
https://huggingface.co/datasets/GSMA/3GPP
下载链接
链接失效反馈官方服务:
资源简介:
3GPP 规范数据集包含 938 份 3GPP 技术规范和报告,这些文档被分解为自包含的章节,并内联了表格和图表。数据集涵盖 Rel-18 和 Rel-19 两个版本,每个版本的数据按系列分类(如 21_series 至 38_series)。数据集适用于电信、5G、NR、LTE 等领域的标准和技术规范研究。数据集的每个条目包含规范 ID、规范编号、类型、标题、发布版本、章节号、章节标题、父章节、深度、自包含的 Markdown 正文、字符数、文档顺序、引用的图像及其 MD5 哈希值等信息。此外,原始 DOCX 文件也可供下载。数据集的使用受 3GPP 法律条款约束。
创建时间:
2026-03-28
原始信息汇总
3GPP Specifications 数据集概述
数据集基本信息
- 数据集名称:3GPP Specifications
- 托管地址:https://huggingface.co/datasets/GSMA/3GPP
- 主要语言:英语
- 许可证:3gpp (其他)
- 许可证链接:https://www.3gpp.org/specifications-technologies/legal-matters
- 标签:电信、3gpp、5g、nr、lte、标准、规范
数据集内容与结构
该数据集包含938份3GPP技术规范和报告,这些文档被分解为自包含的章节,并内联了表格和图片。这是一个预验证数据集。
版本(配置)
数据集包含两个3GPP版本配置:
- Rel-18:默认配置。
- Rel-19。
数据文件组织
每个版本配置按系列(series)划分为多个数据分割(split),数据文件格式为Parquet。
Rel-18 包含的系列:21, 22, 23, 24, 26, 27, 28, 29, 31, 32, 33, 36, 37, 38系列。 Rel-19 包含的系列:21, 22, 23, 24, 26, 27, 28, 29, 31, 32, 33, 34, 35, 36, 37, 38系列。
数据模式(Schema)
| 列名 | 类型 | 描述 |
|---|---|---|
spec_id |
string | 规范标识符,例如 38331 |
spec_number |
string | 点分形式,例如 38.331 |
spec_type |
string | TS 或 TR |
title |
string | 完整的规范标题 |
release |
string | Rel-18 或 Rel-19 |
clause |
string | 章节编号,例如 5.2.1 |
section_title |
string | 章节标题 |
parent_clause |
string | 父章节,例如 5.2 |
depth |
int32 | 标题深度 (1-6) |
body |
string | 自包含的Markdown文本(表格/图片已内联) |
body_chars |
int32 | 字符数 |
document_order |
int32 | 在规范内的位置顺序 |
images |
list[Image] | 本节引用的图片 |
image_hashes |
list[string] | 图片的MD5哈希值 |
原始文件
原始的3GPP Word文档也包含在数据集中:
- Rel-18:549个文件。
- Rel-19:442个文件。
这些文件位于 original/ 目录下(例如 original/rel-18/, original/rel-19/)。文件名遵循3GPP约定:{spec_id}-{version}[_{part}].docx。大型规范可能被分割成多个文件。
使用示例
可通过 datasets 库加载数据,支持按版本和系列筛选,并可重构完整规范文本或下载原始DOCX文件。
搜集汇总
数据集介绍

构建方式
在移动通信技术标准化的宏大背景下,3GPP数据集通过系统化的文档处理流程构建而成。其核心是将3GPP组织发布的原始技术规范与报告(DOCX格式)进行结构化解析,将每个文档分解为独立、自包含的章节单元。构建过程涉及对文档层级结构的识别,提取章节编号、标题与正文内容,并将文档内嵌的表格与图像进行内联处理,最终以Parquet数据格式组织,形成了涵盖不同系列(如21至38系列)和不同版本(如Rel-18、Rel-19)的规范化语料库。
特点
该数据集在电信标准文献领域展现出鲜明的结构化特征。其内容全面覆盖了从LTE到5G NR等关键技术的938份技术规范与报告,并依据3GPP的系列分类体系进行组织,确保了技术体系的完整性。每一数据条目均以自包含的章节形式呈现,正文内容集成了原始的表格与图像,保障了技术信息的无损与上下文连贯。数据集提供了精细的元数据,包括规范标识、发布版本、章节层级深度及文档顺序,为深入的语义分析、信息检索与知识图谱构建奠定了坚实基础。
使用方法
面向通信工程与自然语言处理的研究与应用,该数据集提供了灵活的使用途径。用户可通过`datasets`库便捷加载特定版本与系列的数据,例如加载Rel-18版本中关于NR无线电的38系列规范。数据集支持基于规范ID、章节号等元数据进行精准过滤与查询,以获取目标技术章节。用户亦可依据文档顺序字段,将分散的章节重新拼接,重构出完整的技术规范文本。此外,原始的DOCX文件可供下载,为需要访问最原始格式的研究者提供了便利。
背景与挑战
背景概述
在移动通信技术迅猛发展的时代背景下,第三代合作伙伴计划(3GPP)作为全球电信标准制定的核心组织,自1998年成立以来,持续推动着从3G到5G乃至未来6G的技术演进。该数据集由GSMA机构整理并发布,涵盖了3GPP第18版和第19版的技术规范与报告,将938份原始文档分解为自包含的章节,并内联了表格与图像。其核心研究问题在于如何将庞大而复杂的标准文档转化为结构化、可机器读取的数据,以支持自然语言处理、知识图谱构建及自动化合规检查等高级研究与应用,对电信领域的标准化研究、人工智能辅助的协议分析产生了深远影响。
当前挑战
该数据集旨在解决电信标准文档的自动化处理与智能分析这一领域问题,面临的挑战包括标准文本的专业性极强、术语密集且结构复杂,使得自然语言理解模型难以准确捕捉技术语义与逻辑关系。在构建过程中,挑战同样显著:原始DOCX文档格式不一,包含大量交叉引用、图表及数学公式,需精确解析并保持内容完整性;同时,需处理文档的版本管理与系列分类,确保数据的一致性与可追溯性,这些因素共同增加了数据集构建的技术难度与质量控制要求。
常用场景
经典使用场景
在移动通信技术演进中,3GPP数据集为标准化文档的深度解析提供了结构化基础。该数据集将技术规范与报告分解为自包含的章节,并内联表格与图像,便于研究人员对5G NR、LTE等协议进行细粒度分析。经典使用场景包括协议一致性验证、网络性能建模以及跨版本技术对比,为通信系统设计与优化提供了权威的文本依据。
实际应用
在实际应用层面,3GPP数据集被广泛用于网络设备开发与测试验证。制造商依据其结构化内容实现协议栈的精准实现,运营商则借助其进行网络部署与故障诊断。此外,该数据集支撑了智能网元设计、频谱管理优化以及下一代通信系统(如6G)的前瞻性研究,成为产业界技术落地的关键参考。
衍生相关工作
基于该数据集,衍生出多项经典研究工作。例如,利用自然语言处理技术对规范进行自动摘要与关系挖掘,辅助协议理解;结合机器学习方法预测技术演进趋势;以及构建跨版本规范差异分析工具,支持平滑升级。这些工作深化了标准化文档的智能应用,拓展了通信人工智能的研究边界。
以上内容由遇见数据集搜集并总结生成



