TeleSpec-Data
收藏Hugging Face2026-03-25 更新2026-03-26 收录
下载链接:
https://huggingface.co/datasets/nareshmodina/TeleSpec-Data
下载链接
链接失效反馈官方服务:
资源简介:
TeleSpec-Data 是一个包含电信标准文档的数据集,主要来源于两大标准化组织:ETSI 和 3GPP。该数据集旨在为语言模型在电信领域的持续预训练提供支持。数据集包含两个类别:1) 3gpp-standard:包含 15,054 份 3GPP 技术规范和报告,覆盖 Release 8 至 Release 19(更新至 2025 年 4 月),源自 TSpec-LLM 数据集;2) etsi-standard:包含 23,248 份 ETSI 文档,涵盖 15 个工作组的多种文档类型(TS、TR、EN 等),时间跨度为 2000 年至 2024 年,提取自 NetSpec-LLM 的 PDF 语料库。总计 38,302 份文档。数据集结构包括以下字段:id(唯一标识符)、category(文档类别)、content(文档全文,各节以 ` \n ` 分隔)、metadata(文档级元数据的 JSON 字符串,字段因类别而异)。该数据集适用于电信领域知识相关的文本生成任务和语言模型预训练。
创建时间:
2026-03-24



