ot-full-benchmarks

Hugging Face2026-02-13 更新2026-02-14 收录

下载链接：

https://huggingface.co/datasets/GSMA/ot-full-benchmarks

下载链接

链接失效反馈

官方服务：

资源简介：

Open Telco Full Benchmarks 是一个包含 16,866 个电信领域特定评估样本的数据集，涵盖 7 个不同的基准测试，旨在全面评估电信 AI 的性能。该数据集适用于最终可发布的结果评估，同时提供了一个包含 1,700 个样本的简化版本（ot_sample_data）用于模型开发期间的快速迭代。数据集包含以下基准测试：1) TeleQnA（10,000 个样本，电信标准的多选题问答）；2) TeleTables（500 个样本，3GPP 规范中的表格解释）；3) TeleMath（500 个样本，电信数学推理）；4) TeleLogs（864 个样本，5G 网络根因分析）；5) 3GPP_TSG（2,000 个样本，3GPP 文档按工作组分类）；6) ORANBench（1,500 个样本，O-RAN 规范的多选题问答）；7) srsRANBench（1,502 个样本，srsRAN 5G 代码库的多选题问答）。每个基准测试都有详细的任务描述和对应的研究论文。数据集支持通过 Hugging Face 的 datasets 库直接加载，并提供了与 Inspect AI 框架集成的评估指南。

Open Telco Full Benchmarks is a dataset containing 16,866 domain-specific evaluation samples across 7 distinct benchmarks, designed to comprehensively evaluate the performance of telecommunications AI. This dataset is suitable for final publishable result evaluation, and also provides a simplified version (ot_sample_data) with 1,700 samples for rapid iteration during model development. The dataset includes the following benchmarks: 1) TeleQnA: 10,000 samples of multiple-choice question answering based on telecommunications standards; 2) TeleTables: 500 samples focused on table interpretation from 3GPP specifications; 3) TeleMath: 500 samples for telecommunications-oriented mathematical reasoning; 4) TeleLogs: 864 samples for 5G network root cause analysis; 5) 3GPP_TSG: 2,000 samples of 3GPP documents categorized by working groups; 6) ORANBench: 1,500 samples of multiple-choice question answering for O-RAN specifications; 7) srsRANBench: 1,502 samples of multiple-choice question answering for the srsRAN 5G codebase. Each benchmark includes detailed task descriptions and corresponding research papers. The dataset can be directly loaded via the Hugging Face datasets library, and evaluation guidelines integrated with the Inspect AI framework are also provided.

创建时间：

2026-02-09

原始信息汇总

Open Telco Full Benchmarks 数据集概述

数据集基本信息

数据集名称：Open Telco Full Benchmarks
发布者：GSMA
许可证：MIT
语言：英语
数据规模：10K<n<100K
任务类别：问答、文本分类
标签：telecommunications, telecom, 3gpp, 5g, benchmarks, evaluation, llm

数据集内容

该数据集包含16,866个电信领域特定的评估样本，涵盖7个独立的基准测试，用于全面评估人工智能在电信领域的性能。

基准测试配置详情

1. 配置：`teleqna`

样本数量：10,000
任务：电信标准的多选题问答
特征：
- question (string): 问题
- choices (list[string]): 选项列表
- answer (int64): 答案索引
- subject (string): 主题
相关论文：https://arxiv.org/abs/2310.15051

2. 配置：`teletables`

样本数量：500
任务：3GPP规范中的表格解读
特征：
- question (string): 问题
- choices (list[string]): 选项列表
- answer (int64): 答案索引
- explanation (string): 解释
- difficult (bool): 是否困难
- table_id (string): 表格ID
- table_title (string): 表格标题
- document_id (string): 文档ID
- document_title (string): 文档标题
- document_url (string): 文档URL
相关论文：https://arxiv.org/abs/2601.04202

3. 配置：`telemath`

样本数量：500
任务：电信数学推理
特征：
- question (string): 问题
- answer (float64): 答案
- category (string): 类别
- tags (list[string]): 标签列表
- difficulty (string): 难度
相关论文：https://arxiv.org/abs/2506.10674

4. 配置：`telelogs`

样本数量：864
任务：5G网络根因分析
特征：
- question (string): 问题
- answer (string): 答案
相关论文：https://arxiv.org/abs/2507.21974

5. 配置：`3gpp_tsg`

样本数量：2,000
任务：按工作组对3GPP文档进行分类
特征：
- question (string): 问题
- answer (string): 答案
- file_name (string): 文件名
相关论文：https://arxiv.org/abs/2407.09424

6. 配置：`oranbench`

样本数量：1,500
任务：O-RAN规范的多选题问答
特征：
- question (string): 问题
- choices (list[string]): 选项列表
- answer (int64): 答案索引
- difficulty (string): 难度
相关论文：https://arxiv.org/abs/2407.06245

7. 配置：`srsranbench`

样本数量：1,502
任务：srsRAN 5G代码库的多选题问答
特征：
- question (string): 问题
- choices (list[string]): 选项列表
- answer (int64): 答案索引
相关论文：https://arxiv.org/abs/2407.06245

使用建议

该数据集适用于最终可发布结果的评估。
模型开发期间的快速迭代，建议使用样本数据集 ot_sample_data (1,700个样本)。
快速测试可使用 ot_sample_data (每个基准测试的100-1,000样本子集)。

相关资源

评估框架：https://github.com/gsma-labs/evals
样本数据集：https://huggingface.co/datasets/GSMA/ot_sample_data
运行评估指南：https://github.com/gsma-labs/evals/blob/main/docs/running-evaluations.md

搜集汇总

数据集介绍

构建方式

在电信领域，随着人工智能技术的深入应用，对专业领域知识评估的需求日益增长。Open Telco Full Benchmarks数据集通过整合七个独立的基准测试构建而成，每个基准均基于严谨的学术研究。数据来源涵盖3GPP规范文档、O-RAN技术标准、srsRAN开源代码库以及实际5G网络日志，经由领域专家进行精心标注与验证，确保了问题的专业性和答案的准确性。整个构建过程遵循标准化流程，旨在创建一套全面、可靠的电信AI性能评估体系。

使用方法

为有效利用该数据集进行评估，研究者可通过Hugging Face的`datasets`库便捷加载任一子集进行模型测试。数据集主要设计用于最终的性能评测与学术发表，建议在模型开发后期使用以获得稳健结论。对于快速原型验证，可转向其轻量版样本数据集。此外，社区提供了配套的评估框架，支持通过命令行工具直接运行标准化评测脚本，从而实现对不同大语言模型在电信任务上性能的系统化度量与对比分析。

背景与挑战

背景概述

在人工智能与通信技术深度融合的背景下，GSMA实验室联合多位研究人员于2023年至2025年间推出了Open Telco Full Benchmarks数据集。该数据集旨在系统评估大型语言模型在电信领域的专业能力，涵盖了3GPP标准、5G网络、O-RAN规范及srsRAN代码库等多个核心维度。通过整合七个子基准，该数据集为电信人工智能的性能度量提供了全面且标准化的评估框架，推动了领域专用模型的发展，并对通信行业的智能化转型产生了深远影响。

当前挑战

该数据集致力于解决电信领域复杂知识理解与推理的挑战，包括对高度专业化技术文档的语义解析、数学计算与逻辑推断，以及网络故障根因分析等任务。在构建过程中，研究人员面临多重困难：需从海量且不断演进的通信标准文献中精准提取与标注知识单元，确保数据的技术准确性与时效性；同时，设计能够真实反映电信工程实践需求的多样化任务，并平衡不同子任务的难度与代表性，以构建一个均衡且可靠的评估体系。

常用场景

经典使用场景

在电信领域，随着人工智能技术的深度融合，评估大型语言模型在专业场景下的性能成为关键需求。Open Telco Full Benchmarks数据集通过整合七个专项基准，为研究人员提供了全面评估模型电信知识理解能力的标准化平台。其经典使用场景集中于对模型进行端到端的性能评测，涵盖从电信标准问答、表格解析到数学推理与网络日志分析等多维度任务，旨在系统衡量模型在复杂电信环境中的准确性与可靠性。

解决学术问题

该数据集有效解决了电信人工智能研究中缺乏标准化评估工具的学术难题。通过提供大规模、高质量的电信领域标注数据，它使得研究者能够定量分析模型在专业知识理解、逻辑推理及实际应用场景中的表现。其意义在于建立了跨子领域的统一评估框架，推动了电信专用语言模型的发展，并为学术界提供了可复现、可比较的基准，加速了智能电信技术的理论探索与创新。

实际应用

在实际应用层面，该数据集为电信运营商、设备制造商及研发机构提供了模型选型与优化的关键依据。例如，在5G网络运维中，模型可利用TeleLogs基准进行根因分析，提升故障诊断效率；在标准制定与合规检查中，TeleQnA与TeleTables能辅助工程师快速检索与解读3GPP规范。这些应用显著降低了专业人力成本，增强了网络自动化与智能化水平，推动了电信产业向AI驱动转型。

数据集最近研究

ot-full-benchmarks

Open Telco Full Benchmarks 数据集概述

数据集基本信息

数据集内容

基准测试配置详情

1. 配置：teleqna

2. 配置：teletables

3. 配置：telemath

4. 配置：telelogs

5. 配置：3gpp_tsg

6. 配置：oranbench

7. 配置：srsranbench