leaderboard

Hugging Face2026-01-11 更新2026-01-12 收录

下载链接：

https://huggingface.co/datasets/GSMA/leaderboard

下载链接

链接失效反馈

官方服务：

资源简介：

Open Telco Leaderboard数据集是一个用于评估大语言模型在电信领域特定任务表现的排行榜数据集。它包含四个基准测试：TeleQnA(测试电信知识的问答对)、TeleMath(电信场景中的数学推理)、TeleLogs(5G网络问题的根因分析)和3GPP-TSG(3GPP技术文档分类)。每个基准测试提供分数(0-100)、标准误差和样本数量。数据集记录了不同模型的评估结果和评估日期，可用于比较不同模型在电信领域的表现。

创建时间：

2026-01-09

原始信息汇总

Open Telco Leaderboard 数据集概述

基本信息

数据集名称: Open Telco Leaderboard
托管地址: https://huggingface.co/datasets/GSMA/leaderboard
许可证: Apache-2.0
主要任务类别: 文本分类、问答
语言: 英语
标签: 电信、5G、LLM评估、基准测试、排行榜
数据规模: n<1K
下载大小: 4680 字节
数据集大小: 809 字节

数据结构

数据集包含一个“train”分割，共有5个样本。

特征列说明

列名	数据类型	描述
`model`	string	包含提供商的模型名称
`teleqna`	list	[分数, 标准误差, 样本数]
`telelogs`	list	[分数, 标准误差, 样本数]
`telemath`	list	[分数, 标准误差, 样本数]
`3gpp_tsg`	list	[分数, 标准误差, 样本数]
`date`	string	评估日期
`__index_level_0__`	int64	索引级别

注: 每个基准测试列包含一个列表，格式为 [分数 (0-100), 标准误差, 样本数]。

基准测试内容

基准测试	描述
TeleQnA	测试电信知识的问答对
TeleMath	电信领域的数学推理
TeleLogs	5G网络问题的根本原因分析
3GPP-TSG	3GPP技术文档分类

相关链接

Open Telco 网站: https://gsma-research.github.io/open_telco/
GitHub 仓库: https://github.com/gsma-research/open_telco

搜集汇总

数据集介绍

构建方式

在电信领域，随着大语言模型技术的快速发展，评估模型在专业场景下的能力变得至关重要。Open Telco Leaderboard数据集通过整合多个电信专项基准测试结果构建而成，其核心数据来源于对各类大语言模型在TeleQnA、TeleMath、TeleLogs及3GPP-TSG四个独立评测任务上的系统化评估。每个评测任务均产出包含得分、标准误差和样本数量的三元组列表，这些数据经过统一收集与结构化处理，最终形成了以模型为索引、涵盖多维度性能指标的排行榜数据集。

特点

该数据集聚焦于电信这一垂直领域，其显著特点在于提供了细粒度的模型性能对比。数据集不仅记录了模型在电信知识问答、数学推理、网络日志根因分析以及技术文档分类等不同任务上的综合得分，还包含了每个得分的标准误差和样本量，为评估结果的统计显著性提供了依据。这种设计使得研究者能够超越单一分数，深入分析模型在不同电信子任务上的能力差异与稳定性。

使用方法

利用该数据集，研究人员可以便捷地进行模型性能分析与横向比较。通过加载数据集并转换为Pandas DataFrame，用户能够轻松提取各基准测试的分数、误差及样本量，进而计算模型的平均得分并进行排名。这一流程为快速评估和筛选适用于电信领域的大语言模型提供了标准化工具，同时也支持更深入的数据挖掘，例如分析模型在不同任务上的表现相关性或趋势变化。

背景与挑战

背景概述

随着第五代移动通信技术的全球部署与人工智能的深度融合，电信领域对大型语言模型的专用评估需求日益凸显。在此背景下，GSMA研究机构于近年推出了Open Telco Leaderboard数据集，旨在系统性地评测语言模型在电信专业知识问答、数学推理、网络故障根因分析及技术文档分类等核心任务上的性能。该数据集通过整合TeleQnA、TeleMath、TeleLogs及3GPP-TSG等多个专项基准，为学术界与工业界提供了一个标准化的评估框架，有力推动了电信智能化进程中模型能力的量化比较与优化方向的确立。

当前挑战

该数据集致力于解决电信领域智能化应用中的关键挑战，即如何精准评估语言模型在高度专业化、技术密集的电信环境下的实际效能。构建过程中面临多重困难：电信知识具有极强的领域特定性与动态演进特征，要求评估任务既能覆盖基础理论，又能反映前沿技术标准；同时，专业数据的标注依赖领域专家，成本高昂且一致性难以保证；此外，电信场景下的数学推理与日志分析需模型兼具符号处理与上下文理解能力，这对现有评估方法提出了更高的跨任务泛化要求。

常用场景

经典使用场景

在电信领域，随着大型语言模型技术的快速发展，评估模型在专业任务上的性能成为关键需求。Open Telco Leaderboard数据集作为电信领域的基准测试平台，其经典使用场景在于系统性地评估和比较不同语言模型在电信专业知识问答、数学推理、网络日志分析及技术文档分类等任务上的表现。研究人员通过该数据集提供的标准化评分，能够直观地识别模型在特定电信子领域的优势与短板，从而推动模型优化与迭代。

解决学术问题

该数据集有效解决了电信与人工智能交叉研究中缺乏标准化评估基准的学术问题。传统上，评估语言模型在高度专业化领域的性能往往依赖通用基准，难以准确反映模型在电信特定知识、技术术语及复杂场景下的真实能力。Open Telco Leaderboard通过整合多个电信专项任务，提供了统一的量化评估框架，促进了模型性能的可比性与可复现性，为领域适应性研究奠定了数据基础。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，主要集中在电信领域大模型评估方法的深化与扩展。例如，基于TeleQnA、TeleMath等子数据集，研究者开发了针对电信知识的多任务学习框架，或设计了结合领域本体的增强评估指标。这些工作不仅丰富了电信AI评估体系，还促进了如电信日志语义解析、技术标准自动摘要等具体应用的算法创新，形成了从评估到应用的研究闭环。

以上内容由遇见数据集搜集并总结生成