five

TeleMath

收藏
arXiv2025-06-12 更新2025-06-14 收录
下载链接:
https://huggingface.co/datasets/netop/TeleMath
下载链接
链接失效反馈
官方服务:
资源简介:
TeleMath是一个专门为评估大型语言模型(LLMs)在解决电信领域数学问题方面的能力而设计的基准数据集。由500个问答对组成,TeleMath涵盖了电信领域的广泛主题。该数据集由电信领域的专家精心设计的问题集生成,并经过框架扩展,生成大量的合成问答对。数据集采用问答格式,答案为严格的数值量,旨在反映工程师日常进行的实际计算,并确保模型生成实用、可操作的结果。TeleMath旨在解决电信领域中LLMs的数学推理能力评估问题,并已公开发布,以支持未来的研究。

TeleMath is a benchmark dataset specifically designed to evaluate the mathematical problem-solving capabilities of large language models (LLMs) in the telecommunications domain. Consisting of 500 question-answer pairs, TeleMath covers a wide range of topics within the telecommunications field. The dataset is generated from a carefully crafted set of questions developed by telecommunications domain experts, and expanded via framework-assisted synthesis to generate a large number of synthetic question-answer pairs. Adopting a question-answer format, all answers in TeleMath are strictly numerical quantities, which aims to reflect the actual daily calculations conducted by engineers and ensure that models produce practical and actionable results. TeleMath is intended to address the challenge of evaluating the mathematical reasoning abilities of LLMs in the telecommunications domain, and has been publicly released to support future research.
提供机构:
巴黎研究与创新中心,华为技术有限公司,法国;卡西诺和南拉齐奥梅里奥纳尔大学,意大利;哈利法科技大学,阿联酋
创建时间:
2025-06-12
搜集汇总
数据集介绍
main_image_url
构建方式
在电信领域数学问题求解的背景下,TeleMath数据集的构建采用了专家知识与自动化生成相结合的创新方法。研究团队首先由10位领域专家精心设计了50个涵盖电信各分支的种子问题,包含详细的分步解答。随后通过两阶段生成框架实现数据扩展:利用Qwen2.5系列大模型将复杂问题解构为可复用的子问题模板,继而通过代码驱动(Python可执行代码)和符号数学驱动(SymPy解析)两种蓝图生成机制,配合参数化生成技术批量产出新问题。为确保数据质量,采用三级后处理流程进行物理合理性验证、语义一致性检查和元数据标注,最终形成500个标准化问答对。
使用方法
该数据集为标准化的评估基准,使用流程包含三个关键环节。研究者需通过HuggingFace平台获取JSON格式数据,每个条目包含问题陈述、标准答案、学科分类等结构化字段。评估时建议采用pass@1(单次生成准确率)和cons@16(16次生成的共识准确率)双指标体系,推荐设置0.6的温度参数和0.9的top-p值。对于模型训练应用,可利用分类标签实现课程学习策略,先攻克电气工程(72.92%最佳准确率)等优势领域,再挑战电信工程(62.25%最佳准确率)等难点。数据集特别适合验证模型符号数学转换、工程数值计算等细分能力,其参数化生成特性也支持衍生新问题的快速构建。
背景与挑战
背景概述
TeleMath数据集由华为技术巴黎研究中心联合意大利卡西诺大学和阿联酋哈利法科学技术大学的研究团队于2025年推出,旨在填补大型语言模型在电信领域数学问题解决能力评估方面的空白。随着5G/6G网络的发展,人工智能在信号处理、网络优化等专业场景中的数学推理需求日益凸显。该数据集包含500个专家精心设计的问答对,覆盖电信工程、信息论等八大核心领域,采用创新的蓝图生成框架将专家问题扩展为可量化评估的标准化测试集,为评估模型在专业领域的数值计算能力建立了首个基准体系。
当前挑战
该数据集面临双重挑战:领域问题方面,电信数学问题需同时满足数值精度与专业知识融合的要求,现有通用数学评估集如MATH难以捕捉频段计算、信噪比分析等场景特异性;构建过程方面,专家种子问题仅50个需通过LLM驱动的蓝图生成框架扩展,需确保生成的500个问题保持物理量纲一致性、参数合理性及语义等价性,采用SymPy符号计算验证与三级过滤机制(参数过滤、问题重构、语义验证)来保障数据质量。
常用场景
经典使用场景
在电信领域,数学问题的解决能力对于网络优化、信号处理和性能分析等任务至关重要。TeleMath数据集作为首个专注于电信领域数学问题解决的基准数据集,广泛应用于评估大型语言模型(LLMs)在解决具有数值解的电信数学问题中的表现。其经典使用场景包括模型在信号处理中的路径损耗计算、网络优化中的信道容量分析以及性能评估中的概率统计问题求解。通过涵盖电信工程、信息论和操作研究等多个子领域,TeleMath为研究者提供了一个全面且具有挑战性的评估平台。
解决学术问题
TeleMath数据集填补了现有评估基准在电信领域数学问题解决能力上的空白。传统数学数据集如MATH和GSM8K虽然广泛用于评估模型的通用数学推理能力,但缺乏对电信领域特定问题的覆盖。TeleMath通过500个精心设计的问题-答案对,解决了模型在电信数学问题中的数值精度和领域知识结合的挑战。其意义在于为研究者提供了一个标准化工具,以量化模型在复杂电信数学任务中的表现,从而推动针对性的模型优化和算法改进。
实际应用
TeleMath数据集的实际应用场景直接映射到电信工程中的核心问题。例如,在5G网络部署中,模型可利用该数据集训练以快速计算天线布局的最优信号覆盖;在网络协议配置中,通过解决带宽分配和干扰管理的数学问题,实现自动化决策支持。此外,数据集对数值答案的聚焦(如信噪比、信道容量等)确保了模型输出可直接用于工程实践,例如基站功率调整或频谱资源分配,从而提升网络运维的效率和智能化水平。
数据集最近研究
最新研究方向
随着人工智能在电信领域的深入应用,TeleMath数据集为评估大语言模型在电信数学问题解决能力方面提供了重要基准。该数据集聚焦于信号处理、网络优化等专业领域,填补了现有数学推理评估工具在行业特定场景下的空白。前沿研究主要围绕三个方向展开:首先,探索专用推理模型架构设计,如Qwen系列在电信数学任务中展现的显著优势;其次,研究合成数据生成技术,通过问题分解和蓝图生成方法实现专家知识的规模化扩展;最后,针对6G网络智能化需求,开发融合领域知识的数学推理框架。这些研究不仅推动了电信领域AI解决方案的精准度提升,也为能源、金融等数学密集型行业提供了可借鉴的评估范式。
相关研究论文
  • 1
    TeleMath: A Benchmark for Large Language Models in Telecom Mathematical Problem Solving巴黎研究与创新中心,华为技术有限公司,法国;卡西诺和南拉齐奥梅里奥纳尔大学,意大利;哈利法科技大学,阿联酋 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作