NumericBench
收藏arXiv2025-02-16 更新2025-02-19 收录
下载链接:
https://github.com/TreeAI-Lab/NumericBench
下载链接
链接失效反馈官方服务:
资源简介:
NumericBench是一个全面评估大型语言模型数值推理能力的基准,由香港理工大学、香港科技大学和香港中文大学的研究人员提出。该数据集涵盖了从合成数字列表到爬取的实时世界数据,旨在评估LLM在处理长期上下文、噪声和多步骤推理方面的挑战。它综合了六个数据集,包括算术数字、混合数字字符串、数字列表、股票、天气和数值序列模式,以评估LLM在数值识别、算术运算、上下文检索、比较、汇总和逻辑推理六个基本的数值推理能力。
NumericBench is a benchmark designed for comprehensive evaluation of the numerical reasoning capabilities of large language models (LLMs), proposed by researchers from The Hong Kong Polytechnic University, The Hong Kong University of Science and Technology, and The Chinese University of Hong Kong. This dataset covers content ranging from synthetic numerical lists to crawled real-time real-world data, aiming to evaluate the challenges that LLMs face when processing long contexts, noisy data, and multi-step reasoning tasks. It integrates six constituent datasets, including arithmetic numerals, mixed numerical strings, numerical lists, stock data, weather data, and numerical sequence patterns, to assess six core numerical reasoning abilities of LLMs: numerical recognition, arithmetic operations, contextual retrieval, comparison, summarization, and logical reasoning.
提供机构:
香港理工大学, 香港科技大学, 香港中文大学
创建时间:
2025-02-16
原始信息汇总
数据集概述
数据集名称
NumericBench
数据集简介
NumericBench是一个全面性的基准测试,旨在评估大型语言模型(LLM)的数值推理能力。该数据集涵盖了从算术运算到数字识别、上下文检索、比较、总结和逻辑推理等任务,以解决LLM在数值处理方面的局限性。数据集包含了从合成数字列表到股票趋势、天气模式等现实世界领域的多样化数据集,系统地在结构化和嘈杂的环境中对LLM进行测试。
数据集构成
- 包含多样化数据集,涵盖合成数字列表和现实世界领域数据。
- 用于评估LLM在数值推理方面的性能。
实验结果
- 实验结果显示,如GPT-4o和DeepSeek-V3等模型在数值推理方面存在显著弱点。
引用信息
@misc{li2025exposingnumeracygapsbenchmark, title={Exposing Numeracy Gaps: A Benchmark to Evaluate Fundamental Numerical Abilities in Large Language Models}, author={Haoyang Li and Xuejia Chen and Zhanchao XU and Darian Li and Nicole Hu and Fei Teng and Yiming Li and Luyu Qiu and Chen Jason Zhang and Qing Li and Lei Chen}, year={2025}, eprint={2502.11075}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2502.11075}, }
搜集汇总
数据集介绍

构建方式
NumericBench数据集旨在评估大型语言模型(LLMs)在数值推理任务上的能力。该数据集由六个子数据集组成,包括算术数字、混合数字字符串、数字列表、股票、天气和具有模式的数字序列。每个子数据集都包含针对特定数值推理能力设计的任务和问题。例如,数字列表数据集评估LLMs从密集字符串中识别数字的能力,而股票数据集则评估从给定上下文中检索特定数值的能力。此外,该数据集还包含真实世界数据,如股票和天气数据,以反映现实世界中的数值推理挑战。
特点
NumericBench数据集的主要特点是它的多样性和综合性。该数据集包含各种类型的数值数据,从合成数字列表到爬取的真实世界数据,以评估LLMs在不同场景下的数值推理能力。此外,该数据集还系统地评估了LLMs的六个基本数值能力:数字识别、算术运算、上下文检索、比较、摘要和逻辑推理。这使得NumericBench成为评估LLMs数值推理能力的全面工具。
使用方法
使用NumericBench数据集的方法包括准备评估LLMs数值推理能力的实验设置,选择适当的评估指标(如准确率),以及执行实验并分析结果。实验可以针对LLMs的不同能力和数据集进行设计,以全面评估LLMs在数值推理任务上的表现。此外,该数据集还提供了针对不同数据集和能力的详细任务和问题格式,以帮助研究人员更好地理解和使用该数据集。
背景与挑战
背景概述
随着大型语言模型(LLMs)在自然语言处理任务中展现出令人印象深刻的性能,如文本生成和语义理解,其在数值推理任务上的表现却相对较差。这一差距源于LLMs对表面层统计模式的依赖,而非将数字视为连续的量级来理解。现有的基准测试主要关注语言能力或结构化数学问题解决,而忽略了现实场景中所需的根本数值推理。为了弥合这一差距,我们提出了NumericBench,这是一个全面的基准测试,用于评估六个基本的数值能力:数字识别、算术运算、上下文检索、比较、摘要和逻辑推理。NumericBench包括从合成数字列表到抓取的现实世界数据的各种数据集,解决了长上下文、噪声和多步推理等挑战。在包括GPT-4和DeepSeek在内的最先进的LLMs上进行的大量实验揭示了数值推理中的持续弱点,突出了改进数值感知语言模型建模的迫切需要。
当前挑战
NumericBench的挑战主要来自LLMs在处理数值推理任务时的弱点。这些挑战包括:1) LLMs在基本算术、数值检索和多步推理等简单数值任务上的表现不佳;2) 构建过程中遇到的挑战,如LLMs处理数字作为连续量级的理解不足,以及在训练过程中缺乏对结构化数值数据集的充分暴露。此外,现有的基准测试主要关注语言能力或结构化数学问题解决,而忽略了现实场景中所需的根本数值推理。因此,NumericBench旨在通过评估LLMs在数值识别、算术运算、上下文检索、比较、摘要和逻辑推理方面的基本能力,来解决这些挑战。
常用场景
经典使用场景
NumericBench数据集被设计用于评估大型语言模型在六个基本的数值能力方面的表现,包括数字识别、算术运算、上下文检索、比较、总结和逻辑推理。它包含从合成数字列表到爬取的真实世界数据的各种数据集,涵盖了长上下文、噪声和多步推理等挑战。该数据集被广泛用于测试和改进LLMs的数值推理能力,特别是在处理现实世界场景中的数值任务时。
实际应用
NumericBench数据集在实际应用中具有广泛的应用前景,特别是在需要数值推理能力的领域,如金融分析、天气预报和库存管理。例如,在金融领域,该数据集可以用于评估LLMs在分析股票价格走势、比较不同股票的表现以及总结财务数据方面的能力。在天气预报中,它可以帮助LLMs更好地理解温度、降水和湿度等气象数据的趋势和模式。此外,在库存管理中,NumericBench可以用于评估LLMs在处理订单、比较库存水平和预测需求方面的能力。
衍生相关工作
NumericBench数据集的提出引发了对LLMs数值推理能力的广泛关注,并促进了相关研究的进展。一些研究者开始探索如何开发数值感知的tokenizers,使LLMs能够更好地理解数值概念。此外,还出现了一些针对数值推理的预训练目标,旨在提高LLMs解决数值问题的能力。另外,一些研究开始探索如何将结构化的数值数据集纳入LLMs的训练过程中,以提高模型的实际应用能力。最后,一些研究开始探索适合数值数据的positional embeddings和混合符号-数值模型架构,以改善LLMs的数值能力。这些衍生的工作对于推动LLMs数值推理能力的发展具有重要意义。
以上内容由遇见数据集搜集并总结生成



