NumericBench

github2025-02-20 更新2025-02-19 收录

下载链接：

https://github.com/TreeAI-Lab/NumericBench

下载链接

链接失效反馈

官方服务：

资源简介：

NumericBench是一个用于评估大型语言模型数值推理能力的综合基准，它涵盖了从合成数字列表到现实世界领域（如股票趋势和天气模式）的各种数据集，系统地在结构化和嘈杂的环境中测试LLMs（大型语言模型）。

NumericBench is a comprehensive benchmark for evaluating the numerical reasoning capabilities of large language models (LLMs). It covers a diverse set of datasets ranging from synthetic numerical lists to real-world domains such as stock trends and weather patterns, and systematically tests LLMs in both structured and noisy environments.

创建时间：

2025-02-16

原始信息汇总

Exposing Numeracy Gaps: A Benchmark to Evaluate Fundamental Numerical Abilities in Large Language Models

数据集名称：NumericBench
数据集简介：NumericBench 是一个全面的基准测试，旨在评估大型语言模型（LLM）的数值推理能力，涵盖算术、数字识别、上下文检索、比较、汇总和逻辑推理等任务。
数据集构成：包含从合成数字列表到现实世界领域（如股票趋势和天气模式）的多样化数据集，系统地在结构化和噪声环境中测试 LLMs。
实验模型：在 GPT-4o 和 DeepSeek-V3 等模型上进行实验。
实验结果：展示了模型在数值推理任务上的显著弱点。
论文引用：

@misc{li2025exposingnumeracygapsbenchmark, title={Exposing Numeracy Gaps: A Benchmark to Evaluate Fundamental Numerical Abilities in Large Language Models}, author={Haoyang Li and Xuejia Chen and Zhanchao XU and Darian Li and Nicole Hu and Fei Teng and Yiming Li and Luyu Qiu and Chen Jason Zhang and Qing Li and Lei Chen}, year={2025}, eprint={2502.11075}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2502.11075}, }

搜集汇总

数据集介绍

构建方式

针对大型语言模型在数值推理能力方面的评估需求，NumericBench数据集应运而生。该数据集综合了多样化的数据来源，包括合成数字列表以及股票走势、天气模式等现实世界领域的数据，旨在系统性地对模型在结构化和嘈杂环境下的数值处理能力进行测试。通过设计涵盖算术、数字识别、上下文检索、比较、总结以及逻辑推理等任务，NumericBench为评估模型的数值理解和运算能力提供了全面的基准。

特点

NumericBench数据集的特点在于其广泛性和挑战性。它不仅包含了结构化良好的数据，还涵盖了现实世界中的复杂和噪声数据，这使得该数据集能够全面地反映大型语言模型在数值处理方面的真实表现。此外，该数据集的评估结果揭示了当前模型在数值推理上的显著不足，为未来的模型改进指明了方向。

使用方法

使用NumericBench数据集进行模型评估时，用户可以从Hugging Face平台获取数据集，并根据数据集提供的任务和评估标准进行模型的训练和测试。实验结果表明，即使是GPT-4o和DeepSeek-V3这样的大型语言模型，在面对数值推理任务时也存在明显的弱点，这提示了研究者在模型训练中应更加注重数值意识的融入。

背景与挑战

背景概述

NumericBench数据集是一项旨在揭示大型语言模型在数值推理能力方面的局限性的全面基准测试。该数据集由Haoyang Li、Xuejia Chen等研究人员于2025年创建，主要依托于对大型语言模型如GPT-4o和DeepSeek-V3在算术、数字识别、情境检索、比较、汇总以及逻辑推理等任务中的表现进行评估。NumericBench汇集了从合成数字列表到股票走势和天气模式等现实世界领域的多样化数据集，系统性地测试了大型语言模型在结构化和嘈杂环境下的性能，对提升LLM实际应用能力具有显著的研究价值。

当前挑战

该数据集面临的挑战主要体现在两个方面：一是大型语言模型在数值推理任务中的固有缺陷，如对于复杂数值关系的理解不足，这在NumericBench的实验结果中得以暴露；二是构建此类数据集时，如何有效地涵盖广泛的数值推理场景，同时保持数据的一致性和准确性，这对于促进模型在实际世界中的应用至关重要。

常用场景

经典使用场景

在深度学习领域，尤其是大型语言模型的研究与开发中，NumericBench数据集的诞生，旨在成为评价模型数值推理能力的重要基准。该数据集通过设计涵盖算术运算、数字识别、上下文信息检索、比较、总结和逻辑推理等任务，为研究者提供了一个全面且系统的研究场景，使其能够深入理解模型在数值处理方面的性能边界。

衍生相关工作

基于NumericBench数据集，学术界已衍生出一系列相关研究工作，包括对现有模型的改进、新型数值推理模型的开发，以及针对特定领域数值任务的模型优化。这些工作不仅丰富了数值能力评估的维度，也推动了模型在实际应用中的性能提升。

数据集最近研究