docmath-eval-failures-200

Hugging Face2026-02-21 更新2026-02-22 收录

下载链接：

https://huggingface.co/datasets/Ayushnangia/docmath-eval-failures-200

下载链接

链接失效反馈

官方服务：

资源简介：

DocMath-Eval Failures 200 是一个精选的基准数据集，包含200个具有挑战性的金融数学问题，这些问题由领先的AI模型未能正确回答。该数据集旨在评估AI代理在金融文档上的数值推理能力。数据集包含多个配置，包括默认配置（包含问题和真实答案）、无答案配置（仅包含问题和上下文，用于公平评估）、失败配置（原始Gemini 2.5 Flash失败数据）、结果配置（所有代理预测和评分）、排行榜配置（每次运行的摘要统计）和分拆配置（每次运行的详细分拆）。数据集适用于问答和文本生成任务，特别适合用于评估AI代理在复杂金融数学问题上的表现。数据集还提供了详细的评估结果和排行榜，展示了不同代理和模型的表现。

创建时间：

2026-02-20

搜集汇总

数据集介绍

构建方式

在金融数学与文档理解领域，评估人工智能模型处理复杂数值推理任务的能力至关重要。DocMath-Eval Failures 200数据集源自DocMath-Eval基准测试，通过筛选其中Gemini 2.5 Flash模型回答错误的200道金融数学问题构建而成。这些问题均涉及财务报表解读、数值提取与多步计算，覆盖了复杂长文本、复杂短文本、简单长文本与简单短文本四种难度类别，确保了数据集的挑战性与代表性。构建过程中保留了原始上下文与精确数值答案，为后续智能体评估提供了可靠基础。

特点

该数据集的核心特征在于其专注于高难度案例，所有问题均经过前沿模型验证为易错题，有效过滤了简单样本，从而构成一个衡量智能体性能提升的严峻测试平台。数据集具备多维度评估框架，不仅包含标准问题与真实答案，还集成了两种智能体框架与两种大语言模型在四组实验中的完整预测结果与评判分数。其结构设计兼顾平衡性与实用性，通过分拆配置支持灵活加载，便于研究者进行公平比较与深入分析。

使用方法

研究者可利用Hugging Face的datasets库便捷加载不同配置，例如加载默认数据集获取问题与真实答案，或选用无答案版本进行公平的智能体评估。数据集中预置的智能体结果、排行榜汇总及分难度统计支持快速性能对比与错误分析。通过调用内置的Pandas转换功能，用户能够轻松计算各智能体在不同难度分拆上的准确率，或深入探究原始失败案例，从而系统评估模型在金融文档数值推理任务上的实际表现。

背景与挑战

背景概述

在金融文档理解与数值推理领域，评估人工智能模型处理复杂财务数据的能力一直是核心研究课题。DocMath-Eval Failures 200数据集于2026年由研究人员Ayush Nangia构建，其根源可追溯至2023年提出的DocMath-Eval基准测试。该数据集专门从DocMath-Eval中筛选出200个Gemini 2.5 Flash模型未能正确回答的金融数学问题，旨在为AI智能体提供一个高难度的测试平台，以精准衡量其在多步骤计算、表格数据提取及复杂推理方面的性能提升。这一精选集合不仅推动了智能体框架在专业领域的评估标准化，也为后续研究设立了更具挑战性的性能标杆。

当前挑战

该数据集致力于解决金融文档数值推理这一特定领域问题，其核心挑战在于要求模型能够准确解析包含复杂表格和数字的财务文档，并执行精确的多步骤数学运算。构建过程中的主要挑战体现为如何从原始基准中有效识别并筛选出最具代表性的失败案例，确保所选问题在难度和类型上达到平衡，涵盖从简单到复杂、上下文长短不一的四种分类。此外，构建过程还需整合多个先进智能体框架和大型语言模型的评估结果，并建立可靠的自动化评分机制，如基于LLM的评判方法，以保障评估的公正性与可复现性。

常用场景

经典使用场景

在金融数学与文档理解领域，DocMath-Eval Failures 200数据集被广泛用作评估智能体在复杂数值推理任务中的性能基准。该数据集精心筛选了200道具有挑战性的金融数学问题，这些问题均源自DocMath-Eval基准测试，且曾被领先的AI模型错误回答。研究者通常利用此数据集，结合多种智能体框架（如TRAE Agent和Vibe CLI）与大型语言模型（如Claude Opus 4.5和GPT-5），系统测试模型在阅读金融表格、提取数值信息及执行多步骤计算方面的能力。通过内置的精确匹配与LLM-as-Judge评分机制，该数据集为衡量智能体在困难场景下的改进提供了标准化、可复现的评估环境。

实际应用

在实际应用中，DocMath-Eval Failures 200数据集为金融机构、科技公司及研究团队提供了测试自动化财务分析工具性能的关键平台。例如，在自动财报解读、投资组合计算、风险指标推导等场景中，智能体需要准确处理表格数据并执行精确数学运算。该数据集通过模拟真实金融文档中的复杂问题，帮助开发者评估和提升智能体在专业环境下的可靠性与准确性。此外，其分难度类别的设计（如复杂长上下文、简单短上下文等）支持针对不同应用需求进行细粒度性能分析，为构建高精度金融AI助手提供了重要的验证数据。

衍生相关工作

围绕该数据集，已衍生出一系列聚焦于智能体评估与金融AI的经典研究工作。例如，基于原始DocMath-Eval基准的扩展研究进一步探索了文档理解与数值推理的融合方法。智能体框架如TRAE Agent和Vibe CLI在该数据集上的对比实验，推动了工具使用策略与模型协作机制的优化。同时，LLM-as-Judge评估范式在此数据集上的应用，促进了自动化评分技术在专业领域的发展。这些相关工作共同深化了对智能体在金融数学任务中性能边界与改进方向的理解，为后续更复杂的多模态金融AI基准构建奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集