famma-reasoning

Hugging Face2025-04-22 更新2025-04-23 收录

下载链接：

https://huggingface.co/datasets/weaverbirdllm/famma-reasoning

下载链接

链接失效反馈

官方服务：

资源简介：

FAMMA-Reasoning是一个基于FAMMA benchmark构建的金融领域多语言多模态问答数据集，涵盖表格、图表和文本/数学屏幕截图，跨越八个子领域和三个难度级别。每个示例都配有一个问题、自然语言思考轨迹以及使用工具的结构化思考轨迹。

创建时间：

2025-04-21

搜集汇总

数据集介绍

构建方式

FAMMA‑Reasoning数据集基于FAMMA基准构建，专注于金融领域的问答任务。该数据集通过DeepSeek‑R1模型生成自然语言和结构化思维轨迹，为每个问题提供详细的推理步骤和工具使用序列。所有问题均来自官方FAMMA发布版本，并经过模型验证，确保答案和推理过程的高质量。数据集的构建过程注重多语言和多模态内容的整合，将表格、图表等非文本信息转化为纯文本上下文，便于模型处理。

特点

FAMMA‑Reasoning数据集的核心特点在于其丰富的注释信息，包括自然语言思维轨迹和结构化工具使用序列。数据集覆盖金融领域的八个子领域和三个难度级别，提供了多样化的问答场景。每个问题均附带详细的推理步骤，特别适合训练模型在金融领域的复杂推理能力。数据集的纯文本格式设计使其易于处理，同时保留了原始多模态内容的语义信息。

使用方法

使用FAMMA‑Reasoning数据集需通过官方提供的脚本下载。用户需克隆GitHub仓库并安装依赖，随后通过指定参数运行下载脚本。数据集支持按版本下载，用户可选择特定版本或完整数据集。下载完成后，数据以JSON格式保存，便于后续处理和分析。该数据集适用于金融领域问答模型的训练和评估，尤其适合研究复杂推理和工具使用的工作流程。

背景与挑战

背景概述

FAMMA‑Reasoning数据集作为金融领域问答研究的重要资源，由FAMMA基准测试平台衍生而来，由Siqiao Xue等学者于2024年构建。该数据集立足于金融领域的多语言、多模态特性，覆盖表格、图表及文本/数学截图等八个子领域，旨在解决金融问答系统中复杂推理与工具使用的核心问题。通过整合DeepSeek‑R1生成的思维轨迹与结构化工具调用序列，该数据集为金融领域的大模型推理能力评估提供了高质量基准，显著推动了金融自然语言处理领域的研究进展。

当前挑战

FAMMA‑Reasoning数据集面临双重挑战：在领域问题层面，金融数据的专业性与多模态特性要求模型具备跨模态理解与精准计算能力，而现有方法在复杂金融推理任务中的表现仍有提升空间；在构建过程中，如何准确提取图表与表格中的结构化信息，并将其转化为可处理的文本形式，同时保持原始数据的语义完整性，成为数据集构建的主要技术难点。此外，确保思维轨迹标注的准确性与一致性，也需要耗费大量的人工校验成本。

常用场景

经典使用场景

在金融领域的自然语言处理研究中，FAMMA-Reasoning数据集为多语言、多模态的金融问答系统提供了丰富的实验素材。该数据集通过结合自然语言的思维轨迹和结构化的工具使用轨迹，为研究者提供了一个理想的平台，用于探索和验证复杂的推理模型。特别是在处理涉及表格、图表和文本/数学截图的金融问题时，该数据集能够帮助模型学习如何逐步推理并正确回答问题。

衍生相关工作

基于FAMMA-Reasoning数据集，研究者们已经开展了一系列经典工作。例如，DeepSeek-R1模型利用该数据集优化了其在金融问答中的推理能力。此外，该数据集还启发了多模态金融问答系统的开发，如结合OCR技术和自然语言处理的混合模型，进一步推动了金融领域人工智能应用的发展。

数据集最近研究