Finch

Hugging Face2025-12-05 更新2025-12-06 收录

下载链接：

https://huggingface.co/datasets/FinWorkBench/Finch

下载链接

链接失效反馈

官方服务：

资源简介：

Finch是一个企业级基准测试数据集，用于评估代理在真实世界金融和会计工作流程中作为熟练专家的能力。数据集聚焦于复合金融和会计工作流程，涵盖数据输入/导入、结构化/格式化、网络搜索、跨表格/文件检索、计算、财务建模、验证、翻译、可视化和报告等任务。工作流程来源于真实企业工作空间（如Enron、世界银行、加拿大政府等），包括多模态的电子表格（文本、表格、公式、图表、透视表、图像等）和相关的PDF及文档。通过三步标注过程（总结工作流程类型、派生具体实例、专家注释）生成172个企业级工作流程，每个工作流程都有精心编写的指令和对齐的输入/参考文件，捕捉了真实世界金融和会计工作的复杂性、混乱性和多模态性。目前发布了72个工作流程的完整注释，其余100个将在后续更新中发布。实验结果显示，即使是前沿代理也只能解决不到30%的工作流程，揭示了真实企业场景中的显著性能差距。数据集以JSONL格式发布，每个示例包含工作流程ID、英文指令、输入文件、参考输出等信息。

创建时间：

2025-11-30

原始信息汇总

Finch数据集概述

数据集基本信息

数据集名称: Finch
发布者: FinWorkBench
许可证: CC BY 3.0
主要任务类别: 文本生成
核心语言: 英语
模态: 文本、电子表格、PDF、图像、代码
标签: 多模态、智能体、工作流、电子表格、PDF、图像、代码、金融、会计

数据集描述

Finch是一个企业级基准测试数据集，用于评估智能体在真实世界工作流中像熟练的金融与会计专家一样行动的能力。它专注于跨越以下操作的复合金融与会计工作流：数据录入/导入、结构化/格式化、网络搜索、跨表格/文件检索、计算、金融建模、验证、翻译、可视化以及报告。

数据来源与构建

工作流来源: 源自真实的企业工作空间（如安然公司以及世界银行、加拿大政府等各种机构/公司）。
包含内容: 包含带有文本、表格、公式、图表、数据透视表、图像等多模态工件的大型且杂乱的电子表格，以及提供额外业务背景的链接PDF和文档。
构建流程:
1. 根据真实的企业协作电子邮件线程总结支持的工作流类型。
2. 使用大语言模型从版本化的电子表格和相关文件中推导出具体的工作流实例。
3. 对指令和参考输出进行细致的专家标注，涉及数百小时的专家工作。

数据集规模与特点

本次发布包含172个企业级工作流，主要为多任务复合型。
每个工作流都包含精心编写的指令和对齐的输入/参考文件。
本次发布提供了前72个工作流的完整标注，其余100个将在后续更新中发布。
数据集旨在捕捉真实世界金融与会计工作的内在复杂性、杂乱性和多模态性。
实验结果表明，即使是前沿的智能体也只能解决不到30%的工作流，揭示了其在真实企业场景中存在显著的性能差距。

数据结构与格式

发布格式: JSONL
配置文件: Finch_Dataset_All
数据文件: finch_workflows_test.jsonl
每条记录结构: 对应一个以工作流为中心的示例，包含以下字段：
- id: 工作流标识符
- instruction_en: 金融与会计工作流的英文任务指令
- source_files: 输入文件名列表
- source_files_urls: 输入文件下载URL列表
- reference_outputs: 参考输出，包含files（参考输出文件名列表）和text（文本参考输出）
- reference_file_urls: 参考输出文件下载URL列表
- task_type: 任务类别（如报告、建模）
- business_type: 业务领域（如预算、交易）

相关资源

项目页面: https://huggingface.co/datasets/FinWorkBench/Finch
代码仓库: https://github.com/FinWorkBench

搜集汇总

数据集介绍

构建方式

在金融与会计领域，数据集的构建需紧密贴合实际业务场景。Finch数据集通过三步标注流程精心构建：首先基于真实企业协作邮件线程归纳工作流类型，随后利用大型语言模型从版本化电子表格及相关文件中提取具体工作流实例，最后经过专家团队数百小时的细致标注，生成包含明确指令与参考输出的高质量样本。这一流程确保了数据集的真实性与复杂性，最终形成了172个企业级工作流，其中72个已完整标注，其余100个将在后续更新中发布。

使用方法

Finch数据集以JSONL格式发布，适用于评估智能体在金融会计工作流中的执行能力。每个样本包含唯一标识符、英文任务指令、输入文件列表及参考输出，用户可通过下载链接获取相关多模态文件。数据集支持对复合任务进行端到端测试，研究者可依据任务类型与业务领域分类，设计实验以衡量智能体在数据检索、计算建模及跨文件协作等方面的性能，从而推动面向企业级应用的智能系统发展。

背景与挑战

背景概述

随着人工智能在金融与会计领域的深入应用，对能够处理复杂、多模态企业工作流的智能代理提出了更高要求。Finch数据集由FinWorkBench团队于近期创建，旨在为评估智能代理在真实企业环境中的财务与会计工作流执行能力提供基准。该数据集聚焦于从现实企业工作空间（如安然公司、世界银行等）衍生的复合工作流，涵盖数据录入、财务建模、可视化报告等多样化任务，其构建过程融合了大规模语言模型辅助与专家精细标注，体现了金融领域任务固有的复杂性与多模态特性。Finch的推出填补了企业级财务工作流评估的空白，为推进领域导向的智能代理研究提供了关键数据支撑。

当前挑战

Finch数据集致力于解决金融与会计领域智能代理处理复合工作流的挑战，这些工作流通常涉及电子表格、PDF、图像等多模态数据的交互与复杂业务逻辑推理。其核心挑战在于如何准确模拟真实企业环境中混乱、异构且动态的工作流程，并评估代理在跨文件检索、公式计算及业务验证等任务上的综合能力。在构建过程中，研究团队面临从海量、非结构化的企业历史数据中提取代表性工作流实例的困难，需通过多阶段标注流程协调自动化提取与专家知识，确保工作流指令的精确性与输出参考的可靠性，同时保持数据集的规模与质量平衡。

常用场景

经典使用场景

在金融与会计领域，企业日常运营涉及大量复杂且多模态的数据处理任务，Finch数据集为此提供了一个高度仿真的评估环境。该数据集最经典的使用场景是作为基准测试平台，用于评估智能代理在真实企业工作流中的表现，特别是模拟熟练的财务与会计专家执行复合型工作流程的能力。这些工作流程涵盖了从数据录入、结构化处理、跨文件检索到财务建模、验证及报告生成的全过程，能够全面检验代理在多任务、多模态环境下的综合处理效能。

解决学术问题

Finch数据集主要解决了智能代理在复杂、真实世界企业场景中能力评估的学术研究问题。传统基准测试往往局限于单一模态或简化任务，难以反映实际金融会计工作的混乱性和复合性。该数据集通过源自真实企业工作空间（如安然公司、世界银行等）的多模态工件，包括电子表格、PDF、图像和代码，构建了172个企业级工作流实例。它弥合了实验室环境与真实业务需求之间的鸿沟，为研究智能体在跨文档检索、财务计算、模型构建及可视化报告等复杂序列任务中的推理与执行能力提供了关键基础设施。

实际应用

在实际应用层面，Finch数据集为金融机构、会计师事务所及企业财务部门的自动化工具开发与评估提供了直接参照。基于该数据集训练的智能代理，能够辅助或自动化处理诸如预算编制、交易分析、财务报告生成以及合规性检查等核心业务流程。它有助于降低人工操作错误，提升处理海量、非结构化财务数据的效率，并推动面向电子表格、文档和图像等多模态企业工件的智能分析系统的落地，从而优化企业资源规划与决策支持系统。

数据集最近研究