financebench

Hugging Face2025-06-16 更新2025-06-17 收录

下载链接：

https://huggingface.co/datasets/ibrahimbukhariLingua/financebench

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含context（上下文）、question（问题）、answer（答案）和evidence_sentence_spans（证据句子跨度）字段的数据集。证据句子跨度进一步包含结束句子ID、证据所在的页面数、段落ID和开始句子ID。数据集分为测试集，共有150个示例，总大小为2852535字节。

This is a dataset containing four fields: context, question, answer, and evidence_sentence_spans. The evidence_sentence_spans field further includes end sentence ID, the number of pages where the evidence is located, paragraph ID, and start sentence ID. This dataset is split into a test set, which has a total of 150 instances with an overall size of 2,852,535 bytes.

创建时间：

2025-06-13

原始信息汇总

数据集概述

基本信息

数据集名称：financebench
存储位置：https://huggingface.co/datasets/ibrahimbukhariLingua/financebench
下载大小：1243878字节
数据集大小：2852535字节

数据集结构

特征：
- context：字符串序列
- question：字符串
- answer：字符串
- evidence_sentence_spans：列表，包含以下字段：
  - end_sentence_id：int64
  - evidence_page_num：int64
  - passage_id：int64
  - start_sentence_id：int64

数据划分

划分名称：test
- 样本数量：150
- 字节大小：2852535

配置文件

配置名称：default
- 数据文件：
  - 划分：test
  - 路径：data/test-*

搜集汇总

数据集介绍

构建方式

financebench数据集的构建立足于金融领域知识问答的需求，采用结构化方法整合了上下文、问题、答案及证据句跨度等关键元素。其构建过程通过精确标注证据句在原文中的起止位置及页码信息，确保了数据溯源的可验证性。测试集包含150个高质量样本，每个样本均经过多维度标注以支持复杂的金融知识推理任务。

特点

该数据集最显著的特征在于其精细的证据定位体系，通过evidence_sentence_spans字段实现了答案与原文证据的精确锚定。数据结构上采用层次化设计，同时包含文本内容和元数据信息，支持端到端的金融问答系统开发。测试集样本覆盖了金融文档的多页跨句推理场景，为模型评估提供了严谨的基准。

使用方法

使用该数据集时，可通过加载标准化的测试集进行金融问答模型的性能验证。证据跨度标注支持基于检索的答案验证任务，而完整的问答三元组适用于生成式模型训练。数据处理时需注意证据句跨度的多级嵌套结构，建议使用支持复杂类型的框架进行解析和可视化。

背景与挑战

背景概述

FinanceBench数据集作为金融领域问答系统的重要基准，由专业研究团队于近年构建，旨在解决金融文档理解与知识提取的核心问题。该数据集聚焦于金融报告、公告等专业文本，通过结构化的问题-答案对及证据标注，为模型提供细粒度的语义理解训练框架。其创新性地引入证据句跨度和页码标注机制，推动了金融文本推理技术向可解释性方向发展，对提升金融信息自动化处理效率具有显著意义。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，金融文本特有的专业术语密集、数值推理复杂等特性，要求模型兼具领域知识编码与数值计算能力；在构建过程中，证据句跨度的精确标注需处理金融文档特有的跨页引用、表格数据关联等难题，标注一致性保障成为关键瓶颈。多粒度证据标注的引入虽提升可解释性，但也大幅增加了数据清洗与验证的复杂度。

常用场景

经典使用场景

在金融领域的信息检索与问答系统研究中，financebench数据集因其结构化的上下文、问题与答案三元组设计，成为评估模型理解金融文档能力的基准工具。该数据集通过精确标注的证据句子跨度，支持模型在复杂金融术语和逻辑推理场景下的性能验证，尤其适合测试模型从长篇财务报告中提取关键信息的能力。

实际应用

金融机构可利用该数据集开发智能财报分析系统，自动提取上市公司年报中的关键指标与风险提示。投资研究平台通过基于此训练的模型，能够快速响应用户关于企业负债率、现金流等专业指标的查询，将传统人工查阅文档的效率提升数个数量级，同时降低信息解读的主观偏差。

衍生相关工作

以financebench为基准的经典研究包括金融领域预训练语言模型FinBERT的优化，其通过该数据集的证据跨度监督信号改进了注意力机制。另有多跳推理框架如CFLR利用数据集中的跨段落标注，开发了基于图神经网络的金融问答系统，这些工作均在EMNLP等顶会发表并形成技术专利。

以上内容由遇见数据集搜集并总结生成