FINTAGGING

Name: FINTAGGING
Creator: 哥伦比亚大学美国分校
Published: 2025-05-27 10:55:53
License: 暂无描述

arXiv2025-05-27 更新2025-05-29 收录

下载链接：

https://huggingface.co/collections/TheFinAI/fintagging-68270132372c6608ac069bef

下载链接

链接失效反馈

官方服务：

资源简介：

FINTAGGING数据集是一个LLM-ready基准，旨在评估大型语言模型在XBRL财务报告环境中的结构化信息提取和语义对齐能力。该数据集由哥伦比亚大学美国分校的研究团队创建，包含来自30家上市公司在2024年提交的30份年度10-K报告，总计81325个事实。数据集内容涵盖了财务报告中的非结构化文本和结构化表格，要求模型能够同时提取事实并与US-GAAP分类法对齐。数据集创建过程包括数据收集、数据标注和子任务数据集构建，旨在解决现有LLM在细粒度语义对齐方面的局限性，并为财务披露的自动化提供改进的语义推理和模式感知建模。

The FINTAGGING Dataset is an LLM-ready benchmark designed to evaluate the structured information extraction and semantic alignment capabilities of large language models (LLMs) in the context of XBRL financial reporting. Created by a research team affiliated with Columbia University in the United States, the dataset includes 30 annual 10-K reports filed by 30 publicly traded companies in 2024, totaling 81,325 facts. It covers both unstructured text and structured tables from financial reports, requiring models to simultaneously extract factual information and align it with the US-GAAP taxonomy. The dataset creation process encompasses data collection, data annotation, and subtask dataset construction, aiming to address the limitations of current LLMs in fine-grained semantic alignment and provide enhanced semantic reasoning and pattern-aware modeling for the automation of financial disclosures.

提供机构：

哥伦比亚大学美国分校

创建时间：

2025-05-27

搜集汇总

数据集介绍

构建方式

FINTAGGING数据集的构建基于30份2024年公开上市公司的10-K年度财务报告，采用XBRL标准进行结构化处理。通过BeautifulSoup工具解析报告内容，筛选出包含数值的文本段和表格，并标注了52,740个数值实体及其对应的5种实体类型和2,288个US-GAAP概念。数据集进一步划分为FinNI-eval和FinCL-eval两个子任务评估集，分别用于数值实体识别和概念链接任务。

使用方法

FINTAGGING数据集的使用分为两个主要子任务：FinNI和FinCL。FinNI任务要求模型从文本或表格中识别数值实体并分类其类型，而FinCL任务则要求将识别的实体链接到US-GAAP分类体系中的相应概念。评估时，采用统一的评估框架，分别计算宏平均和微平均的精确率、召回率和F1值。数据集支持零样本评估，适用于测试大型语言模型在金融信息提取和语义对齐方面的能力。

背景与挑战

背景概述

FINTAGGING是由The Fin AI USA等机构的研究团队于2025年提出的首个面向XBRL财务报告的结构化信息提取基准数据集。该数据集创新性地将XBRL标记任务分解为金融实体提取（FinNI）和分类驱动的概念对齐（FinCL）两个子任务，覆盖了完整的10k+ US-GAAP分类标准，并同时处理非结构化文本和结构化表格数据。作为首个支持大语言模型零样本评估的财务标记基准，FINTAGGING突破了传统方法将标记简化为扁平多类分类的局限，为金融信息结构化领域提供了更细粒度的评估框架。

当前挑战

FINTAGGING面临的核心挑战体现在两个方面：在领域问题层面，需解决XBRL标记中细粒度概念对齐的难题，特别是区分17,388个US-GAAP分类中语义相近的条目；在构建过程层面，数据集需要处理财务报告中表格与文本的多模态融合问题，包括表格线性化、数值实体标准化以及跨模态语义对齐。实验表明，即使最先进的大语言模型在FinCL子任务上的准确率仅为17.15%，凸显了金融领域细粒度语义理解的艰巨性。

常用场景

经典使用场景

FINTAGGING数据集在金融信息提取和结构化领域具有广泛的应用场景，特别是在XBRL（可扩展商业报告语言）标记任务中。该数据集通过分解XBRL标记问题为两个子任务——FinNI（金融实体提取）和FinCL（分类驱动的概念对齐），为研究人员提供了一个全面的评估平台。FinNI专注于从非结构化文本和结构化表格中提取金融数值实体，而FinCL则要求模型将这些实体与完整的10,000多个US-GAAP分类标准对齐。这种设计使得FINTAGGING成为评估大型语言模型（LLMs）在金融报告标记任务中性能的理想选择。

解决学术问题

FINTAGGING数据集解决了金融信息提取和结构化中的多个关键学术问题。首先，它突破了以往基准测试的局限性，不再将XBRL标记简化为扁平的多类分类问题，而是通过分解任务，实现了更细粒度的评估。其次，该数据集首次将结构化表格纳入评估范围，弥补了现有基准测试与现实标记需求之间的差距。此外，FINTAGGING覆盖了完整的US-GAAP分类标准，使得研究人员能够全面评估模型在长尾标签和细粒度语义对齐方面的性能。这些创新为金融信息提取和语义对齐领域的研究提供了重要的数据支持和评估框架。

实际应用

FINTAGGING数据集在实际应用中具有广泛的价值。在金融监管领域，该数据集可用于开发自动化工具，帮助监管机构更高效地分析和比对企业的财务报告。在投资分析中，基于FINTAGGING训练的模型可以快速提取和结构化财务数据，为投资者提供更准确的决策支持。此外，该数据集还可用于企业内部财务报告的自动化处理，减少人工错误并提高工作效率。通过支持真实的、细粒度的财务标记任务，FINTAGGING为金融信息处理的自动化提供了可靠的技术基础。

数据集最近研究