Financial Numeric Extreme Labelling (FNXL)

Name: Financial Numeric Extreme Labelling (FNXL)
Creator: 印度理工学院卡拉格普尔分校、高盛数据科学与机器学习
Published: 2023-06-06 22:41:30
License: 暂无描述

arXiv2023-06-06 更新2024-06-21 收录

下载链接：

https://www.sec.gov/

下载链接

链接失效反馈

官方服务：

资源简介：

FNXL数据集由印度理工学院卡拉格普尔分校和高盛数据科学与机器学习团队创建，专注于金融领域的数字极端标注。该数据集包含79,088个句子，总计142,922个数字被标注，使用2,794个标签。数据来源于美国证券交易委员会（SEC）要求的公开年度报告，这些报告使用XBRL进行标注。创建过程中，数据集排除了非美国通用会计准则（US-GAAP）标签，并进行了手动清理以去除噪声数据点。FNXL数据集主要用于自动化财务报告中的数字标注任务，旨在减少手动标注的工作量，并提高对新旧报告的标注效率。

The FNXL dataset was developed by the Indian Institute of Technology Kharagpur and the Data Science and Machine Learning Team at Goldman Sachs, focusing on digital extreme annotation in the financial domain. This dataset contains 79,088 sentences, with a total of 142,922 annotated numerical values, utilizing 2,794 distinct labels. The data is sourced from public annual reports mandated by the U.S. Securities and Exchange Commission (SEC), which are annotated using XBRL. During its development, the dataset excluded non-US Generally Accepted Accounting Principles (US-GAAP) labels, and underwent manual cleaning to remove noisy data points. The FNXL dataset is primarily designed for automated numerical annotation tasks in financial reports, aiming to reduce the workload of manual annotation and enhance annotation efficiency for both new and legacy reports.

提供机构：

印度理工学院卡拉格普尔分校、高盛数据科学与机器学习

创建时间：

2023-06-06

搜集汇总

数据集介绍

构建方式

在金融文本分析领域，自动化标注财务报表中的数字信息是一项关键任务。FNXL数据集的构建基于美国证券交易委员会（SEC）公开的2019年至2021年间的10-K年度报告，涵盖2,339家公司的数据。研究团队从这些报告中提取了包含XBRL标注的文本句子，并进行了精细的数据清洗：过滤掉字符数少于50的句子以及非数字标注数据，同时移除非美国通用会计准则（US-GAAP）的自定义标签。最终，数据集包含79,088个句子，涵盖142,922个标注数字，标签集规模达2,794个。为确保数据无泄漏，数据集按公司划分训练集、验证集和测试集，使得不同集合中的公司互不重叠。

特点

FNXL数据集在金融自然语言处理中展现出独特的特点。其标签集规模庞大，包含2,794个US-GAAP标签，覆盖了长尾分布，其中高频标签（如出现超过200次）占总数据点的58.79%，而低频标签（少于20次）占8.34%，这反映了真实世界金融标注的复杂性。数据集中句子平均长度为37.83个词元，标注密度为每句1.81个数字，且包含零样本标签，验证集和测试集中分别有40和69个未见标签。此外，标签名称的BERT表示余弦相似度较高，平均达71.73%，表明标签间存在语义重叠，增加了分类难度。

使用方法

FNXL数据集主要用于评估极端分类任务中的自动标注性能。使用方法包括两种主流方法：一是将任务视为序列标注问题，采用FiNER模型，利用BERT嵌入和逻辑回归层对句子中的每个子词进行分类；二是构建管道方法，先使用二元分类器提取相关数字，再应用极端分类模型如AttentionXML进行标签分配。在评估中，采用宏平均和微平均的精确率、召回率和F1分数作为指标，特别关注低频标签的表现。数据集还支持零样本场景测试，并提供两种格式：一种以命名实体识别标签形式存储句子和所有数字标注，另一种以极端分类格式存储句子和单个数字标注，便于模型适配和实验复现。

背景与挑战

背景概述

在金融信息标准化领域，美国证券交易委员会（SEC）自2019年起强制要求上市公司采用通用会计准则（GAAP）指标，通过可扩展商业报告语言（XBRL）对财务报告中的数字进行标注，以提升信息处理效率。然而，手动标注过程耗时费力，且标签体系庞大复杂，促使自动化标注技术的需求日益迫切。为此，印度理工学院坎普尔分校与高盛数据科学及机器学习团队于2023年联合发布了金融数字极端标注数据集（FNXL），该数据集基于2019年至2021年间的10-K年度报告，涵盖2,339家公司的79,088个句子，包含142,922个标注数字，标签集规模达2,794个，旨在解决极端多标签分类问题，推动财务文档智能处理技术的发展。

当前挑战

FNXL数据集面临的挑战主要体现在领域问题与构建过程两方面。在领域问题上，该数据集致力于解决财务数字的极端多标签分类任务，其核心难点在于标签数量极大且分布呈现长尾特性，高频标签与低频标签之间的样本数量差异显著，导致模型在平衡全局性能与尾部标签识别精度方面存在困难。构建过程中，挑战包括数据清洗的复杂性，如过滤非GAAP标签、处理公司自定义标注以及排除非数字标注内容；同时，为避免数据泄露，需按公司划分训练集、验证集和测试集，确保模型泛化能力。此外，标签名称的语义相似度高，例如某些GAAP指标名称仅存在细微措辞差异，进一步增加了分类的歧义性。

常用场景

经典使用场景

在金融信息处理领域，自动化标注财务报表中的数值标签是提升数据处理效率的关键环节。FNXL数据集作为专门针对XBRL标注任务构建的资源，其经典使用场景在于支持极端分类模型的训练与评估，特别是在处理大规模标签集（2,794个标签）时，为序列标注和管道式方法提供了基准测试平台。该数据集通过包含大量真实世界中的财务句子和标注数字，使得研究人员能够探索在长尾分布标签下的模型性能，尤其是在低频标签识别方面展现出独特价值。

实际应用

在实际应用中，FNXL数据集直接支持美国证券交易委员会（SEC）要求的财务报告自动化标注流程。通过训练模型自动为财务报表中的数字分配XBRL标签，该技术显著减少了人工标注的时间和成本，提高了财务数据处理的标准化与准确性。例如，在年度10-K报告中，系统可以快速识别并标注关键财务指标，如收入或负债数值，从而加速金融监管合规和信息披露过程，为金融机构和审计公司提供高效的工具。

衍生相关工作

FNXL数据集的发布衍生了一系列经典研究工作，尤其是在极端分类和财务NLP的交叉领域。基于该数据集，研究人员扩展了FiNER模型，将其应用于更大标签集，并引入了AttentionXML等管道方法进行性能优化。这些工作推动了如SEC-BERT预训练模型的发展，以及针对财务文本的掩码策略改进。此外，FNXL激发了零样本标签识别和人类-AI协作标注系统的探索，为后续金融信息提取任务（如关系抽取和事件检测）提供了数据和方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集