KPI-EDGAR

Name: KPI-EDGAR
Creator: 波恩大学, 德国波恩 † 弗劳恩霍夫IAIS, 圣奥古斯丁, 德国 ‡ 波恩-莱茵-锡格应用技术大学, 圣奥古斯丁, 德国
Published: 2022-10-17 23:06:20
License: 暂无描述

arXiv2022-10-17 更新2024-07-24 收录

下载链接：

https://github.com/tobideusser/kpi-edgar

下载链接

链接失效反馈

官方服务：

资源简介：

KPI-EDGAR是一个新颖的数据集，由德国波恩大学和弗劳恩霍夫IAIS的研究团队创建，专注于从财务文档中提取关键性能指标（KPIs）及其数值和其他属性。该数据集包含81份手动标注的10-K报告，总计1355个句子，涉及4522个实体和3841个关系。数据来源于美国证券交易委员会维护的EDGAR数据库，主要用于解决自动从财务报告中提取信息的问题，以节省分析师的时间并提供竞争优势。数据集的创建过程包括从EDGAR数据库中抓取报告，进行句子级和词级分词，以及通过规则基础的字符串匹配识别货币值和单位。KPI-EDGAR的应用领域主要集中在财务文本的自动化信息提取，特别是在关键性能指标的识别和链接上。

KPI-EDGAR is a novel dataset created by a research team from the University of Bonn in Germany and Fraunhofer IAIS, focusing on extracting key performance indicators (KPIs), their corresponding numerical values and other attributes from financial documents. This dataset contains 81 manually annotated 10-K reports, totaling 1,355 sentences, involving 4,522 entities and 3,841 relationships. The data is sourced from the EDGAR database maintained by the U.S. Securities and Exchange Commission (SEC), and is primarily developed to address the challenge of automatically extracting information from financial reports, thus saving analysts' time and providing a competitive edge. The dataset creation process includes scraping reports from the EDGAR database, conducting tokenization at both sentence and word levels, and identifying monetary values and units via rule-based string matching. The application fields of KPI-EDGAR mainly center on automated information extraction from financial texts, especially the identification and linking of key performance indicators.

提供机构：

波恩大学, 德国波恩 † 弗劳恩霍夫IAIS, 圣奥古斯丁, 德国 ‡ 波恩-莱茵-锡格应用技术大学, 圣奥古斯丁, 德国

创建时间：

2022-10-17

原始信息汇总

KPI-EDGAR 数据集

数据集概述

KPI-EDGAR 数据集是一个用于从财务文档中提取关系的新型数据集，包含在 IEEE International Conference on Machine Learning and Applications 2022 发表的论文 "KPI-EDGAR: A Novel Dataset and Accompanying Metric for Relation Extraction from Financial Documents" 中。

数据格式

Excel 文件: /data/kpi_edgar.xlsx 是最新的数据集文件。
JSON 文件: /data/kpi_edgar.json 是一个预解析的 JSON 文件，包含 IOBES 标签，可能更易于使用。

测试集性能

数据集维护了一个包含测试集结果的表格，列出了不同模型的关系 F1 分数和调整后的关系 F1 分数。

模型	关系 F1 分数 (%)	调整后的关系 F1 分数 (%)
KPI-BERT	22.68	43.76
SpERT	20.95	40.04
EDGAR–W2V	6.13	19.71
GloVe	5.11	17.18

引用

如果使用 KPI-EDGAR 数据集进行学术工作，请直接引用：

@inproceedings{deusser2022kpiedgar, author={Deu{ss}er, Tobias and Ali, Syed Musharraf and Hillebrand, Lars and Nurchalifah, Desiana and Jacob, Basil and Bauckhage, Christian and Sifa, Rafet}, booktitle={Proc. ICMLA}, title={{KPI-EDGAR}: A Novel Dataset and Accompanying Metric for Relation Extraction from Financial Documents}, year={2022}, pages={1654-1659}, doi={10.1109/ICMLA55696.2022.00254} }

搜集汇总

数据集介绍

构建方式

在金融文本信息抽取领域，构建高质量标注数据集是推动算法发展的基石。KPI-EDGAR数据集的构建始于从美国证券交易委员会（SEC）的EDGAR公开数据库中系统性地爬取上市公司的年度10-K财务报告。研究团队首先对报告进行句子级和词级的精细化分词处理，并运用基于规则的字符串匹配启发式方法识别出包含货币数值及其量级、单位的句子，以此作为后续标注的候选集。在资深审计专家的指导下，四位标注员依据预先定义的实体类型与关系矩阵，对这些句子进行了词级别的实体与关系手工标注。为确保标注质量，专家对部分文档进行了重新标注，最终在文档级别随机划分出训练集、验证集和测试集，形成了一个包含81份报告、1355个句子、4522个实体和3841个关系的结构化数据集。

使用方法

该数据集主要服务于联合命名实体识别与关系抽取任务的模型训练与评估。研究人员可利用其提供的训练集，开发或微调能够识别财务文本中关键绩效指标、数值、属性等实体并厘清其间关联的机器学习模型。在评估阶段，建议同时采用常规F1分数与论文提出的加权F1分数，后者能更公允地反映模型在应对实体边界模糊问题时的实际性能。数据集附带的四个基线模型（如KPI-BERT、SpERT等）为后续研究提供了可比的性能基准。通过在该数据集上进行实验，能够有效推动面向金融文档的自动化信息抽取技术的进步。

背景与挑战

背景概述

在金融文本挖掘领域，自动提取关键绩效指标及其关联数值对于提升财务分析与审计效率具有重要价值。KPI-EDGAR数据集由德国波恩大学与弗劳恩霍夫IAIS研究所等机构于2022年联合创建，旨在解决从公开财务报告中联合进行命名实体识别与关系抽取的核心研究问题。该数据集基于美国证券交易委员会EDGAR系统中的10-K年报，通过人工标注构建，包含81份文档、4522个实体与3841组关系，为金融自然语言处理研究提供了高质量、可复现的基准资源，显著推动了财务信息自动化抽取技术的发展。

当前挑战

KPI-EDGAR数据集面临的挑战主要体现在两方面：其一，在领域问题层面，财务文档中关键绩效指标的实体边界常具有模糊性，例如“净收入”与“总净收入”的界定可能因语境而异，导致关系抽取模型难以精确匹配；其二，在构建过程中，标注一致性成为主要难点，不同审计专家对非数值实体（如KPI描述词）的边界判断存在差异，这反映在实体类型kpi的科恩卡帕系数仅为0.0822，需通过加权评估指标来缓解边界模糊带来的评估偏差。

常用场景

经典使用场景

在金融文本信息抽取领域，KPI-EDGAR数据集为联合命名实体识别与关系抽取任务提供了标准化的评估基准。该数据集基于美国证券交易委员会EDGAR系统中公开的10-K年度财务报告构建，其核心应用场景是自动化提取关键绩效指标，并将其与对应的数值、年份及属性信息进行精准关联。研究者利用该数据集训练和验证模型，旨在从复杂的财务文档中结构化地抽取出如收入、利润等核心财务实体及其关系，为金融文本的深度解析奠定数据基础。

解决学术问题

KPI-EDGAR数据集主要致力于解决金融自然语言处理中两个关键学术问题：一是财务文档中实体边界模糊导致的抽取困难，二是传统评估指标无法有效衡量部分正确预测的性能。该数据集通过提供人工标注的实体与关系，为研究模糊实体边界下的联合抽取模型提供了真实场景。同时，其配套提出的加权F1度量创新性地引入了词级权重方案，允许关系被部分正确识别，从而更准确地反映模型在实体边界不明确情况下的实际效能，推动了关系抽取评估方法的演进。

实际应用

该数据集的实际应用价值主要体现在金融审计与智能分析领域。自动化KPI抽取系统能够辅助审计师快速核查财务报告的一致性，提升审计效率与覆盖面。对于投资分析师而言，此类工具可以高效地从海量年报中提取标准化财务指标，进行跨公司、跨年度的趋势分析与比较，支撑投资决策。此外，该系统还可用于构建财务知识图谱，为风险预警、公司估值等下游任务提供结构化数据输入，具有显著的行业应用潜力。

数据集最近研究