HiFi-KPI

Hugging Face2025-02-24 更新2025-02-25 收录

下载链接：

https://huggingface.co/datasets/AAU-NLP/HiFi-KPI

下载链接

链接失效反馈

官方服务：

资源简介：

HiFi-KPI是一个大规模的数据集，用于从财务收益报告中提取财务数值关键绩效指标（KPI）。该数据集来源于SEC规定的iXBRL文件，具有分层结构的标签，基于XBRL分类法。它包含了大约180万段文本和500万个实体，适用于金融信息提取、XBRL实体映射和文档理解等场景。

创建时间：

2025-02-19

搜集汇总

数据集介绍

构建方式

HiFi-KPI数据集的构建基于SEC规定的iXBRL财务报告，采用层级化的标签体系，该体系源自XBRL分类法。数据集涵盖约1.8M段文本和约5M个实体，每个实体均与iXBRL计算和展示分类法中的标签相链接。

使用方法

使用HiFi-KPI数据集，研究人员可以通过文本分类和序列标注两种方式训练模型，以提取财务报告中的关键数值指标。数据集分为训练集、验证集和测试集，便于模型的训练和评估。

背景与挑战

背景概述

HiFi-KPI数据集，全称为Hierarchical Financial KPI Extraction，是一个专门为金融领域设计的，从收益报告中提取关键绩效指标（KPI）的大型数据集。该数据集由Aavang等人创建于2025年，主要研究人员来自多个机构和领域，致力于解决金融领域中数值型关键绩效指标的提取问题。HiFi-KPI数据集基于SEC规定的iXBRL文件，采用XBRL分类法构建了层次化的标签结构，包含约180万段文本和500万个实体。该数据集在金融信息提取、XBRL实体映射和文档理解等方面具有重要意义，对金融自然语言处理领域产生了显著影响。

当前挑战

HiFi-KPI数据集在构建和应用过程中面临的挑战主要包括：1）如何准确提取并标记金融报告中的数值型关键绩效指标，这要求数据集在实体识别和序列标注方面具有高度精确性；2）数据集的构建过程中，如何处理XBRL分类法的复杂性，确保标签结构的层次性和准确性；3）在数据集的实际应用中，如何有效地将文本内容映射到结构化的金融标签，以及如何训练模型以理解金融数据，这些都是HiFi-KPI数据集需要解决的问题和挑战。

常用场景

经典使用场景

在金融自然语言处理领域，HiFi-KPI数据集的典型应用场景在于从财务报表中提取关键的绩效指标（KPI）。该数据集以其层次化的标签结构，为自动识别和提取如收入、利润等关键财务数据提供了丰富的标注资源，从而支持了财务自动化报告与分析系统的构建。

解决学术问题

HiFi-KPI数据集解决了金融文本中细粒度实体识别的学术难题，尤其是针对层次化的财务指标提取问题。它为研究者在实体识别、序列标注以及结构化提取等任务上提供了高质量的标注数据，促进了相关算法模型的研发和评估。

实际应用

实际应用中，HiFi-KPI数据集被广泛用于金融信息提取，支持金融机构进行财务报告的自动化解析和关键数据的快速获取，进而辅助决策制定和风险管理。此外，它还促进了XBRL标准在财务报告中的应用，提高了财务数据的透明度和可用性。

数据集最近研究