HiFi-KPI
收藏Hugging Face2025-02-24 更新2025-02-25 收录
下载链接:
https://huggingface.co/datasets/AAU-NLP/HiFi-KPI
下载链接
链接失效反馈官方服务:
资源简介:
HiFi-KPI是一个大规模的数据集,用于从财务收益报告中提取财务数值关键绩效指标(KPI)。该数据集来源于SEC规定的iXBRL文件,具有分层结构的标签,基于XBRL分类法。它包含了大约180万段文本和500万个实体,适用于金融信息提取、XBRL实体映射和文档理解等场景。
创建时间:
2025-02-19
搜集汇总
数据集介绍

构建方式
HiFi-KPI数据集的构建基于SEC规定的iXBRL财务报告,采用层级化的标签体系,该体系源自XBRL分类法。数据集涵盖约1.8M段文本和约5M个实体,每个实体均与iXBRL计算和展示分类法中的标签相链接。
使用方法
使用HiFi-KPI数据集,研究人员可以通过文本分类和序列标注两种方式训练模型,以提取财务报告中的关键数值指标。数据集分为训练集、验证集和测试集,便于模型的训练和评估。
背景与挑战
背景概述
HiFi-KPI数据集,全称为Hierarchical Financial KPI Extraction,是一个专门为金融领域设计的,从收益报告中提取关键绩效指标(KPI)的大型数据集。该数据集由Aavang等人创建于2025年,主要研究人员来自多个机构和领域,致力于解决金融领域中数值型关键绩效指标的提取问题。HiFi-KPI数据集基于SEC规定的iXBRL文件,采用XBRL分类法构建了层次化的标签结构,包含约180万段文本和500万个实体。该数据集在金融信息提取、XBRL实体映射和文档理解等方面具有重要意义,对金融自然语言处理领域产生了显著影响。
当前挑战
HiFi-KPI数据集在构建和应用过程中面临的挑战主要包括:1)如何准确提取并标记金融报告中的数值型关键绩效指标,这要求数据集在实体识别和序列标注方面具有高度精确性;2)数据集的构建过程中,如何处理XBRL分类法的复杂性,确保标签结构的层次性和准确性;3)在数据集的实际应用中,如何有效地将文本内容映射到结构化的金融标签,以及如何训练模型以理解金融数据,这些都是HiFi-KPI数据集需要解决的问题和挑战。
常用场景
经典使用场景
在金融自然语言处理领域,HiFi-KPI数据集的典型应用场景在于从财务报表中提取关键的绩效指标(KPI)。该数据集以其层次化的标签结构,为自动识别和提取如收入、利润等关键财务数据提供了丰富的标注资源,从而支持了财务自动化报告与分析系统的构建。
解决学术问题
HiFi-KPI数据集解决了金融文本中细粒度实体识别的学术难题,尤其是针对层次化的财务指标提取问题。它为研究者在实体识别、序列标注以及结构化提取等任务上提供了高质量的标注数据,促进了相关算法模型的研发和评估。
实际应用
实际应用中,HiFi-KPI数据集被广泛用于金融信息提取,支持金融机构进行财务报告的自动化解析和关键数据的快速获取,进而辅助决策制定和风险管理。此外,它还促进了XBRL标准在财务报告中的应用,提高了财务数据的透明度和可用性。
数据集最近研究
最新研究方向
HiFi-KPI数据集作为金融领域自然语言处理的重要资源,近期研究集中于从财务报告中提取层次化的关键绩效指标(KPI)。该数据集的独到之处在于其基于XBRL分类法的层级标签结构,为金融数值KPI的提取提供了精确的标注框架。研究前沿主要聚焦于运用深度学习技术,如文本分类和序列标注,以提高对复杂财务实体识别的准确性和效率。此外,HiFi-KPI在金融信息提取、XBRL实体映射以及文档理解等应用领域的表现亦受到关注,其研究成果对于推动金融自动化处理和智能分析具有重要的实际意义和学术价值。
以上内容由遇见数据集搜集并总结生成



