HIFI-KPI
收藏arXiv2025-02-24 更新2025-02-25 收录
下载链接:
https://github.com/aaunlp/HiFi-KPI
下载链接
链接失效反馈官方服务:
资源简介:
HIFI-KPI数据集是由奥尔堡大学计算机科学系和ALIPES ApS合作创建的,包含约181万段文本和约500万个实体,每个实体都链接到iXBRL特定的计算和呈现分类法中的标签。该数据集旨在促进从非结构化财务文本中提取数值关键性能指标(KPI)。数据集的创建基于2017年至2024年间发布的所有10-K和10-Q财务报告,通过解析iXBRL文档来提取文本片段和嵌入式XBRL标签。HIFI-KPI数据集支持多种下游任务,如文本分类、序列标注、结构化信息提取等,可应用于金融领域的问题解答和风险评估。
The HIFI-KPI Dataset was co-created by the Department of Computer Science, Aalborg University and ALIPES ApS. It contains approximately 1.81 million text segments and around 5 million entities, with each entity linked to tags in the iXBRL-specific calculation and presentation taxonomies. This dataset aims to facilitate the extraction of numerical Key Performance Indicators (KPIs) from unstructured financial texts. Constructed using all 10-K and 10-Q financial reports released between 2017 and 2024, the dataset extracts text segments and embedded XBRL tags by parsing iXBRL documents. The HIFI-KPI Dataset supports multiple downstream tasks including text classification, sequence labeling, structured information extraction and others, and can be applied to question answering and risk assessment in the financial domain.
提供机构:
奥尔堡大学计算机科学系,ALIPES ApS
创建时间:
2025-02-21
搜集汇总
数据集介绍

构建方式
HIFI-KPI数据集的构建基于美国证券交易委员会(SEC)要求上市公司提交的财务报告,这些报告使用机器可读的iXBRL标准对数字进行标记。为了克服iXBRL定义的复杂且细粒度的分类法对标签迁移的限制,HIFI-KPI数据集通过分类法分组方法组织了一个包含218,126个标签的层次结构,并研究了哪个分类法层提供最有意义结构。数据集包含约180万个段落和500万个实体,每个实体都与iXBRL特定的计算和展示分类法中的标签相关联。
特点
HIFI-KPI数据集的特点在于其层次结构的构建,它允许从非结构化财务文本中提取指定粒度的数值KPI。该数据集通过递归方法将标签从叶节点继承到父节点,从而减少了标签的特异性,提高了表示的通用性。此外,HIFI-KPI Lite子集提供了四个由专家映射的标签,以便于LLM推理和评估。
使用方法
HIFI-KPI数据集可用于多种下游任务,如文本分类、序列标注、结构化信息提取、多标签分类和财务问答。用户可以使用各种编码器方法、结构化提取方法以及大型语言模型(LLMs)在数据集上进行实验。为了简化LLM推理和评估,HIFI-KPI Lite子集可以用于评估方法的泛化能力。所有数据集和工具均已公开释放,用户可以访问并用于研究目的。
背景与挑战
背景概述
在金融领域中,关键会计指标对于准确评估公司财务健康状况至关重要,这直接关系到投资者在短时间内获得丰厚回报。美国证券交易委员会(SEC)要求上市公司使用机器可读的iXBRL标准对财务报告中的数字进行标记。然而,iXBRL定义的高度复杂和高度细粒度的分类法限制了标签在不同领域之间的迁移性。为了解决这个问题,研究人员Rasmus Aavang等人创建了HIFI-KPI数据集,旨在从非结构化财务文本中提取指定粒度的数值关键绩效指标(KPI)。HIFI-KPI数据集包含约180万段文本和约500万个实体,每个实体都与iXBRL特定的计算和展示分类法中的标签相关联。该数据集的创建旨在推动金融文本处理技术的发展,并为财务分析提供更精确的上下文信息。
当前挑战
HIFI-KPI数据集面临的主要挑战包括:1)解决领域问题:尽管已经存在一些针对金融领域的自然语言处理(NLP)数据集,但HIFI-KPI数据集专注于从SEC文件中提取信息丰富的iXBRL,以推动下游任务和应用的发展。2)构建过程中的挑战:iXBRL分类法的复杂性导致标签迁移性差,限制了跨公司的标准化。此外,HIFI-KPI数据集的细粒度标签导致跨公司泛化困难,因为iXBRL的开放性允许公司采用不同的分类法实现。
常用场景
经典使用场景
HIFI-KPI数据集是专为从非结构化的财务文本中提取特定粒度的数值关键绩效指标(KPI)而设计的。其经典使用场景包括对公开公司的财务报告进行自动化分析,以快速准确地评估公司的财务健康状况,从而为投资者提供决策支持。此外,该数据集还可用于开发先进的自然语言处理(NLP)模型,用于从SEC的财务报告中提取结构化信息。
实际应用
HIFI-KPI数据集的实际应用场景包括但不限于财务报告自动化、投资决策支持系统和财务数据分析工具。通过使用该数据集,金融机构和投资者可以更高效地处理和分析财务文本,从而提高决策的准确性和效率。此外,该数据集还可以用于开发智能财务助理,为用户提供个性化的财务建议和服务。
衍生相关工作
HIFI-KPI数据集的发布衍生了多个相关的研究工作,包括对财务NLP数据集的进一步探索,以及基于LLM的财务信息提取模型的发展。此外,该数据集还为财务报告的标准化和自动化分析提供了重要的基础,推动了金融科技领域的研究和发展。
以上内容由遇见数据集搜集并总结生成



