five

hifi-kpi-lite

收藏
Hugging Face2025-02-24 更新2025-02-25 收录
下载链接:
https://huggingface.co/datasets/AAU-NLP/hifi-kpi-lite
下载链接
链接失效反馈
官方服务:
资源简介:
HiFi-KPI Lite是一个针对结构化财务KPI提取评估的专家精选子集数据集,包含约8000段英文文本和25000个财务实体,适用于快速模型评估。该数据集支持命名实体识别、结构化数据提取和文本分类任务,数据来源于SEC 10-K和10-Q文件。

HiFi-KPI Lite is an expert-curated subset dataset for structured financial KPI extraction and evaluation. It contains approximately 8,000 English text segments and 25,000 financial entities, and is designed for rapid model evaluation. This dataset supports tasks including named entity recognition, structured data extraction and text classification, with its data sourced from SEC 10-K and 10-Q filings.
创建时间:
2025-02-10
搜集汇总
数据集介绍
main_image_url
构建方式
HiFi-KPI Lite数据集是HiFi-KPI的子集,经过专家手动筛选,旨在评估结构化财务关键绩效指标(KPI)提取的性能。该数据集包含约8000段文本和约25000个实体,通过映射到专家定义的简化标签空间,便于快速模型评估。
特点
HiFi-KPI Lite数据集的特点在于其精简的标签空间,专注于金融领域的实体识别,包括财务报表中的数值、货币单位和对应的时间周期。数据来源于美国证券交易委员会(SEC)的10-K和10-Q文件,全为英文,便于国际研究者使用。此外,数据集的结构化设计使得其在命名实体识别、结构化数据提取和文本分类等任务上具有良好的适用性。
使用方法
使用HiFi-KPI Lite数据集时,研究者可以依据其提供的训练集、验证集和测试集进行模型训练和性能评估。数据集支持序列标记和基于大型语言模型的结构化提取等基准模型性能测试。用户可以通过GitHub仓库获取示例代码和模型链接,便于开展相关研究工作。
背景与挑战
背景概述
HiFi-KPI Lite是一个为评估结构化财务关键绩效指标(KPI)提取而设计的,由专家手工精选的HiFi-KPI数据集的子集。该数据集的创建旨在优化金融领域中自然语言处理的应用,由Aavang等人于2025年提出。HiFi-KPI Lite映射到一个由专家定义的、大幅缩减的标签空间,包含约8000段文本和约25000个实体,适合快速模型评估。该数据集源自SEC的10-K和10-Q文件,专为英语语言设计,支持命名实体识别、结构化数据提取和文本分类等任务,对金融自然语言处理领域产生了显著影响。
当前挑战
该数据集在解决金融领域中的关键绩效指标提取问题的同时,面临以下挑战:首先,数据集的构建需要专家的深入知识和细致的人工标注,构建过程繁琐耗时;其次,金融领域的语言复杂多变,模型需能够准确识别和理解各种表达方式;最后,数据集规模相对较小,可能导致模型泛化能力不足。在构建过程中,确保数据的一致性和标注质量也是一个重要挑战。
常用场景
经典使用场景
HiFi-KPI Lite数据集,作为HiFi-KPI的子集,专为评估结构化财务关键绩效指标(KPI)提取而设计。其经典的使用场景在于,通过手动标注的金融实体与专家定义的标签空间映射,为命名实体识别任务提供了精确的标注数据,进而使得研究者能够对模型在金融领域的实体识别性能进行快速评估。
实际应用
在实际应用中,HiFi-KPI Lite数据集可被用于构建和评估金融信息提取系统,辅助金融分析师快速从财务报表中提取关键数据,提高金融行业的工作效率和决策质量,对于自动化财务报告分析具有重要的实践意义。
衍生相关工作
基于HiFi-KPI Lite,研究者可以开展一系列相关的工作,如进一步探索细粒度的金融NLP任务,评估大型语言模型在金融实体提取方面的泛化能力,以及开发更高效的金融信息提取模型,推动金融文本分析的学术研究和工业应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作