five

Financial Reports Numerical Extraction (FINE)

收藏
arXiv2024-12-28 更新2025-01-02 收录
下载链接:
http://arxiv.org/abs/2412.20072v1
下载链接
链接失效反馈
官方服务:
资源简介:
FINE数据集是由微软、北京大学和中国科学院软件研究所等机构共同创建的,专门用于从混合长文档中提取财务关键绩效指标(KPIs)。该数据集基于SEC的EDGAR系统,包含了大量财务报告数据,旨在解决大语言模型在处理混合文本和表格数据时的信息提取问题。数据集通过自动化信息提取框架(AIE)进行处理,能够有效支持财务分析等领域的应用。

The FINE Dataset was jointly created by institutions including Microsoft, Peking University, and the Institute of Software, Chinese Academy of Sciences, and is specifically designed for extracting financial key performance indicators (KPIs) from mixed long documents. Based on the SEC's EDGAR system, the dataset contains a large volume of financial report data, aiming to address the information extraction challenges faced by large language models (LLMs) when processing mixed text and tabular data. The dataset is processed via an automated information extraction framework (AIE), which can effectively support applications in fields such as financial analysis.
提供机构:
微软、北京大学、中国科学院软件研究所、蚂蚁集团
创建时间:
2024-12-28
搜集汇总
数据集介绍
main_image_url
构建方式
Financial Reports Numerical Extraction (FINE) 数据集的构建基于美国证券交易委员会(SEC)的EDGAR数据库,主要提取了财务报告中的关键绩效指标(KPIs)。为了确保数据的多样性和代表性,研究团队采用了自动化信息提取框架(AIE),该框架通过将混合长文档(HLDs)分割为可管理的段落,并利用大语言模型(LLMs)从这些段落中提取相关信息。具体步骤包括文档的分割、基于嵌入相似性的段落检索、段落的摘要生成以及目标数值的提取。通过这一流程,FINE数据集不仅涵盖了广泛的财务数据,还确保了数据的准确性和一致性。
特点
FINE数据集的特点在于其专注于财务报告中的数值信息提取,特别是关键绩效指标(KPIs)。数据集中的文档长度差异较大,最大文档包含234,900个token,最小文档为13,022个token,平均长度为59,464.3个token。为了评估模型的性能,FINE采用了相对误差容忍度准确率(RETA)作为评估指标,该指标允许在一定的相对误差范围内接受预测结果,从而更贴近实际应用中的需求。此外,FINE数据集还提供了丰富的上下文信息,如公司名称和时间信息,这些信息有助于提高信息提取的准确性。
使用方法
FINE数据集的使用方法主要围绕自动化信息提取框架(AIE)展开。用户可以通过该框架对财务报告进行分段处理,并利用大语言模型(LLMs)从这些段落中提取关键数值信息。具体步骤包括:首先,将文档分割为多个段落,并通过嵌入相似性检索与关键词相关的段落;其次,使用LLMs生成这些段落的摘要;最后,从摘要中提取目标数值。为了提高提取的准确性,用户还可以结合提示工程(Prompt Engineering)技术,如数值精度增强、关键词补全和少样本学习等。通过这些方法,FINE数据集能够有效支持财务报告中的信息提取任务,并为相关研究提供可靠的数据基础。
背景与挑战
背景概述
Financial Reports Numerical Extraction (FINE) 数据集由微软研究院、北京大学和中国科学院软件研究所的研究团队于2024年共同创建,旨在解决大语言模型(LLMs)在处理混合长文档(HLDs)时的信息提取问题。HLDs通常包含文本和表格数据,其长度远超LLMs的输入限制,直接处理会导致信息丢失。FINE数据集专注于从金融报告中提取关键绩效指标(KPIs),为LLMs在金融领域的应用提供了重要支持。该数据集的发布填补了HLDs信息提取领域的数据空白,推动了LLMs在复杂文档处理中的研究进展。
当前挑战
FINE数据集面临的挑战主要包括两个方面。首先,HLDs的混合结构使得信息提取变得复杂,文本和表格数据的交织增加了模型理解的难度。其次,由于文档长度远超LLMs的输入限制,如何有效分割和选择相关段落成为关键问题。此外,表格数据的序列化格式选择也影响模型的理解能力,简单的序列化方法虽然减少了计算负担,但可能丢失部分语义信息。最后,金融报告中的数值精度要求极高,如何在信息提取过程中保持数值的准确性是另一大挑战。
常用场景
经典使用场景
Financial Reports Numerical Extraction (FINE) 数据集主要用于从混合长文档(HLDs)中提取关键财务指标(KPIs)。这些文档通常包含大量的文本和表格数据,且长度远超大型语言模型(LLMs)的输入限制。FINE 数据集通过自动化信息提取框架(AIE)帮助 LLMs 处理这些长文档,并从中提取出关键的数值信息,如收入、利润等财务数据。
衍生相关工作
FINE 数据集的推出催生了一系列相关研究,特别是在混合长文档处理和表格数据理解领域。基于 FINE 的研究工作进一步优化了 LLMs 在长文档处理中的表现,提出了更高效的表格序列化方法和信息提取策略。此外,FINE 还为其他领域的长文档处理提供了参考,如科学论文和百科全书的文本分析,推动了信息提取技术的跨领域应用。
数据集最近研究
最新研究方向
在金融报告信息提取领域,Financial Reports Numerical Extraction (FINE) 数据集的提出为大型语言模型(LLMs)在混合长文档(HLDs)中的信息提取能力提供了新的研究方向。HLDs 通常包含复杂的文本和表格数据,远超 LLMs 的输入长度限制。FINE 数据集通过引入自动化信息提取框架(AIE),解决了 LLMs 在处理长文档时的信息丢失问题。AIE 框架通过分段、检索、摘要和提取四个模块,有效提升了 LLMs 在金融报告中的数值提取精度。当前研究热点包括如何优化表格序列化方法、提升提示工程(Prompt Engineering)的效能,以及探索 AIE 在不同复杂场景中的适应性。这些研究不仅推动了 LLMs 在金融领域的应用,也为其他领域的混合文档处理提供了重要参考。
相关研究论文
  • 1
    Extract Information from Hybrid Long Documents Leveraging LLMs: A Framework and Dataset微软、北京大学、中国科学院软件研究所、蚂蚁集团 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作