REFinD
收藏arXiv2023-07-26 更新2024-06-21 收录
下载链接:
https://www.sec.gov/about/divisions-offices/division-economic-riskanalysis/data/financial-statement-and-notes-data-set
下载链接
链接失效反馈官方服务:
资源简介:
REFinD数据集是由庆熙大学的研究团队创建,专注于金融领域的实体关系提取。该数据集包含28,676个实例,涵盖22种关系,数据来源于美国证券交易委员会(SEC)的公开报告。创建过程中,研究团队利用了EDGAR系统和SEC的财务报表及注释数据集进行数据收集和预处理。REFinD数据集的应用领域主要集中在金融文本的自动化处理和分析,旨在通过提取实体间的关系,为金融决策提供支持。
The REFinD dataset was developed by a research team from Kyung Hee University, specializing in entity relation extraction within the financial domain. This dataset comprises 28,676 instances covering 22 distinct relation types, with its data sourced from public reports of the U.S. Securities and Exchange Commission (SEC). During the dataset construction process, the research team utilized the EDGAR system and SEC's financial statements and notes datasets for data collection and preprocessing. The primary application scenarios of the REFinD dataset focus on automated processing and analysis of financial texts, aiming to provide support for financial decision-making by extracting relations between entities.
提供机构:
庆熙大学
创建时间:
2023-07-26
搜集汇总
数据集介绍

构建方式
REFinD数据集的构建方式采用了从美国证券交易委员会(SEC)网站获取的公开交易的公司的10-X报告。该数据集包含了28,676个实例,涉及8种实体对类型中的22种关系。每个实例都提供了具有指定特定实体的句子及其实体类型,需要从中推断出关系。REFinD数据集旨在为关系提取任务提供一个真实的金融领域数据集。
使用方法
REFinD数据集的使用方法包括数据预处理、模型训练和模型评估。在数据预处理阶段,需要对数据进行清洗、分词和标注等操作。在模型训练阶段,可以使用REFinD数据集训练关系提取模型,如FinTree模型。在模型评估阶段,可以使用REFinD数据集的测试集评估模型的性能,如F1分数等指标。
背景与挑战
背景概述
REFinD数据集的创建旨在应对金融领域关系抽取任务的独特挑战。该数据集由Hyunjong Ok于2023年在韩国庆熙大学提出,并在SIGIR'23 Workshop on Knowledge Discovery from Unstructured Data in Financial Services上发表。REFinD数据集的创建是为了解决金融文本中关系抽取的难题,这些文本具有独特的语义、术语和写作风格,使得现有的关系抽取模型在应用于金融领域时面临重大挑战。REFinD数据集的提出为金融文本的关系抽取研究提供了宝贵的资源,并促进了该领域内算法和模型的进一步发展。
当前挑战
REFinD数据集面临的挑战主要包括:1)金融文本的复杂性和专业性,使得模型难以准确理解和抽取其中的关系;2)金融领域内术语和表达方式的多样性,增加了模型训练和调优的难度;3)金融文本中实体关系的隐蔽性和多义性,对模型的关系抽取能力提出了更高的要求。此外,在构建REFinD数据集的过程中,研究人员也面临着数据收集、标注和预处理等方面的挑战。为了解决这些挑战,研究人员采用了多种技术手段,包括预训练模型、位置信息嵌入、掩码类后处理和对抗性权重扰动等,以提高模型在金融文本关系抽取任务中的性能。
常用场景
经典使用场景
REFinD数据集作为金融领域关系抽取任务的重要资源,被广泛应用于构建和评估金融文本处理模型。FinTree模型是针对REFinD数据集进行预训练的,它通过预测掩码token而非传统的[CLS]token,实现了在金融领域文本中的关系抽取任务。该模型在REFinD数据集上取得了优异的性能,证明了其在金融文本处理中的有效性。
解决学术问题
REFinD数据集解决了金融领域关系抽取任务中的难题。金融文本具有独特的语义、术语和写作风格,使得现有的NLP技术难以有效应用。REFinD数据集为研究金融领域关系抽取提供了丰富的数据和基准,有助于推动该领域的研究进展。FinTree模型通过在REFinD数据集上进行预训练,使得模型能够更好地理解和处理金融文本,提高了关系抽取任务的准确性和效率。
实际应用
REFinD数据集和FinTree模型在实际应用中具有重要的价值。金融领域的关系抽取任务可以帮助金融机构从非结构化文本中提取有价值的信息,如公司间的合作关系、投资关系等。这些信息可以用于风险控制、投资决策等金融业务,提高金融机构的运营效率和市场竞争力。
数据集最近研究
最新研究方向
FinTree模型在金融领域的关系抽取任务中取得了显著的成果。该模型通过在金融数据集上进一步预训练,使得模型更加适应金融领域的特殊语义、术语和写作风格。FinTree的独特结构在于预测掩码的token,而不是传统的[CLS]token,这允许模型更准确地预测两个实体之间的关系。该模型在REFinD数据集上表现出色,为金融领域的关系抽取任务提供了新的思路。
相关研究论文
- 1FinTree: Financial Dataset Pretrain Transformer Encoder for Relation Extraction庆熙大学 · 2023年
以上内容由遇见数据集搜集并总结生成



