REFinD
收藏arXiv2023-05-23 更新2024-06-21 收录
下载链接:
https://www.jpmorgan.com/technology/artificial-intelligence/initiatives/refinddataset/problem-motivation-outcome
下载链接
链接失效反馈官方服务:
资源简介:
REFinD是首个针对金融文档的大规模关系抽取数据集,由摩根大通公司创建。该数据集包含约29K实例和22种关系,涵盖8种类型的实体对,数据来源于美国证券交易委员会(SEC)的公开交易公司报告。创建过程中,面临了金融领域特有的挑战,如长且复杂的句子和需要金融专业知识的实体关系抽取。REFinD数据集主要用于金融领域的信息检索、语义搜索、问答和文本蕴涵等下游任务,旨在解决现有数据集在金融领域应用中的不足。
REFinD is the first large-scale relation extraction dataset tailored for financial documents, developed by JPMorgan Chase & Co. This dataset contains approximately 29K instances and 22 distinct relation types, covering 8 categories of entity pairs, with its data sourced from publicly traded company reports filed with the U.S. Securities and Exchange Commission (SEC). During its curation, it encountered domain-specific challenges inherent to finance, including lengthy and complex sentences, as well as entity relation extraction tasks that require specialized financial domain expertise. The REFinD dataset is primarily intended for downstream financial domain tasks such as information retrieval, semantic search, question answering, and textual entailment, with the goal of addressing the limitations of existing datasets when deployed in financial applications.
提供机构:
摩根大通公司
创建时间:
2023-05-23
搜集汇总
数据集介绍

构建方式
REFinD数据集的构建方式体现了对金融领域文本数据的高度关注。该数据集完全由金融文件生成,特别是来自美国证券交易委员会(SEC)网站的上市公司的10-K报告。这些报告被仔细挑选并标记,以确保包含丰富的金融实体及其之间的关系。数据集中的每个实例都包含特定的实体和它们的类型,以及需要推断的关系。REFinD的构建确保了数据集的真实性和多样性,为关系抽取任务提供了坚实的基准。
特点
REFinD数据集的特点在于其规模和领域特定性。它包含28,676个实例,涵盖了八种实体类型之间的22种关系。这种多样性使得REFinD成为一个宝贵的资源,可用于训练和评估金融领域的关系抽取模型。此外,REFinD的构建方式确保了实体和关系类型的准确性,这对于提高模型的性能至关重要。数据集的公开性和易于获取性使其成为研究者和开发者的理想选择。
使用方法
REFinD数据集的使用方法非常灵活。它可以用于训练关系抽取模型,也可以用于评估现有模型的性能。由于REFinD涵盖了广泛的实体和关系类型,它非常适合用于开发能够处理金融文本中复杂关系的模型。此外,REFinD的公开性和易于获取性使其成为研究者和开发者的理想选择。用户可以轻松下载数据集,并将其用于各种自然语言处理任务,包括实体识别、关系抽取和事件抽取。
背景与挑战
背景概述
REFinD 数据集是一个专注于金融领域的关系抽取任务的基准数据集。该数据集的创建是为了解决金融文本中关系抽取的挑战,这些文本通常具有独特的语义、术语和写作风格。REFinD 数据集由 Hyunjong Ok 等研究人员在 2023 年开发,旨在为金融领域的关系抽取任务提供一个新的研究平台。该数据集的创建对于自然语言处理 (NLP) 领域具有重要意义,因为它为研究人员提供了一个专门用于金融文本关系抽取的基准数据集,有助于推动该领域的研究进展。
当前挑战
REFinD 数据集面临着一系列挑战。首先,金融文本具有独特的语义、术语和写作风格,这使得现有的关系抽取模型难以直接应用于金融领域。其次,金融文本中实体之间的关系可能非常复杂,需要模型能够准确地识别和分类实体之间的关系。此外,REFinD 数据集的构建过程中也遇到了一些挑战,例如如何确保数据集的质量和可靠性,以及如何平衡数据集的规模和多样性。为了应对这些挑战,研究人员提出了 FinTree 模型,该模型通过在金融数据集上进行预训练,使得模型能够更好地适应金融领域的独特特征。FinTree 模型采用了一种新颖的结构,即预测掩码 token 而不是传统的 [CLS] token,从而使得模型能够更准确地预测实体之间的关系。此外,FinTree 模型还采用了一系列策略,例如 Masking Class Post-Processing (MCPP)、Further Pretraining (FP)、Position Information (PI) 和 Adversarial Weight Perturbation (AWP),以进一步提高模型性能。
常用场景
经典使用场景
REFinD数据集在金融领域关系抽取任务中具有广泛的应用,特别是在金融文本中识别和分类实体之间的关系。该数据集包含了从公开交易公司的10-K报告中提取的28,676个实例,涵盖了22种关系类型。REFinD数据集为研究者提供了宝贵的资源,用于开发和应用先进的自然语言处理技术,以提高金融文本分析的质量和效率。
解决学术问题
REFinD数据集解决了金融领域关系抽取任务中的挑战,如金融文本的独特语义、术语和写作风格。通过提供大量标注数据,REFinD数据集使得研究者能够训练和评估模型,以准确识别金融文本中实体之间的关系。这对于理解金融文本的结构和内容,以及提取有价值的信息具有重要意义。
衍生相关工作
REFinD数据集衍生了一系列相关的经典工作,如FinTree模型。FinTree模型利用Transformer Encoder模型在金融数据集上进行预训练,并通过预测掩码的token来提高关系预测的准确性。FinTree模型在REFinD数据集上的实验结果表明,其性能优于其他现有的关系抽取模型,为金融领域的关系抽取任务提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



