Maciel/FinCUGE-Instruction

Hugging Face2023-08-20 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Maciel/FinCUGE-Instruction

下载链接

链接失效反馈

资源简介：

本数据集包含八项中文金融自然语言处理基准任务，分别为金融新闻摘要(FinNA)、金融新闻公告事件问答(FinQA)、金融新闻分类(FinNL)、金融新闻关系抽取(FinRE)、金融社交媒体文本情绪分类(FinNE)、金融负面消息及其主体判定(FinNSP)、金融因果事件抽取(FinCQA)、金融事件主体抽取(FinESE)。

提供机构：

Maciel

原始信息汇总

数据集概述

数据集描述

数据集结构

FinNA

金融新闻摘要数据集。输入一段金融新闻，需要模型生成一句话摘要。其中训练集包含24000条数据，验证集包含3000条数据。

FinQA

金融新闻公告事件问答数据集。由DuEE-fin数据集转化得到。输入一段金融新闻或公告，和一个与文本中发生的事件有关的问题，需要模型根据文本生成问题答案。其中训练集包含16000条数据，验证集包含2000条数据。

FinNL

金融新闻分类数据集。对于给出的金融新闻，需要模型将其多标签分类到可能的十五种类别。其中训练集包含8000条数据，验证集包含1000条数据。

FinRE

金融新闻关系抽取数据集。对于给出的金融新闻和头实体-尾实体对，需要模型分类实体对的关系到包含空关系的44种关系类别。其中训练集包含7454条数据，验证集包含1489条数据。

FinFE

金融社交媒体文本情绪分类数据集。对于给出的金融社交媒体文本，需要模型分类该文本的情绪为消极-中性-积极三种类别。其中训练集包含8000条数据，验证集包含1000条数据。

FinNSP

金融负面消息及其主体判定数据集。对于给出的金融新闻或社交媒体文本及其中包含的实体，需要模型判断该文本中是否包含有针对某个实体的负面消息，并指出负面消息的主体是哪个实体。其中训练集包含4800条数据，验证集包含600条数据。

FinCQA

金融因果事件抽取数据集。因果事件抽取专注于在文本中识别出具有因果关系的两个事件及其事件参数，并将其整理为机构化数据。其中训练集包含21965条数据，验证集包含2741条数据。

FinESE

金融事件主体抽取数据集。从真实的新闻语料中，抽取特定事件类型的主体。其中训练集包含11752条数据，验证集包含1464条数据。

AI搜集汇总

数据集介绍

构建方式

Maciel/FinCUGE-Instruction数据集的构建，是通过整合八项中文金融自然语言处理基准任务而形成的一个综合性数据集。它涵盖了金融新闻摘要、事件问答、新闻分类、关系抽取、情绪分类、负面消息判定、因果事件抽取以及事件主体抽取等多种任务类型，以满足不同金融领域自然语言处理的研究需求。数据集的构建过程中，各任务类型均采用专业的金融领域语料，通过人工标注与自动化处理相结合的方式，形成了具有丰富标签信息的训练与验证数据集。

使用方法

使用Maciel/FinCUGE-Instruction数据集时，用户首先需要根据数据集提供的不同任务类型和相应的标注信息，选择合适的自然语言处理模型进行训练。数据集支持多种金融自然语言处理任务，因此用户需根据具体研究需求，调整模型的输入输出格式，以及训练过程中的参数配置。在模型训练完成后，用户可以利用数据集中的验证集来评估模型的性能，并根据评估结果进行模型的优化和调整。

背景与挑战

背景概述

Maciel/FinCUGE-Instruction数据集，由Maciel等研究人员构建，旨在为中文金融自然语言处理领域提供全面的多任务基准数据集。该数据集创建于近年来，涵盖了金融新闻摘要、事件问答、新闻分类、关系抽取、情绪分类、负面消息及其主体判定、因果事件抽取以及事件主体抽取等八项基准任务，为金融文本分析领域的研究提供了宝贵的数据资源。数据集的构建凝聚了研究团队在金融领域文本处理中的深入探索，对相关研究具有重要的推动作用，并在学术界和工业界产生了广泛的影响。

当前挑战

该数据集在构建过程中面临的挑战主要包括：多样化的金融领域任务需求导致的标注复杂度、确保数据标注质量的一致性和准确性、平衡数据集的规模与多样性以及保护金融数据的隐私和安全性。在研究领域问题上，数据集解决了金融文本处理中的多任务需求，但如何进一步提高模型在不同任务间的迁移性和准确性，以及如何处理金融领域特有的复杂语言现象，是该数据集面临的挑战。

常用场景

经典使用场景

在金融自然语言处理领域，Maciel/FinCUGE-Instruction数据集的运用极为广泛，其经典使用场景在于构建和训练能够处理金融新闻和社交媒体文本的模型，实现如文本摘要、事件问答、文本分类、关系抽取、情绪分析、负面消息判定、因果事件抽取和事件主体抽取等多种语言处理任务。

解决学术问题

该数据集解决了金融领域文本处理中的多项学术研究问题，如如何准确从非结构化的金融新闻中抽取结构化信息，如何理解金融文本中的复杂关系和事件因果，以及如何判定金融主体的负面消息等，为金融文本分析提供了可靠的数据基础，推动了学术研究的深入。

实际应用

实际应用中，Maciel/FinCUGE-Instruction数据集可用于金融风险评估、投资决策支持、市场情报分析等领域，帮助金融机构和专业人士快速准确地从大量金融信息中提取有价值的内容，提高决策效率和质量。

数据集最近研究