Maciel/FinCUGE-Instruction
收藏数据集概述
数据集描述
本数据集包含八项中文金融自然语言处理基准任务,分别为金融新闻摘要(FinNA)、金融新闻公告事件问答(FinQA)、金融新闻分类(FinNL)、金融新闻关系抽取(FinRE)、金融社交媒体文本情绪分类(FinNE)、金融负面消息及其主体判定(FinNSP)、金融因果事件抽取(FinCQA)、金融事件主体抽取(FinESE)。
数据集结构
FinNA
金融新闻摘要数据集。输入一段金融新闻,需要模型生成一句话摘要。其中训练集包含24000条数据,验证集包含3000条数据。
FinQA
金融新闻公告事件问答数据集。由DuEE-fin数据集转化得到。输入一段金融新闻或公告,和一个与文本中发生的事件有关的问题,需要模型根据文本生成问题答案。其中训练集包含16000条数据,验证集包含2000条数据。
FinNL
金融新闻分类数据集。对于给出的金融新闻,需要模型将其多标签分类到可能的十五种类别。其中训练集包含8000条数据,验证集包含1000条数据。
FinRE
金融新闻关系抽取数据集。对于给出的金融新闻和头实体-尾实体对,需要模型分类实体对的关系到包含空关系的44种关系类别。其中训练集包含7454条数据,验证集包含1489条数据。
FinFE
金融社交媒体文本情绪分类数据集。对于给出的金融社交媒体文本,需要模型分类该文本的情绪为消极-中性-积极三种类别。其中训练集包含8000条数据,验证集包含1000条数据。
FinNSP
金融负面消息及其主体判定数据集。对于给出的金融新闻或社交媒体文本及其中包含的实体,需要模型判断该文本中是否包含有针对某个实体的负面消息,并指出负面消息的主体是哪个实体。其中训练集包含4800条数据,验证集包含600条数据。
FinCQA
金融因果事件抽取数据集。因果事件抽取专注于在文本中识别出具有因果关系的两个事件及其事件参数,并将其整理为机构化数据。其中训练集包含21965条数据,验证集包含2741条数据。
FinESE
金融事件主体抽取数据集。从真实的新闻语料中,抽取特定事件类型的主体。其中训练集包含11752条数据,验证集包含1464条数据。




