five

Maciel/FinCUGE-Instruction|金融数据集|自然语言处理数据集

收藏
hugging_face2023-08-20 更新2024-03-04 收录
金融
自然语言处理
下载链接:
https://hf-mirror.com/datasets/Maciel/FinCUGE-Instruction
下载链接
链接失效反馈
资源简介:
本数据集包含八项中文金融自然语言处理基准任务,分别为金融新闻摘要(FinNA)、金融新闻公告事件问答(FinQA)、金融新闻分类(FinNL)、金融新闻关系抽取(FinRE)、金融社交媒体文本情绪分类(FinNE)、金融负面消息及其主体判定(FinNSP)、金融因果事件抽取(FinCQA)、金融事件主体抽取(FinESE)。

本数据集包含八项中文金融自然语言处理基准任务,分别为金融新闻摘要(FinNA)、金融新闻公告事件问答(FinQA)、金融新闻分类(FinNL)、金融新闻关系抽取(FinRE)、金融社交媒体文本情绪分类(FinNE)、金融负面消息及其主体判定(FinNSP)、金融因果事件抽取(FinCQA)、金融事件主体抽取(FinESE)。
提供机构:
Maciel
原始信息汇总

数据集概述

数据集描述

本数据集包含八项中文金融自然语言处理基准任务,分别为金融新闻摘要(FinNA)、金融新闻公告事件问答(FinQA)、金融新闻分类(FinNL)、金融新闻关系抽取(FinRE)、金融社交媒体文本情绪分类(FinNE)、金融负面消息及其主体判定(FinNSP)、金融因果事件抽取(FinCQA)、金融事件主体抽取(FinESE)。

数据集结构

FinNA

金融新闻摘要数据集。输入一段金融新闻,需要模型生成一句话摘要。其中训练集包含24000条数据,验证集包含3000条数据。

FinQA

金融新闻公告事件问答数据集。由DuEE-fin数据集转化得到。输入一段金融新闻或公告,和一个与文本中发生的事件有关的问题,需要模型根据文本生成问题答案。其中训练集包含16000条数据,验证集包含2000条数据。

FinNL

金融新闻分类数据集。对于给出的金融新闻,需要模型将其多标签分类到可能的十五种类别。其中训练集包含8000条数据,验证集包含1000条数据。

FinRE

金融新闻关系抽取数据集。对于给出的金融新闻和头实体-尾实体对,需要模型分类实体对的关系到包含空关系的44种关系类别。其中训练集包含7454条数据,验证集包含1489条数据。

FinFE

金融社交媒体文本情绪分类数据集。对于给出的金融社交媒体文本,需要模型分类该文本的情绪为消极-中性-积极三种类别。其中训练集包含8000条数据,验证集包含1000条数据。

FinNSP

金融负面消息及其主体判定数据集。对于给出的金融新闻或社交媒体文本及其中包含的实体,需要模型判断该文本中是否包含有针对某个实体的负面消息,并指出负面消息的主体是哪个实体。其中训练集包含4800条数据,验证集包含600条数据。

FinCQA

金融因果事件抽取数据集。因果事件抽取专注于在文本中识别出具有因果关系的两个事件及其事件参数,并将其整理为机构化数据。其中训练集包含21965条数据,验证集包含2741条数据。

FinESE

金融事件主体抽取数据集。从真实的新闻语料中,抽取特定事件类型的主体。其中训练集包含11752条数据,验证集包含1464条数据。

AI搜集汇总
数据集介绍
main_image_url
构建方式
Maciel/FinCUGE-Instruction数据集的构建,是通过整合八项中文金融自然语言处理基准任务而形成的一个综合性数据集。它涵盖了金融新闻摘要、事件问答、新闻分类、关系抽取、情绪分类、负面消息判定、因果事件抽取以及事件主体抽取等多种任务类型,以满足不同金融领域自然语言处理的研究需求。数据集的构建过程中,各任务类型均采用专业的金融领域语料,通过人工标注与自动化处理相结合的方式,形成了具有丰富标签信息的训练与验证数据集。
使用方法
使用Maciel/FinCUGE-Instruction数据集时,用户首先需要根据数据集提供的不同任务类型和相应的标注信息,选择合适的自然语言处理模型进行训练。数据集支持多种金融自然语言处理任务,因此用户需根据具体研究需求,调整模型的输入输出格式,以及训练过程中的参数配置。在模型训练完成后,用户可以利用数据集中的验证集来评估模型的性能,并根据评估结果进行模型的优化和调整。
背景与挑战
背景概述
Maciel/FinCUGE-Instruction数据集,由Maciel等研究人员构建,旨在为中文金融自然语言处理领域提供全面的多任务基准数据集。该数据集创建于近年来,涵盖了金融新闻摘要、事件问答、新闻分类、关系抽取、情绪分类、负面消息及其主体判定、因果事件抽取以及事件主体抽取等八项基准任务,为金融文本分析领域的研究提供了宝贵的数据资源。数据集的构建凝聚了研究团队在金融领域文本处理中的深入探索,对相关研究具有重要的推动作用,并在学术界和工业界产生了广泛的影响。
当前挑战
该数据集在构建过程中面临的挑战主要包括:多样化的金融领域任务需求导致的标注复杂度、确保数据标注质量的一致性和准确性、平衡数据集的规模与多样性以及保护金融数据的隐私和安全性。在研究领域问题上,数据集解决了金融文本处理中的多任务需求,但如何进一步提高模型在不同任务间的迁移性和准确性,以及如何处理金融领域特有的复杂语言现象,是该数据集面临的挑战。
常用场景
经典使用场景
在金融自然语言处理领域,Maciel/FinCUGE-Instruction数据集的运用极为广泛,其经典使用场景在于构建和训练能够处理金融新闻和社交媒体文本的模型,实现如文本摘要、事件问答、文本分类、关系抽取、情绪分析、负面消息判定、因果事件抽取和事件主体抽取等多种语言处理任务。
解决学术问题
该数据集解决了金融领域文本处理中的多项学术研究问题,如如何准确从非结构化的金融新闻中抽取结构化信息,如何理解金融文本中的复杂关系和事件因果,以及如何判定金融主体的负面消息等,为金融文本分析提供了可靠的数据基础,推动了学术研究的深入。
实际应用
实际应用中,Maciel/FinCUGE-Instruction数据集可用于金融风险评估、投资决策支持、市场情报分析等领域,帮助金融机构和专业人士快速准确地从大量金融信息中提取有价值的内容,提高决策效率和质量。
数据集最近研究
最新研究方向
Maciel/FinCUGE-Instruction数据集涉及金融领域的自然语言处理任务,其最新研究方向集中在金融新闻摘要、事件问答、新闻分类、关系抽取、情绪分类、负面消息判定、因果事件抽取和事件主体抽取等方面。这些研究不仅提升了金融文本的自动处理能力,而且对于金融机构的风险管理、投资者决策支持以及金融市场监控具有重要的现实意义。当前,该数据集正推动着金融信息抽取、文本挖掘和知识图谱构建等前沿技术的研究与应用,为金融领域的智能化转型提供了关键支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

DermNet

DermNet是一个包含皮肤病图像的数据集,涵盖了多种皮肤病类型,如痤疮、湿疹、牛皮癣等。该数据集主要用于皮肤病诊断和研究。

www.dermnetnz.org 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

中国区域地面气象要素驱动数据集 v2.0(1951-2020)

中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 70 年(1951~2020 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致,仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新,以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中,计划于 2025 年上半年发布,从而使 CMFD 2.0 延伸至 2024 年底。

国家青藏高原科学数据中心 收录

A00_13081a.jpg

Link to OCHRE database: http://pi.lib.uchicago.edu/1001/org/ochre/a8598ac4-9093-d548-30f3-84ce2ec953a7

DataONE 收录