BBF-CFLEB|金融数据集|自然语言处理数据集

github2023-02-01 更新2025-02-07 收录

金融

自然语言处理

下载链接：

https://github.com/supersymmetry-technologies/BBT-FinCUGE-Applications

下载链接

链接失效反馈

资源简介：

BBF-CFLEB数据集包含六个金融领域的数据集：FinNA、FinQA、FinNL、FinRE、FinFE和FinNSP。每个数据集都针对特定的金融任务而设计，包括金融新闻摘要、基于事件的问答、新闻分类、新闻关系抽取、情感分析以及负面新闻和主题的识别。该数据集的主要重点是评估语言理解和语言生成的能力。

提供机构：

复旦大学

创建时间：

2023-02-01

原始信息汇总

数据集概述

数据集名称

BBT-FinCUGE-Applications

数据集简介

该数据集旨在提升中文金融领域的自然语言处理（NLP）能力，包含以下三个主要部分：

BBT-FinCorpus：目前最大规模的中文金融领域开源语料库，包含约300GB的文本数据，来源包括公司公告、研究报告、财经新闻和社交媒体。
BBT-FinT5：目前最大规模的中文金融领域知识增强型预训练语言模型，基于T5模型架构，拥有十亿参数量。
CFLEB：首个中文金融领域自然语言处理评测基准，包含六种不同的任务，涵盖对预训练语言模型（PLM）理解与生成能力的评估。

数据集内容

1. BBT-FinCorpus

公司公告：过去二十年中由中国所有上市公司发布的公司公告，转换后的文件总大小为105GB。
研究报告：由券商、投行等投资机构发布的研究报告，转换后的文件总量约11GB。
财经新闻：从新浪财经、腾讯财经、凤凰财经、36Kr和虎嗅等网站爬取的过去五年内的财经新闻，清洗后的文件总量约20GB。
社交媒体：股吧和雪球网过去二十年内的所有股民和博主发表的帖子，清洗后的文本总量约120GB。

2. BBT-FinT5

模型架构：基于T5-v1.1模型架构，预训练得到约有两亿参数的BBT-FinT5-base和约有十亿参数的BBT-FinT5-large。
预训练加速：使用DeepSpeed加速框架进行预训练过程优化，采用BFLOAT16半精度浮点格式解决梯度溢出问题。
知识增强预训练方法：通过远程监督算法获取知识图谱CN-DBPedia中的三元组，设计基于三元组遮蔽的知识增强预训练方法。

3. CFLEB评测基准

FinNA：金融新闻摘要数据集，包含24000条训练数据，3000条验证数据和3000条测试数据。
FinQA：金融新闻公告事件问答数据集，包含16000条训练数据，2000条验证数据和2000条测试数据。
FinNL：金融新闻分类数据集，包含8000条训练数据，1000条验证数据和1000条测试数据。
FinRE：金融新闻关系抽取数据集，包含7454条训练数据，1489条验证数据和3727条测试数据。
FinFE：金融社交媒体文本情绪分类数据集，包含8000条训练数据，1000条验证数据和1000条测试数据。
FinNSP：金融负面消息及其主体判定数据集，包含4800条训练数据，600条验证数据和600条测试数据。

数据集获取

BBT-FinCorpus：目前开源了base版和large版，分别包含每种语料各4GB和16GB。如需使用，请发送邮件至model@ssymmetry.com申请。

数据集创新点

知识增强：通过三元组遮蔽的知识增强预训练方法，提升模型对实体知识的理解和记忆能力。
评测基准：首个中文金融领域自然语言处理评测基准CFLEB，涵盖六种不同的任务，全面评估模型在金融领域的NLP能力。

AI搜集汇总

数据集介绍

构建方式

BBF-CFLEB数据集的构建过程体现了对中文金融领域自然语言处理需求的深刻理解。该数据集通过整合来自公司公告、研究报告、财经新闻和社交媒体四大异质性来源的文本，构建了一个规模达300GB的多样化语料库。具体构建过程中，首先通过分布式爬虫技术从互联网上大规模采集数据，随后进行严格的清洗和格式转换，确保数据的质量和一致性。此外，数据集还特别注重语料的覆盖范围和来源的多样性，以增强预训练语言模型的泛化能力。

特点

BBF-CFLEB数据集的特点在于其大规模和多样性，涵盖了中文金融领域的广泛文本类型。该数据集不仅提供了丰富的语料资源，还特别设计了知识增强的预训练方法，通过三元组遮蔽技术提升模型对实体知识的理解和记忆能力。此外，数据集还包含了一个专门的中文金融自然语言处理评测基准CFLEB，该基准包含六项任务，旨在全面评估模型在金融领域的理解和生成能力。

使用方法

BBF-CFLEB数据集的使用方法主要围绕其提供的语料库和评测基准展开。研究人员可以利用该数据集进行预训练语言模型的训练和优化，特别是在中文金融领域的应用。通过参与CFLEB评测基准，研究者可以评估和比较不同模型在金融文本处理任务上的性能。此外，数据集还提供了详细的API和示例代码，方便用户快速上手和集成到现有的自然语言处理流程中。

背景与挑战

背景概述

BBF-CFLEB数据集由SuperSymmetry Technologies公司于2023年发布，旨在推动中文金融领域自然语言处理（NLP）技术的发展。该数据集的核心研究问题集中在如何通过大规模、多样化的语料库和先进的预训练语言模型（PLM）架构，提升中文金融NLP任务的性能。数据集包含BBT-FinCorpus语料库、BBT-FinT5预训练语言模型以及CFLEB评测基准，涵盖了从公司公告、研究报告到财经新闻和社交媒体文本的多种金融领域数据。该数据集的发布填补了中文金融领域缺乏大规模开源语料库和评测基准的空白，为金融NLP研究提供了重要的资源支持。

当前挑战

BBF-CFLEB数据集在构建和应用过程中面临多重挑战。首先，中文金融领域的语料库规模较小且多样性不足，导致预训练语言模型的泛化能力受限。其次，现有的金融领域预训练模型多基于BERT架构，参数量较小，难以满足日益复杂的金融NLP任务需求。此外，构建大规模语料库时，数据爬取、清洗和格式转换的技术难度较高，尤其是处理PDF格式的公司公告和研究报告时，需克服文本解析的复杂性。最后，评测基准的构建需兼顾任务的实用性和多样性，以确保模型在不同金融场景下的表现能够被全面评估。这些挑战共同推动了BBF-CFLEB数据集的创新与优化。

常用场景

经典使用场景

BBF-CFLEB数据集在中文金融领域的自然语言处理研究中扮演着关键角色。该数据集广泛应用于金融新闻摘要生成、金融事件问答、金融文本分类、金融关系抽取、金融社交媒体情绪分析以及金融负面消息检测等任务。通过这些任务，研究人员能够深入探索预训练语言模型在金融领域的应用潜力，尤其是在处理复杂的金融文本和实体关系时，展现出卓越的性能。

解决学术问题

BBF-CFLEB数据集解决了中文金融领域自然语言处理中的多个关键问题。首先，它填补了中文金融领域缺乏大规模多样性开源语料库的空白，为预训练语言模型提供了丰富的训练数据。其次，该数据集通过构建首个中文金融领域的自然语言处理评测基准CFLEB，解决了现有模型在不同任务集合上难以相互比较的问题，推动了中文金融领域预训练语言模型的快速迭代和性能提升。

衍生相关工作

BBF-CFLEB数据集衍生了一系列经典的研究工作。例如，基于该数据集训练的BBT-FinT5模型在金融文本摘要和问答任务中表现出色，成为中文金融领域预训练语言模型的标杆。此外，该数据集还推动了知识增强预训练方法的研究，通过引入三元组遮蔽技术，显著提升了模型对金融实体知识的理解和记忆能力。这些研究工作不仅丰富了中文金融领域的自然语言处理技术，也为后续研究提供了宝贵的参考。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Google Scholar

Google Scholar是一个学术搜索引擎，旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域，包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

VoxBox

VoxBox是一个大规模语音语料库，由多样化的开源数据集构建而成，用于训练文本到语音（TTS）系统。

github 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集，专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例，收集自自然雾霾环境和正常场景中人工添加的雾霾效果，以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型，确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测，旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

AIS数据集

该研究使用了多个公开的AIS数据集，这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶，并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息，总计约6.4亿条记录。

github 收录