BBF-CFLEB
收藏github2023-02-01 更新2025-02-07 收录
下载链接:
https://github.com/supersymmetry-technologies/BBT-FinCUGE-Applications
下载链接
链接失效反馈资源简介:
BBF-CFLEB数据集包含六个金融领域的数据集:FinNA、FinQA、FinNL、FinRE、FinFE和FinNSP。每个数据集都针对特定的金融任务而设计,包括金融新闻摘要、基于事件的问答、新闻分类、新闻关系抽取、情感分析以及负面新闻和主题的识别。该数据集的主要重点是评估语言理解和语言生成的能力。
The BBF-CFLEB dataset includes six financial-domain datasets: FinNA, FinQA, FinNL, FinRE, FinFE, and FinNSP. Each dataset is tailored for specific financial tasks, covering financial news summarization, event-based question answering, news classification, news relation extraction, sentiment analysis, and the recognition of negative news and topics. The primary focus of this dataset is to evaluate language understanding and language generation capabilities.
提供机构:
复旦大学
创建时间:
2023-02-01
原始信息汇总
数据集概述
数据集名称
BBT-FinCUGE-Applications
数据集简介
该数据集旨在提升中文金融领域的自然语言处理(NLP)能力,包含以下三个主要部分:
- BBT-FinCorpus:目前最大规模的中文金融领域开源语料库,包含约300GB的文本数据,来源包括公司公告、研究报告、财经新闻和社交媒体。
- BBT-FinT5:目前最大规模的中文金融领域知识增强型预训练语言模型,基于T5模型架构,拥有十亿参数量。
- CFLEB:首个中文金融领域自然语言处理评测基准,包含六种不同的任务,涵盖对预训练语言模型(PLM)理解与生成能力的评估。
数据集内容
1. BBT-FinCorpus
- 公司公告:过去二十年中由中国所有上市公司发布的公司公告,转换后的文件总大小为105GB。
- 研究报告:由券商、投行等投资机构发布的研究报告,转换后的文件总量约11GB。
- 财经新闻:从新浪财经、腾讯财经、凤凰财经、36Kr和虎嗅等网站爬取的过去五年内的财经新闻,清洗后的文件总量约20GB。
- 社交媒体:股吧和雪球网过去二十年内的所有股民和博主发表的帖子,清洗后的文本总量约120GB。
2. BBT-FinT5
- 模型架构:基于T5-v1.1模型架构,预训练得到约有两亿参数的BBT-FinT5-base和约有十亿参数的BBT-FinT5-large。
- 预训练加速:使用DeepSpeed加速框架进行预训练过程优化,采用BFLOAT16半精度浮点格式解决梯度溢出问题。
- 知识增强预训练方法:通过远程监督算法获取知识图谱CN-DBPedia中的三元组,设计基于三元组遮蔽的知识增强预训练方法。
3. CFLEB评测基准
- FinNA:金融新闻摘要数据集,包含24000条训练数据,3000条验证数据和3000条测试数据。
- FinQA:金融新闻公告事件问答数据集,包含16000条训练数据,2000条验证数据和2000条测试数据。
- FinNL:金融新闻分类数据集,包含8000条训练数据,1000条验证数据和1000条测试数据。
- FinRE:金融新闻关系抽取数据集,包含7454条训练数据,1489条验证数据和3727条测试数据。
- FinFE:金融社交媒体文本情绪分类数据集,包含8000条训练数据,1000条验证数据和1000条测试数据。
- FinNSP:金融负面消息及其主体判定数据集,包含4800条训练数据,600条验证数据和600条测试数据。
数据集获取
- BBT-FinCorpus:目前开源了base版和large版,分别包含每种语料各4GB和16GB。如需使用,请发送邮件至model@ssymmetry.com申请。
数据集创新点
- 知识增强:通过三元组遮蔽的知识增强预训练方法,提升模型对实体知识的理解和记忆能力。
- 评测基准:首个中文金融领域自然语言处理评测基准CFLEB,涵盖六种不同的任务,全面评估模型在金融领域的NLP能力。
搜集汇总
数据集介绍

构建方式
BBF-CFLEB数据集的构建过程体现了对中文金融领域自然语言处理需求的深刻理解。该数据集通过整合来自公司公告、研究报告、财经新闻和社交媒体四大异质性来源的文本,构建了一个规模达300GB的多样化语料库。具体构建过程中,首先通过分布式爬虫技术从互联网上大规模采集数据,随后进行严格的清洗和格式转换,确保数据的质量和一致性。此外,数据集还特别注重语料的覆盖范围和来源的多样性,以增强预训练语言模型的泛化能力。
特点
BBF-CFLEB数据集的特点在于其大规模和多样性,涵盖了中文金融领域的广泛文本类型。该数据集不仅提供了丰富的语料资源,还特别设计了知识增强的预训练方法,通过三元组遮蔽技术提升模型对实体知识的理解和记忆能力。此外,数据集还包含了一个专门的中文金融自然语言处理评测基准CFLEB,该基准包含六项任务,旨在全面评估模型在金融领域的理解和生成能力。
使用方法
BBF-CFLEB数据集的使用方法主要围绕其提供的语料库和评测基准展开。研究人员可以利用该数据集进行预训练语言模型的训练和优化,特别是在中文金融领域的应用。通过参与CFLEB评测基准,研究者可以评估和比较不同模型在金融文本处理任务上的性能。此外,数据集还提供了详细的API和示例代码,方便用户快速上手和集成到现有的自然语言处理流程中。
背景与挑战
背景概述
BBF-CFLEB数据集由SuperSymmetry Technologies公司于2023年发布,旨在推动中文金融领域自然语言处理(NLP)技术的发展。该数据集的核心研究问题集中在如何通过大规模、多样化的语料库和先进的预训练语言模型(PLM)架构,提升中文金融NLP任务的性能。数据集包含BBT-FinCorpus语料库、BBT-FinT5预训练语言模型以及CFLEB评测基准,涵盖了从公司公告、研究报告到财经新闻和社交媒体文本的多种金融领域数据。该数据集的发布填补了中文金融领域缺乏大规模开源语料库和评测基准的空白,为金融NLP研究提供了重要的资源支持。
当前挑战
BBF-CFLEB数据集在构建和应用过程中面临多重挑战。首先,中文金融领域的语料库规模较小且多样性不足,导致预训练语言模型的泛化能力受限。其次,现有的金融领域预训练模型多基于BERT架构,参数量较小,难以满足日益复杂的金融NLP任务需求。此外,构建大规模语料库时,数据爬取、清洗和格式转换的技术难度较高,尤其是处理PDF格式的公司公告和研究报告时,需克服文本解析的复杂性。最后,评测基准的构建需兼顾任务的实用性和多样性,以确保模型在不同金融场景下的表现能够被全面评估。这些挑战共同推动了BBF-CFLEB数据集的创新与优化。
常用场景
经典使用场景
BBF-CFLEB数据集在中文金融领域的自然语言处理研究中扮演着关键角色。该数据集广泛应用于金融新闻摘要生成、金融事件问答、金融文本分类、金融关系抽取、金融社交媒体情绪分析以及金融负面消息检测等任务。通过这些任务,研究人员能够深入探索预训练语言模型在金融领域的应用潜力,尤其是在处理复杂的金融文本和实体关系时,展现出卓越的性能。
解决学术问题
BBF-CFLEB数据集解决了中文金融领域自然语言处理中的多个关键问题。首先,它填补了中文金融领域缺乏大规模多样性开源语料库的空白,为预训练语言模型提供了丰富的训练数据。其次,该数据集通过构建首个中文金融领域的自然语言处理评测基准CFLEB,解决了现有模型在不同任务集合上难以相互比较的问题,推动了中文金融领域预训练语言模型的快速迭代和性能提升。
衍生相关工作
BBF-CFLEB数据集衍生了一系列经典的研究工作。例如,基于该数据集训练的BBT-FinT5模型在金融文本摘要和问答任务中表现出色,成为中文金融领域预训练语言模型的标杆。此外,该数据集还推动了知识增强预训练方法的研究,通过引入三元组遮蔽技术,显著提升了模型对金融实体知识的理解和记忆能力。这些研究工作不仅丰富了中文金融领域的自然语言处理技术,也为后续研究提供了宝贵的参考。
以上内容由遇见数据集搜集并总结生成



