BBT-FinCorpus|金融NLP数据集|预训练数据集数据集

arXiv2023-02-26 更新2024-06-21 收录

金融NLP

预训练数据集

下载链接：

https://github.com/ssymmetry/BBT-FinCUGE-Applications

下载链接

链接失效反馈

资源简介：

BBT-FinCorpus是由上海数据科学重点实验室创建的大型中文金融领域数据集，包含约300GB的原始文本，来源于金融新闻、公司公告、研究报告和社交媒体等四个不同渠道。该数据集的创建旨在丰富金融领域的文本多样性，支持金融预训练语言模型的开发。通过精细的收集和处理，BBT-FinCorpus覆盖了金融NLP任务中的主要文本类型，为金融领域的语言理解和生成任务提供了丰富的数据资源。该数据集的应用领域广泛，特别适用于金融信息提取、情感分析等任务，旨在提升中文金融NLP的整体水平。

The BBT-FinCorpus is a large-scale Chinese financial domain dataset created by Fudan University, containing approximately 300GB of raw text sourced from four different channels, including financial news, company announcements, research reports, and social media. The establishment of this dataset aims to enrich the diversity of text in the financial field and support the development of financial pre-trained language models. Through meticulous collection and processing, the BBT-FinCorpus covers the main text types in financial NLP tasks, providing a rich data resource for language understanding and generation tasks in the financial field. The dataset has a wide range of applications and is particularly suitable for tasks such as financial information extraction and sentiment analysis, with the goal of enhancing the overall level of Chinese financial NLP.

提供机构：

上海数据科学重点实验室

创建时间：

2023-02-19

AI搜集汇总

数据集介绍

构建方式

BBT-FinCorpus 数据集的构建基于对中文金融领域自然语言处理任务的深入分析，涵盖了金融新闻、公司公告、研究报告和社交媒体等多种文本来源。研究团队通过分布式爬虫技术从多个权威金融网站和社交媒体平台抓取了约300GB的原始文本数据，并经过严格的清洗和处理，确保了数据的质量和多样性。此外，数据集的构建还参考了现有金融NLP任务的文本分布，以确保数据集能够全面覆盖金融领域的主要文本类型，从而为预训练语言模型提供丰富的语料支持。

使用方法

BBT-FinCorpus 数据集主要用于金融领域预训练语言模型的构建和评估。研究者可以通过该数据集进行大规模的预训练，以提升模型在金融文本理解与生成任务中的表现。具体使用方法包括：首先，利用数据集进行模型的初始预训练，以捕捉金融领域的特定语言特征；其次，在预训练的基础上，进一步微调模型以适应具体的金融NLP任务，如信息抽取、情感分析等。此外，数据集还可用于构建和评估金融领域的语言理解与生成基准，推动该领域的研究进展。

背景与挑战

背景概述

随着自然语言处理（NLP）技术在金融领域的广泛应用，构建高质量的金融领域预训练语言模型成为迫切需求。复旦大学数据科学重点实验室与SuperSymmetry Technologies合作，于2023年推出了BBT-FinCorpus数据集，该数据集包含约300GB的金融领域中文文本，涵盖了金融新闻、公司公告、研究报告和社交媒体等多种文本来源。该数据集的构建旨在支持BBT-FinT5模型的预训练，该模型基于T5架构，拥有2.2亿至10亿参数，旨在提升中文金融NLP任务的性能。BBT-FinCorpus的发布不仅填补了中文金融领域大规模语料库的空白，还为金融领域的信息提取、情感分析等任务提供了丰富的资源，推动了中文金融NLP研究的发展。

当前挑战

BBT-FinCorpus的构建面临多重挑战。首先，金融领域的文本具有高度的专业性和复杂性，词汇、句法和写作风格与通用文本存在显著差异，这使得模型在处理金融文本时面临较大的挑战。其次，金融领域语料库的规模和多样性对模型的预训练效果至关重要，但现有中文金融语料库规模较小、多样性不足且不开放，这限制了模型的性能提升。此外，金融NLP任务如信息提取和情感分析对模型的实体知识理解和记忆能力提出了更高的要求，而现有的预训练方法在处理这些任务时仍存在不足。最后，缺乏公开的中文金融NLP基准测试使得不同模型之间的性能比较变得困难，阻碍了该领域研究的快速发展。

常用场景

经典使用场景

BBT-FinCorpus 数据集的经典使用场景主要集中在金融领域的自然语言处理任务中，特别是在信息提取和情感分析方面。该数据集为预训练语言模型提供了丰富的金融文本资源，涵盖了新闻、公司公告、研究报告和社交媒体等多种文本类型。通过使用 BBT-FinCorpus，研究者可以训练出更适用于金融领域的语言模型，从而提升模型在金融文本理解与生成任务中的表现。

解决学术问题

BBT-FinCorpus 数据集解决了金融领域自然语言处理中常见的学术问题，特别是在域内语言模型的预训练方面。由于金融文本与通用文本在词汇、句法和写作风格上存在显著差异，通用预训练模型在处理金融文本时表现不佳。通过使用 BBT-FinCorpus，研究者可以针对性地预训练金融领域的语言模型，从而显著提升模型在金融任务中的性能，推动了金融自然语言处理领域的发展。

实际应用

BBT-FinCorpus 数据集在实际应用中具有广泛的应用场景，尤其是在金融行业的信息提取、情感分析和新闻分类等任务中。例如，金融机构可以利用该数据集训练的模型来自动化处理大量的金融新闻和公告，快速提取关键信息并进行情感分析，从而为投资决策提供支持。此外，该数据集还可以用于构建金融知识图谱，帮助企业更好地理解和利用金融数据。

数据集最近研究

相关研究论文

1
BBT-Fin: Comprehensive Construction of Chinese Financial Domain Pre-trained Language Model, Corpus and Benchmark上海数据科学重点实验室 · 2023年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域地面气象要素驱动数据集 v2.0（1951-2024）

中国区域地面气象要素驱动数据集（China Meteorological Forcing Data，以下简称 CMFD）是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素，时间分辨率为 3 小时，水平空间分辨率为 0.1°，时间长度为 74 年（1951~2024 年），覆盖了 70°E~140°E，15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据，并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品，其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展，其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本，而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集，但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外，在制作 CMFD 2.0 的过程中，研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息，显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时，CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 74 年，并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同，但其有效数据扩展到了中国之外，能够更好地支持跨境区域研究。为方便用户使用，CMFD 2.0 还在基础变量集之外提供了若干衍生变量，包括近地面相对湿度、雨雪分离降水产品等。此外，CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术，转而直接将实型数据压缩存储于 NetCDF4 格式文件中，从而消除了用户使用数据时进行解压换算的困扰。本数据集原定版本号为 1.7，但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变，故将其版本号重新定义为 2.0。

国家青藏高原科学数据中心收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集，包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述，包括数据来源、图像数量、标注信息等。

github 收录

UniProt

UniProt（Universal Protein Resource）是全球公认的蛋白质序列与功能信息权威数据库，由欧洲生物信息学研究所（EBI）、瑞士生物信息学研究所（SIB）和美国蛋白质信息资源中心（PIR）联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名，整合了实验验证的高质量数据与大规模预测的自动注释内容，涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库（分为人工校验的Swiss-Prot和自动生成的TrEMBL），以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具，为基础研究和药物研发提供了无可替代的支持，成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据，包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态，适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

糖尿病预测数据集

糖尿病相关的医学研究或者健康数据

AI_Studio 收录