财经新闻情感分类数据集

github2024-04-28 更新2024-05-31 收录

下载链接：

https://github.com/wwwxmu/Dataset-of-financial-news-sentiment-classification

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集主要用于训练财经新闻情感分类的深度学习模型。数据来源于雪球网上万得资讯发布的正负面新闻标题，通过爬虫采集到7046条新闻标题作为种子数据集，其中正面新闻5147条，负面新闻1899条。数据集中包含17149条新闻数据，包括日期、公司、代码、正/负面、标题、正文6个字段，其中正面新闻12514条，负面新闻4635条。

This dataset is primarily utilized for training deep learning models aimed at sentiment classification of financial news. The data originates from positive and negative news headlines published by Wind Information on the Xueqiu platform, collected via web scraping to form a seed dataset comprising 7,046 news headlines, including 5,147 positive and 1,899 negative entries. The dataset encompasses a total of 17,149 news items, featuring six fields: date, company, code, sentiment (positive/negative), headline, and body text. Among these, there are 12,514 positive news items and 4,635 negative news items.

创建时间：

2019-05-15

原始信息汇总

财经新闻情感分类数据集概述

数据集描述

本数据集专为财经新闻情感分类的深度学习模型训练而设计。原始数据来源于雪球网上万得资讯发布的正负面新闻标题，通过爬虫技术采集得到7046条新闻标题，其中正面新闻5147条，负面新闻1899条。为增加数据量，采用了搜索引擎搜索和筛选的方式进行数据扩充。

数据集内容

数据集共包含17149条新闻数据，每条数据包含以下字段：

日期
公司
代码
正/负面
标题
正文其中，正面新闻12514条，负面新闻4635条。

文件组成

news_seed.xlsx: 种子数据集，包含7046条新闻标题。
train_data.csv: 用于训练的数据集。
test_data.csv: 用于测试的数据集。

搜集汇总

数据集介绍

构建方式

本数据集的构建始于对雪球网上万得资讯发布的财经新闻标题的爬虫采集，共获取了7046条新闻标题作为初始种子数据集。为弥补数据量的不足，进一步通过搜索引擎进行数据扩充，最终形成了包含17149条新闻数据的完整数据集。该数据集涵盖了日期、公司、代码、正/负面、标题及正文六个字段，其中正面新闻12514条，负面新闻4635条，为财经新闻情感分类模型的训练提供了丰富的数据支持。

特点

该数据集显著特点在于其广泛的数据来源和精细的分类标签。通过爬虫技术从雪球网采集的初始数据，结合搜索引擎的扩充策略，确保了数据集的多样性和覆盖面。此外，数据集中的六个字段设计，特别是正/负面标签的明确标注，为情感分类任务提供了直接且有效的特征。这种结构化的数据格式，不仅便于模型的训练和验证，也提升了数据集在财经新闻分析领域的应用价值。

使用方法

该数据集可广泛应用于财经新闻情感分类模型的训练与评估。用户可通过提供的train_data.csv文件进行模型训练，利用test_data.csv文件进行模型性能的测试与验证。数据集中的六个字段，特别是正/负面标签，为模型提供了明确的分类目标。此外，数据集的结构化设计使得数据预处理过程简化，用户可直接导入数据进行特征提取和模型构建，从而加速了财经新闻情感分析的研究与应用进程。

背景与挑战

背景概述

财经新闻情感分类数据集的构建旨在解决财经领域中新闻情感分析的关键问题。该数据集由雪球网与万得资讯合作，通过爬虫技术从雪球网采集了7046条新闻标题作为初始数据，随后通过搜索引擎扩充至17149条，涵盖了正面和负面新闻的情感分类。这一数据集的创建不仅丰富了财经新闻情感分析的资源，也为深度学习模型在财经领域的应用提供了坚实的基础。

当前挑战

尽管财经新闻情感分类数据集在数据量上有所扩充，但其构建过程中仍面临若干挑战。首先，数据来源的多样性和新闻内容的时效性要求高效的爬虫技术和数据清洗策略。其次，情感分类的准确性依赖于高质量的标注数据，而手动标注大量新闻数据既耗时又成本高昂。此外，如何确保扩充数据的质量和一致性，避免噪声数据对模型训练的影响，也是该数据集面临的重要挑战。

常用场景

经典使用场景

在财经领域，财经新闻情感分类数据集被广泛应用于训练和验证情感分析模型。通过该数据集，研究者能够构建和优化能够自动识别和分类财经新闻情感的深度学习模型。这些模型可以有效地从海量新闻数据中提取出正面或负面的情感倾向，为投资者和市场分析师提供决策支持。

衍生相关工作

基于财经新闻情感分类数据集，研究者们开展了一系列相关工作。例如，有研究利用该数据集开发了基于情感分析的股市预测模型，显著提升了预测精度。此外，还有研究探讨了情感分析在金融文本中的应用，提出了新的情感分类算法。这些衍生工作不仅丰富了财经领域的研究内容，也为实际应用提供了新的思路和方法。

数据集最近研究