财经新闻情感分类数据集|财经新闻数据集|情感分析数据集

github2024-04-28 更新2024-05-31 收录

财经新闻

情感分析

下载链接：

https://github.com/wwwxmu/Dataset-of-financial-news-sentiment-classification

下载链接

链接失效反馈

资源简介：

本数据集主要用于训练财经新闻情感分类的深度学习模型。数据来源于雪球网上万得资讯发布的正负面新闻标题，通过爬虫采集到7046条新闻标题作为种子数据集，其中正面新闻5147条，负面新闻1899条。数据集中包含17149条新闻数据，包括日期、公司、代码、正/负面、标题、正文6个字段，其中正面新闻12514条，负面新闻4635条。

This dataset is primarily utilized for training deep learning models aimed at sentiment classification of financial news. The data originates from positive and negative news headlines published by Wind Information on the Xueqiu platform, collected via web scraping to form a seed dataset comprising 7,046 news headlines, including 5,147 positive and 1,899 negative entries. The dataset encompasses a total of 17,149 news items, featuring six fields: date, company, code, sentiment (positive/negative), headline, and body text. Among these, there are 12,514 positive news items and 4,635 negative news items.

创建时间：

2019-05-15

原始信息汇总

财经新闻情感分类数据集概述

数据集描述

本数据集专为财经新闻情感分类的深度学习模型训练而设计。原始数据来源于雪球网上万得资讯发布的正负面新闻标题，通过爬虫技术采集得到7046条新闻标题，其中正面新闻5147条，负面新闻1899条。为增加数据量，采用了搜索引擎搜索和筛选的方式进行数据扩充。

数据集内容

数据集共包含17149条新闻数据，每条数据包含以下字段：

日期
公司
代码
正/负面
标题
正文其中，正面新闻12514条，负面新闻4635条。

文件组成

news_seed.xlsx: 种子数据集，包含7046条新闻标题。
train_data.csv: 用于训练的数据集。
test_data.csv: 用于测试的数据集。

AI搜集汇总

数据集介绍

构建方式

本数据集的构建始于对雪球网上万得资讯发布的财经新闻标题的爬虫采集，共获取了7046条新闻标题作为初始种子数据集。为弥补数据量的不足，进一步通过搜索引擎进行数据扩充，最终形成了包含17149条新闻数据的完整数据集。该数据集涵盖了日期、公司、代码、正/负面、标题及正文六个字段，其中正面新闻12514条，负面新闻4635条，为财经新闻情感分类模型的训练提供了丰富的数据支持。

特点

该数据集显著特点在于其广泛的数据来源和精细的分类标签。通过爬虫技术从雪球网采集的初始数据，结合搜索引擎的扩充策略，确保了数据集的多样性和覆盖面。此外，数据集中的六个字段设计，特别是正/负面标签的明确标注，为情感分类任务提供了直接且有效的特征。这种结构化的数据格式，不仅便于模型的训练和验证，也提升了数据集在财经新闻分析领域的应用价值。

使用方法

该数据集可广泛应用于财经新闻情感分类模型的训练与评估。用户可通过提供的train_data.csv文件进行模型训练，利用test_data.csv文件进行模型性能的测试与验证。数据集中的六个字段，特别是正/负面标签，为模型提供了明确的分类目标。此外，数据集的结构化设计使得数据预处理过程简化，用户可直接导入数据进行特征提取和模型构建，从而加速了财经新闻情感分析的研究与应用进程。

背景与挑战

背景概述

财经新闻情感分类数据集的构建旨在解决财经领域中新闻情感分析的关键问题。该数据集由雪球网与万得资讯合作，通过爬虫技术从雪球网采集了7046条新闻标题作为初始数据，随后通过搜索引擎扩充至17149条，涵盖了正面和负面新闻的情感分类。这一数据集的创建不仅丰富了财经新闻情感分析的资源，也为深度学习模型在财经领域的应用提供了坚实的基础。

当前挑战

尽管财经新闻情感分类数据集在数据量上有所扩充，但其构建过程中仍面临若干挑战。首先，数据来源的多样性和新闻内容的时效性要求高效的爬虫技术和数据清洗策略。其次，情感分类的准确性依赖于高质量的标注数据，而手动标注大量新闻数据既耗时又成本高昂。此外，如何确保扩充数据的质量和一致性，避免噪声数据对模型训练的影响，也是该数据集面临的重要挑战。

常用场景

经典使用场景

在财经领域，财经新闻情感分类数据集被广泛应用于训练和验证情感分析模型。通过该数据集，研究者能够构建和优化能够自动识别和分类财经新闻情感的深度学习模型。这些模型可以有效地从海量新闻数据中提取出正面或负面的情感倾向，为投资者和市场分析师提供决策支持。

衍生相关工作

基于财经新闻情感分类数据集，研究者们开展了一系列相关工作。例如，有研究利用该数据集开发了基于情感分析的股市预测模型，显著提升了预测精度。此外，还有研究探讨了情感分析在金融文本中的应用，提出了新的情感分类算法。这些衍生工作不仅丰富了财经领域的研究内容，也为实际应用提供了新的思路和方法。

数据集最近研究

最新研究方向

在财经新闻情感分类领域，最新的研究方向主要集中在数据扩充与模型优化上。鉴于原始数据集规模较小，研究者们通过搜索引擎进行数据扩充，以提高模型的泛化能力。此外，随着深度学习技术的不断进步，研究者们正致力于开发更为精准的情感分类模型，以捕捉财经新闻中复杂的情感变化。这些研究不仅有助于提升金融市场的预测准确性，还为投资者提供了更为科学的决策支持工具。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊

reereererreereererreereererreereererreereererreereererreereererreereererreereererreereererreereererreereerer

阿里云天池收录

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取；气象实测数据从气象站获取，气象站建于电站30号箱变附近，每5分钟将采集的数据通过光纤传输到机房；数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统（包括30TF计算刀片机、250TB并行存储）进行中尺度模式计算后输出预报产品，每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心收录

糖尿病预测数据集

糖尿病相关的医学研究或者健康数据

AI_Studio 收录