sovai/news_sentiment

github2024-11-09 更新2024-11-12 收录

下载链接：

https://github.com/sovai-research/open-investment-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

开发了两种类型的新闻数据集，一种是与股票代码匹配的，另一种是与主题匹配的。

Two types of news datasets were developed, with one category aligned to stock tickers and the other to thematic topics.

创建时间：

2024-11-08

原始信息汇总

Sovais Open Investment Datasets

数据集概述

Sovais Open Investment Datasets 提供了多个用于投资研究的开源数据集。这些数据集涵盖了新闻情感、价格突破、内幕交易预测、机构交易、游说数据、卖空、维基百科浏览量、制药临床试验、因子信号、财务比率、政府合同、公司风险、全球风险、消费者金融投诉、风险指标、政府网站流量、盈利惊喜和破产预测等多个领域。

数据集列表

图标	数据集名称	描述	文档	价格（每月）
📰	sovai/news_sentiment	包含两种新闻数据集，一种是股票代码匹配的，另一种是主题匹配的。	文档	$200
📈	sovai/price_breakout	每日更新的美国股票价格突破预测数据集。	文档	$220
🔍	sovai/insider_flow_prediction	包含超过60个内幕交易特征，包括流量预测值。	文档	$465
💼	sovai/institutional_trading	提供机构投资行为、策略和投资组合动态的全面分析。	文档	$580
📢	sovai/lobbying_data	股票代码匹配的游说数据，用于观察细粒度的公司游说行为。	文档	$645
🔽	sovai/short_selling	用于风险分析的多种卖空数据集。	文档	$780
📖	sovai/wikipedia_views	一些最大公司的每日维基百科页面浏览量和趋势。	文档	$200
💊	sovai/pharma_clinical_trials	标记临床试验及其预测结果成功率的独特数据集。	文档	$850
📊	sovai/factor_signals	包含传统会计因子、替代财务指标和高级统计分析，支持复杂的财务建模。	文档	$270
📉	sovai/financial_ratios	超过80个从财务报表和市场数据计算的财务比率。	文档	$270
📜	sovai/government_contracts	公开交易公司的政府合同数据。	文档	$580
⚠️	sovai/corp_risks	超过13,000家美国公开交易股票的第7章和第11章破产预测。	文档	$270
🛡️	sovai/risks	每日更新的全球风险感知，使用领先指标和高级模型预测各种类型的风险。	文档	$270
💬	sovai/cfpb_complaints	消费者金融投诉的股票代码映射数据集。	文档	$480
🧮	sovai/risk_indicators	通过分析公司事件构建的美国股票综合风险评分。	文档	$270
🚦	sovai/traffic_agencies	政府网站机构流量的数据。	文档	$250
👥	sovai/earnings_surprise	从外部来源获取的盈利公告以及实际公告前的估计信息。	文档	$680
❗	sovai/bankruptcy	超过5,000家美国公开交易股票的第7章和第11章破产预测。	文档	$270

使用示例

以下是使用 Hugging Face datasets 库加载每个数据集的示例代码片段：

📰 sovai/news_sentiment python from datasets import load_dataset df_news_sentiment = load_dataset("sovai/news_sentiment", split="train").to_pandas()
📈 sovai/price_breakout python from datasets import load_dataset df_price_breakout = load_dataset("sovai/price_breakout", split="train").to_pandas()
🔍 sovai/insider_flow_prediction python from datasets import load_dataset df_insider_flow = load_dataset("sovai/insider_flow_prediction", split="train").to_pandas()
💼 sovai/institutional_trading python from datasets import load_dataset df_institutional_trading = load_dataset("sovai/institutional_trading", split="train").to_pandas()
📢 sovai/lobbying_data python from datasets import load_dataset df_lobbying_data = load_dataset("sovai/lobbying_data", split="train").to_pandas()
🔽 sovai/short_selling python from datasets import load_dataset df_short_selling = load_dataset("sovai/short_selling", split="train").to_pandas()
📖 sovai/wikipedia_views python from datasets import load_dataset df_wikipedia_views = load_dataset("sovai/wikipedia_views", split="train").to_pandas()
💊 sovai/pharma_clinical_trials python from datasets import load_dataset df_pharma_trials = load_dataset("sovai/pharma_clinical_trials", split="train").to_pandas()
📊 sovai/factor_signals python from datasets import load_dataset df_factor_signals = load_dataset("sovai/factor_signals", split="train").to_pandas()
📉 sovai/financial_ratios python from datasets import load_dataset df_financial_ratios = load_dataset("sovai/financial_ratios", split="train").to_pandas()
📜 sovai/government_contracts python from datasets import load_dataset df_government_contracts = load_dataset("sovai/government_contracts", split="train").to_pandas()
⚠️ sovai/corp_risks python from datasets import load_dataset df_corp_risks = load_dataset("sovai/corp_risks", split="train").to_pandas()
🛡️ sovai/risks python from datasets import load_dataset df_risks = load_dataset("sovai/risks", split="train").to_pandas()
💬 sovai/cfpb_complaints python from datasets import load_dataset df_cfpb_complaints = load_dataset("sovai/cfpb_complaints", split="train").to_pandas()
🧮 sovai/risk_indicators python from datasets import load_dataset df_risk_indicators = load_dataset("sovai/risk_indicators", split="train").to_pandas()
🚦 sovai/traffic_agencies python from datasets import load_dataset df_traffic_agencies = load_dataset("sovai/traffic_agencies", split="train").to_pandas()
👥 sovai/earnings_surprise python from datasets import load_dataset df_earnings_surprise = load_dataset("sovai/earnings_surprise", split="train").to_pandas()
❗ sovai/bankruptcy python from datasets import load_dataset df_bankruptcy = load_dataset("sovai/bankruptcy", split="train").to_pandas()

搜集汇总

数据集介绍

构建方式

在金融投资研究领域，news_sentiment数据集的构建旨在提供一种新颖的工具，以分析新闻对市场情绪的影响。该数据集通过两种方式生成：一是与股票代码匹配的新闻数据，二是与特定主题匹配的新闻数据。这种构建方式确保了数据集的多样性和实用性，使其能够广泛应用于量化金融和市场情绪分析的研究中。

特点

news_sentiment数据集的显著特点在于其双重匹配机制，既包括与股票代码直接关联的新闻，也涵盖了与特定市场主题相关的新闻。这种设计不仅增强了数据集的覆盖面，还提高了其在不同研究场景中的适用性。此外，数据集的开放获取模式进一步促进了学术研究和实际应用的结合。

使用方法

使用news_sentiment数据集时，用户可以通过Hugging Face的datasets库轻松加载数据。首先，安装datasets库并导入load_dataset函数，然后指定数据集名称和分割方式（如'train'），即可将数据转换为Pandas DataFrame进行进一步分析。这种简便的使用方法使得研究人员和开发者能够快速上手，充分利用数据集进行市场情绪和投资策略的研究。

背景与挑战

背景概述

在量化金融领域，新闻情感分析作为一项关键技术，旨在通过分析新闻文本中的情感倾向来预测市场动态。由Derek Snow领导的sov.ai团队创建的news_sentiment数据集，是该领域首个开源的投资研究数据集之一。该数据集包含两种类型的新闻数据：股票代码匹配的新闻和主题匹配的新闻，旨在为研究人员和投资者提供更为精准的市场情感分析工具。自创建以来，该数据集已对量化金融领域的研究与应用产生了深远影响，成为情感分析与市场预测的重要资源。

当前挑战

尽管news_sentiment数据集在量化金融领域具有重要意义，但其构建与应用过程中仍面临诸多挑战。首先，新闻文本的情感标注需要高度专业化的知识，确保标注的准确性与一致性。其次，数据集的实时更新要求高效的数据采集与处理机制，以应对新闻事件的快速变化。此外，如何从海量新闻中提取与特定股票或市场主题相关的信息，也是该数据集面临的一大技术难题。这些挑战不仅影响数据集的质量，也制约了其在实际投资决策中的应用效果。

常用场景

经典使用场景

在量化金融领域，news_sentiment数据集的经典使用场景主要集中在新闻情感分析与金融市场预测的交叉研究中。该数据集通过提供与股票代码匹配的新闻数据，使得研究者能够量化新闻报道对特定股票市场的情感影响。这种情感分析不仅有助于理解市场情绪的波动，还能为投资策略的制定提供数据支持，特别是在事件驱动型交易策略中，新闻情感数据被广泛用于预测短期市场反应。

解决学术问题

news_sentiment数据集解决了量化金融研究中长期存在的情感数据获取与分析难题。传统上，情感分析依赖于人工标注或有限的公开数据，难以满足大规模、实时的研究需求。该数据集通过提供结构化的新闻情感数据，使得研究者能够更精确地量化市场情绪，从而提升模型预测的准确性。这不仅推动了情感分析技术在金融领域的应用，也为相关学术研究提供了丰富的实证数据。

衍生相关工作

基于news_sentiment数据集，衍生出了一系列相关的经典工作，涵盖了情感分析模型的优化、新闻情感与市场波动关系的深入研究以及跨市场情感传导机制的探索。例如，有研究利用该数据集开发了基于LSTM的情感分析模型，显著提升了情感预测的准确性。此外，还有学者通过分析新闻情感数据，揭示了不同市场间情感传导的路径和强度，为全球市场的联动研究提供了新的视角。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集