koen430/relevant_selected_stock_news

Hugging Face2024-05-20 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/koen430/relevant_selected_stock_news

下载链接

链接失效反馈

资源简介：

该数据集包含通过GPT-3.5-turbo筛选出的新闻文章，旨在用于微调大型语言模型，以预测新闻发布后的股票价格变动。数据集包括多个特征，如股票代码、提示、文本、URL、结果、相关性、令牌计数等，并分为训练集、验证集和测试集。

提供机构：

koen430

原始信息汇总

数据集概述

数据集特征

ticker: 字符串类型
prompt: 字符串类型
text: 字符串类型
url: 字符串类型
result_1: 字符串类型
result_1_bin: 整数类型（int64）
relevance: 字符串类型
token_count: 整数类型（int64）
index_level_0: 整数类型（int64）

数据集分割

train:
- 示例数量: 3600
- 数据大小: 25040002 字节
val:
- 示例数量: 200
- 数据大小: 1420724 字节
test:
- 示例数量: 200
- 数据大小: 1341696 字节

数据集大小

下载大小: 14627275 字节
数据集总大小: 27802422 字节

配置文件

config_name: default
data_files:
- train: data/train-*
- val: data/val-*
- test: data/test-*

AI搜集汇总

数据集介绍

构建方式

该数据集koen430/relevant_selected_stock_news的构建基于GPT-3.5-turbo模型的筛选，旨在为微调大型语言模型（LLM）以预测新闻发布后次日股票价格变动提供相关新闻文章。数据集的构建过程涉及对原始新闻数据的预处理，通过GPT-3.5-turbo模型评估新闻与特定股票的相关性，并据此筛选出相关性较高的文章。这一过程确保了数据集的高相关性和实用性，为后续的模型训练提供了坚实的基础。

特点

该数据集的主要特点在于其高度相关性和针对性。通过GPT-3.5-turbo模型的筛选，确保了每篇文章与特定股票的相关性，从而提高了数据集在预测股票价格变动方面的应用价值。此外，数据集包含了详细的元数据，如股票代码、新闻文本、相关性评分等，这些信息为模型的训练和评估提供了丰富的上下文。数据集还提供了训练、验证和测试三个子集，便于研究人员进行系统的模型开发和验证。

使用方法

该数据集koen430/relevant_selected_stock_news适用于微调大型语言模型（LLM）以预测股票价格变动。使用者可以通过加载数据集的训练、验证和测试子集，分别进行模型的训练、调优和评估。数据集中的每条记录包含股票代码、新闻文本、相关性评分等信息，这些信息可以直接用于模型的输入和输出设计。此外，数据集的结构化格式和详细的元数据支持多种机器学习框架的使用，为研究人员提供了灵活的实验环境。

背景与挑战

背景概述

在金融市场的复杂动态中，股票新闻的及时性和相关性对投资者决策至关重要。koen430/relevant_selected_stock_news数据集应运而生，旨在通过GPT-3.5-turbo筛选出与股票价格变动密切相关的新闻文章，以支持大型语言模型（LLM）的微调，从而预测新闻发布后次日的股票价格走势。该数据集由koen430创建，包含3600条训练样本、200条验证样本和200条测试样本，涵盖股票代码、新闻文本、相关性评分等多个特征，为金融科技领域的研究提供了宝贵的资源。

当前挑战

尽管koen430/relevant_selected_stock_news数据集在金融预测领域展现了巨大潜力，但其构建过程中仍面临若干挑战。首先，新闻相关性的自动评估依赖于GPT-3.5-turbo的输出，这可能引入模型偏差。其次，数据集的规模相对较小，可能限制了模型的泛化能力。此外，新闻文本的多样性和复杂性增加了特征提取和处理的难度。最后，确保数据集的实时更新和准确性也是一项持续的挑战，以应对金融市场快速变化的需求。

常用场景

经典使用场景

在金融领域，koen430/relevant_selected_stock_news数据集被广泛用于训练和微调大型语言模型（LLM），以预测新闻发布后次日股票价格的变动。通过分析新闻文章的文本内容及其与特定股票代码（ticker）的相关性，模型能够学习到新闻事件对股票市场的潜在影响，从而为投资者提供决策支持。

实际应用

在实际应用中，该数据集可用于构建智能投资顾问系统，通过实时分析新闻内容来预测股票价格的短期波动。此外，金融机构可以利用这些数据来优化交易策略，减少市场风险。对于个人投资者而言，这种基于新闻分析的预测工具能够提供更为精准的市场洞察，帮助其做出更明智的投资决策。

衍生相关工作

基于koen430/relevant_selected_stock_news数据集，研究者们开发了多种金融预测模型和情绪分析工具。例如，一些研究通过结合自然语言处理（NLP）技术和机器学习算法，进一步提升了新闻文本的情感分析精度。此外，该数据集还激发了关于如何更有效地利用新闻数据进行市场预测的广泛讨论，推动了金融科技领域的创新发展。

以上内容由AI搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集