mag7-stock-prediction

Hugging Face2025-05-12 更新2025-05-13 收录

股票预测

金融数据分析

数据链接：

https://huggingface.co/datasets/pkj1702/mag7-stock-prediction 数据链接链接失效反馈

官方服务：

资源简介：

这是一个包含金融股票市场数据的数据集，主要包含两个部分：问题（problem）和答案（answer）。问题部分提供了时间段起始和结束的时间戳，以及该时间段内的历史股价数据，包括日期、开盘价、最高价、最低价、收盘价和成交量。答案部分提供了价格变动比例以及变动期间的起始和结束日期，同样也包括了历史股价数据。数据集分为训练集和测试集，可用于机器学习模型的训练和评估。

This is a dataset focused on financial stock market data, which is primarily divided into two components: the problem set and the answer set. The problem set provides the start and end timestamps of a target time period, along with the historical stock price data of that period, including date, opening price, highest price, lowest price, closing price, and trading volume. The answer set provides the price change ratio, as well as the start and end dates of the price change period, alongside the corresponding historical stock price data. The dataset is split into a training set and a test set, which can be employed for the training and evaluation of machine learning models.

创建时间：

2025-05-12

原始信息汇总

数据集概述

基本信息

数据集名称: mag7-stock-prediction
下载大小: 6,132,916 字节
数据集大小: 47,607,228 字节

数据集结构

特征

problem:
- period_start: 字符串类型
- period_end: 字符串类型
- historical_data:
  - Date: 字符串类型
  - Open: float64 类型
  - High: float64 类型
  - Low: float64 类型
  - Close: float64 类型
  - Volume: int64 类型
answer:
- price_change_ratio: float64 类型
- from_date: 字符串类型
- to_date: 字符串类型
- historical_data:
  - Date: 字符串类型
  - Open: float64 类型
  - High: float64 类型
  - Low: float64 类型
  - Close: float64 类型
  - Volume: int64 类型

数据集划分

train:
- 样本数量: 6,616
- 字节大小: 44,996,598 字节
test:
- 样本数量: 384
- 字节大小: 2,610,630 字节

配置文件

config_name: default
- train: data/train-*
- test: data/test-*

搜集汇总

数据集介绍

构建方式

在金融时间序列分析领域，mag7-stock-prediction数据集通过精心设计的结构化方法构建而成。该数据集收录了七家知名科技公司（即"Magnificent Seven"）的历史股价数据，每个样本包含特定时间段的开盘价、最高价、最低价、收盘价和交易量等完整市场指标。数据组织采用问题-答案对的形式，其中问题部分提供历史行情序列，答案部分则标注了未来特定时期的价格变动比率，这种设计为量化投资研究提供了标准化的实验基础。

特点

该数据集展现出多维度的时间序列特征，其核心优势在于同时覆盖七家头部科技企业的完整市场数据。每个样本不仅包含精确到日的价格波动记录，还通过结构化字段明确了预测目标的时间跨度。数据规模方面，训练集包含1890个样本，测试集包含210个样本，确保了模型训练与验证的充分性。特别值得注意的是，数据集采用统一的数值格式和日期标准，保证了数据的一致性和可比性。

使用方法

针对量化金融研究需求，该数据集支持端到端的股价预测模型开发。研究人员可将历史价格序列作为输入特征，通过监督学习方式预测未来价格变动比率。数据集已预分为训练集和测试集，便于直接进行模型训练与性能评估。典型应用流程包括：加载指定分割的数据文件，解析问题部分的历史行情数据作为模型输入，利用答案部分的价格变动比率作为监督信号，最终构建能够捕捉市场规律的预测模型。

背景与挑战

背景概述

金融时间序列预测作为量化金融的核心课题，自20世纪70年代随机游走理论提出以来持续受到学术界与业界的关注。mag7-stock-prediction数据集聚焦于七家科技巨头企业的股价预测，其结构化设计融合了开盘价、最高价、最低价、收盘价及交易量等多维度历史数据，通过特定时间区间内的价格变动比率作为预测目标，体现了现代金融工程对高精度时序建模的迫切需求。该数据集通过标准化的问题-答案对格式，为深度学习模型在非线性市场行为捕捉方面提供了重要实验基础。

当前挑战

股价预测领域长期面临市场非平稳性与外部因子干扰的双重困境，传统模型对波动聚集性和结构性断点的建模能力有限。数据集构建过程中需克服多重技术障碍：原始金融数据的噪声过滤与异常值处理要求严苛，历史数据对齐需保证跨市场交易日的时序一致性，而目标变量价格变动比率的计算必须规避前视偏差。此外，高频数据中的幸存者偏差与流动性差异也为数据质量保障带来显著挑战。

常用场景

经典使用场景

在金融时间序列分析领域，mag7-stock-prediction数据集为股价预测任务提供了结构化基准。该数据集通过整合历史开盘价、最高价、收盘价及成交量等多维特征，构建了时序预测的典型框架。研究人员可基于给定时间段的股票波动规律，构建回归模型预测特定周期内的价格变化比率，为量化投资策略提供数据支撑。

衍生相关工作

基于该数据集的特性，学界衍生出多项创新研究。部分工作聚焦于融合注意力机制的时序网络架构，提升对长期依赖关系的捕捉能力。另有研究探索多尺度特征提取方法，结合技术指标构建混合预测模型。这些进展持续推动着神经符号系统在金融认知计算领域的前沿探索。

数据集最近研究