five

intro-to-data-science-1

收藏
Hugging Face2025-11-16 更新2025-11-17 收录
下载链接:
https://huggingface.co/datasets/galsolomon9/intro-to-data-science-1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了2025年7月份的股票市场数据,具体信息包括每日的开盘价、收盘价、最高价、最低价、交易量和公司基本面信息。数据集包含2542行和14列。

This dataset contains stock market data for July 2025, including daily opening prices, closing prices, highest prices, lowest prices, trading volumes, and corporate fundamental information. The dataset consists of 2542 rows and 14 columns.
创建时间:
2025-11-11
原始信息汇总

股票交易量与收益率分析数据集概述

数据集基本信息

  • 数据集名称: Stock Volume and Return Analysis
  • 数据文件: stock_data_aug_2025.csv
  • 数据规模: 2,542行,14列
  • 时间范围: 2025年7月1日-31日

研究问题

分析在2025年7月期间,股票达到月度低点后交易量增加是否与更高收益率相关。

研究方法

  1. 数据加载与清洗:验证数据类型、移除重复值、过滤无效价格
  2. 筛选在7月达到月度低点的股票
  3. 计算低点后的平均交易量
  4. 将股票分为两组:
    • 高交易量组(高于月度均值)
    • 低交易量组(低于月度均值)
  5. 计算低点后1天、5天和10天的平均股票收益率
  6. 结果可视化与比较

分析结果

收益率对比表

时间窗口 高交易量平均收益率 低交易量平均收益率
5天 8.64% 8.37%
10天 7.47% 7.27%
1天 9.22% 6.87%

关键发现

  • 在1天时间窗口内,高交易量组与低交易量组存在2.35%的显著差异
  • 5天和10天时间窗口的收益率差异较小
  • 短期(1天)分析显示交易量与收益率存在一定相关性

可视化图表

  • 5天收益率按交易量分组:https://huggingface.co/datasets/galsolomon9/intro-to-data-science-1/resolve/main/%D7%92%D7%A8%D7%A3%20%D7%A8%D7%90%D7%A9%D7%95%D7%9F%20%D7%A7%D7%95%D7%9C%D7%90%D7%91.png
  • 10天收益率按交易量分组:https://huggingface.co/datasets/galsolomon9/intro-to-data-science-1/resolve/main/%D7%92%D7%A8%D7%A3%20%D7%A9%D7%A0%D7%99%20%D7%A7%D7%95%D7%9C%D7%90%D7%91.png
  • 1天收益率按交易量分组:https://huggingface.co/datasets/galsolomon9/intro-to-data-science-1/resolve/main/%D7%92%D7%A8%D7%A3%20%D7%A7%D7%95%D7%9C%D7%90%D7%91%203.png
  • 所有时间窗口组合对比:https://huggingface.co/datasets/galsolomon9/intro-to-data-science-1/resolve/main/%D7%92%D7%A8%D7%A3%20%D7%A7%D7%95%D7%9C%D7%90%D7%91%204.png

结论

交易量单独作为指标不能强烈预测市场低点后的价格走势,但在短期(1天)分析中显示出一定的相关性,可作为分析月度低点股票的参考指标。

使用工具

  • Python (Pandas, Plotnine, NumPy)
  • Google Colab
  • Hugging Face Datasets
  • Markdown文档

作者信息

  • 作者: Gal Solomon
  • 课程: EDA & Data Analysis Assignment
  • 平台: Google Colab / Hugging Face
  • 日期: 2025年11月16日
搜集汇总
数据集介绍
main_image_url
构建方式
在金融数据分析领域,该数据集聚焦于2025年7月的股票市场动态,通过系统化流程构建而成。原始数据包含2542条日频交易记录,涵盖开盘价、收盘价、最高价、最低价及成交量等14个维度的指标。构建过程中采用数据清洗技术剔除重复值与无效价格,并基于月度低点识别机制,将标的股票按成交量中位数划分为高成交量与低成交量两组,为后续收益对比分析奠定基础。
特点
该数据集呈现出典型的时序金融数据特征,其核心价值在于捕捉股价触及月内低点后的市场反应。数据维度覆盖多周期收益率计算(1日/5日/10日),通过可视化图表直观展现成交量分组与收益率的关联性。特别值得注意的是,短期窗口数据显示高成交量组别存在2.35%的收益溢价,这种微观结构特征为研究市场动能效应提供了实证依据。
使用方法
针对量化投资研究场景,该数据集支持通过Python生态中的Pandas、NumPy等工具进行时序分析。研究者可复现分组对比方法,计算不同持有期的累计收益,并利用Plotnine库生成交互式可视化图表。数据集已适配Hugging Face平台标准接口,支持直接加载至Google Colab等云端环境,便于开展金融计量模型的验证与优化。
背景与挑战
背景概述
在金融计量学领域,股票市场微观结构研究始终关注交易行为与资产价格动态的关联机制。该数据集由研究者Gal Solomon于2025年构建,聚焦于当月触及月内低点的股票样本,通过量化分析交易量变化与短期收益率的相关性,旨在验证技术分析中量价关系理论在现代市场环境下的适用性。这项研究延续了自Lo和MacKinlay(1990)开创的市场异象研究范式,为高频交易时代下的市场有效性假说提供了新的实证依据。
当前挑战
该数据集核心挑战在于验证量价关系理论的稳定性,不同时间窗口的收益率差异揭示了市场噪声对信号识别的影响。构建过程中面临数据清洗的复杂性,需处理2,542条记录中的异常价格和重复观测;研究方法层面需克服多时间维度比较的统计显著性难题,特别是在5日与10日周期未呈现显著差异时,如何确定有效观测窗口成为关键瓶颈。
常用场景
经典使用场景
在金融计量学领域,该数据集为研究股票市场动态提供了典型分析框架。通过整合股价开盘、收盘、最高最低价及交易量等多维度数据,研究者能够系统观察股价在月度低点后的波动规律。其经典应用体现在对交易量分组比较的实证设计中,通过划分高成交量与低成交量组合,精准捕捉短期收益率差异的统计特征。
衍生相关工作
该数据集的实证范式催生了系列延伸研究,包括多因子模型的结构优化与行为金融学视角的拓展。后续研究通过引入波动率聚类特征和投资者情绪指标,构建了改进的动量效应监测体系。更有学者将其与深度学习架构结合,开发出具备时序预测能力的神经波动率网络,推动了计算金融学的方法论革新。
数据集最近研究
最新研究方向
在金融量化分析领域,该数据集聚焦于交易量与股价回报率的动态关联机制研究。前沿探索方向已从传统技术指标分析转向高频数据与机器学习模型的深度融合,结合波动率聚类特征和投资者情绪因子构建多维度预测框架。当前热点集中于利用Transformer架构捕捉量价关系的非线性时序模式,同时结合ESG因子与宏观政策事件分析市场异常波动的传导机制。这类研究对算法交易策略优化和风险管理模型演进具有显著推动作用,为理解市场微观结构提供了新的理论视角。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作