OHLCV-1m

Hugging Face2025-07-15 更新2025-07-16 收录

下载链接：

https://huggingface.co/datasets/mito0o852/OHLCV-1m

下载链接

链接失效反馈

资源简介：

OHLCV-1m数据集提供了从1992年到2025年美国股市分钟级别的股票价格数据。数据集包含数千支美国股票跨越多个十年的OHLCV（开盘价、最高价、最低价、收盘价、成交量）蜡烛图数据。数据从Finnhub.io实时市场数据提供商获取，经过汇总和格式化，转换为清洁统一的Parquet文件，并上传到Hugging Face Hub以便访问。

The OHLCV-1m dataset provides minute-level stock price data for the U.S. stock market from 1992 to 2025. It contains OHLCV candlestick data (Open Price, Highest Price, Lowest Price, Closing Price, Trading Volume) for thousands of U.S. equities across multiple decades. The data is sourced from Finnhub.io, a real-time market data provider, and has been aggregated, formatted, and converted into clean, standardized Parquet files before being uploaded to the Hugging Face Hub for public access.

创建时间：

2025-07-15

原始信息汇总

OHLCV-1m: 美国股票市场分钟级K线数据 (1992–2025)

数据集概述

数据来源: Finnhub.io
时间范围: 1992年至2025年
数据频率: 分钟级
数据格式: Parquet文件
文件数量: 按月分割为多个文件

数据集结构

特征列

列名	数据类型	描述
`timestamp`	`datetime64[ns, UTC]`	分钟开始时间
`open`	`float64`	开盘价
`high`	`float64`	分钟内最高价
`low`	`float64`	分钟内最低价
`close`	`float64`	收盘价
`volume`	`float64`	分钟内成交量
`ticker`	`string`	股票代码

数据分割

训练集:
- 样本数量: 3,538,138
- 文件大小: 195,863,846字节
- 下载大小: 52,097,595字节

文件结构

数据按月分割为Parquet文件，命名格式为:

data/ohlcv_1992-01.parquet data/ohlcv_1992-02.parquet ... data/ohlcv_2025-05.parquet

使用方法

python from datasets import load_dataset

加载数据集

ds = load_dataset("mito0o852/OHLCV-1m", split="train")

转换为pandas DataFrame

import pandas as pd df = ds.to_pandas() print(df.head())

搜集汇总

数据集介绍

构建方式

OHLCV-1m数据集构建过程体现了金融时间序列数据处理的严谨性。该数据集基于Finnhub.io提供的原始交易数据，经过系统性的清洗与重组，将分散的月度.tar归档文件转化为标准化的Parquet格式。技术团队采用分钟级精度对每支股票的开盘价、最高价、最低价、收盘价及成交量进行精确对齐，确保时间戳统一采用UTC时区标注，最终形成跨时区可比的连续时间序列。数据覆盖1992至2025年区间，按月分割存储为独立文件，既保持数据完整性又便于分布式处理。

使用方法

该数据集的应用接口设计充分考虑了量化研究者的工作流程。通过Hugging Face数据集库的标准load_dataset函数即可实现流式加载，避免全量数据的内存占用。示例代码演示了如何快速转换为pandas DataFrame进行本地分析，保留原始数据的时间序列特性。研究人员可针对特定股票代码或时间范围进行切片查询，利用Parquet文件的谓词下推特性提升查询性能。对于跨月分析场景，建议采用迭代加载方式处理各月度文件，构建自定义的纵向分析管道。

背景与挑战

背景概述

OHLCV-1m数据集由Finnhub.io提供原始数据，涵盖了1992年至2025年间数千只美国股票的分钟级OHLCV（开盘价、最高价、最低价、收盘价、成交量）K线数据。该数据集由Mito0o852团队整理并发布在Hugging Face平台上，旨在为量化金融、算法交易和市场微观结构研究提供高质量的时间序列数据。其跨度为三十余年的高频数据，为分析市场波动性、流动性以及价格形成机制等核心问题提供了丰富的实证基础。该数据集的发布显著降低了获取标准化分钟级金融数据的门槛，对推动计算金融领域的研究具有重要价值。

当前挑战

在解决金融时间序列预测和算法交易策略开发等核心问题时，OHLCV-1m数据集面临着数据质量一致性、高频噪声过滤以及非平稳性处理等关键挑战。原始数据在聚合过程中需处理异常值、缺失值以及不同交易所的时区转换问题。构建过程中，技术挑战包括海量数据的存储优化、分钟级数据的时序对齐，以及保持跨三十余年数据格式的统一性。这些因素使得数据清洗和特征工程成为使用该数据集时的重要前置工作。

常用场景

经典使用场景

在金融时间序列分析领域，OHLCV-1m数据集因其高精度分钟级K线数据特性，成为量化交易策略回测的黄金标准。研究人员通过该数据集可精准模拟高频交易环境，验证动量策略、均值回归等经典算法在微观市场结构中的表现，尤其适用于捕捉美股市场中的闪电崩盘、流动性黑洞等瞬时现象。

解决学术问题

该数据集有效解决了金融工程领域三大核心难题：高频数据获取成本高昂、历史数据时间跨度不足、跨资产可比性差。其覆盖1992-2025年数千只美股的连续分钟数据，为市场微观结构研究提供了标准化基准，使得波动率聚集效应、价格发现机制等经典理论得以在统一框架下验证，显著提升了学术研究的可复现性。

实际应用

华尔街顶级对冲基金将该数据集深度应用于算法交易系统优化，通过分钟级成交量-价格耦合分析构建流动性预测模型。监管机构则利用其长周期特性监测市场异常，如2020年疫情期间的熔断事件分析。零售交易平台更将其作为教育用户理解技术指标实时演变的可视化素材。

数据集最近研究