TroveLedger

Hugging Face2025-12-27 更新2025-12-28 收录

下载链接：

https://huggingface.co/datasets/Traders-Lab/TroveLedger

下载链接

链接失效反馈

官方服务：

资源简介：

TroveLedger是一个公共金融时间序列数据集，专注于长期积累高质量的日内交易数据。该数据集提供多种时间分辨率（日、小时、分钟）的OHLC（开盘价、最高价、最低价、收盘价）和成交量数据，主要用于机器学习、量化研究和系统交易实验。与许多免费数据源不同，TroveLedger强调数据的连续性，尤其是分钟级数据的积累。数据集结构按类别、符号和时间间隔组织，数据来源于Yahoo Finance，并通过yfinance Python库获取。数据集适用于金融时间序列的机器学习、日内交易研究、OHLC数据的特征工程、需要密集日内历史数据的策略回测等。数据集目前包含来自全球多个主要指数（如S&P 500、EURO STOXX 50等）的成分股数据，并持续扩展中。

创建时间：

2025-12-18

原始信息汇总

TroveLedger 金融时间序列数据集概述

数据集基本信息

数据集名称: TroveLedger Financial Time Series Dataset
发布者: Traders-Lab
语言: 英语
许可证: 其他（非商业研究及教育用途）
任务类别: 时间序列预测、表格回归
标签: 金融、财务、雅虎财经、股票市场、股票、OHLC、时间序列、交易、股票、指数、历史数据、股票数据、市场数据、金融数据、yfinance

数据集内容与结构

数据特征:
- symbol: 股票代码（字符串）
- time: 时间戳（Unix 时间，int64）
- open: 开盘价（float64）
- high: 最高价（float64）
- low: 最低价（float64）
- close: 收盘价（float64）
- volume: 成交量（int64）
数据切分:
- daily: 日线数据
- hourly: 小时线数据
- minute: 分钟线数据
数据规模: 所有代码和分辨率总计超过 4000 万行，规模类别涵盖从小于 1K 到 100M 以下。
文件结构: /data/{category}/{symbol}/{symbol}.{interval}.valid.parquet
- {category}: 类别（例如 equities/us, indices/sp500, indices/eurostoxx50）
- {interval}: 时间间隔（days, hours, minutes）
- .valid 后缀表示文件已通过质量检查。

数据集特点与理念

核心目标: 专注于长期积累高质量日内数据，强调连续性而非频率。
数据差异: 通过持续积累分钟级数据，形成无间断的长历史序列，解决了免费数据源通常只能提供最近 7 天分钟数据的局限性。
更新理念: 优先保证累积分钟数据的连续性，不保证每日更新。分钟数据更新最频繁，小时和日线数据保证不早于一周。

数据来源与处理

数据来源: 通过 yfinance Python 库从雅虎财经获取。
指数成分股: 通过自定义的基于 API 的流程从维基百科页面自动提取。
数据处理: 获取日线、小时线和 1 分钟分辨率数据，验证完整性，以 Parquet 格式存储。质量检查会剔除缺口或异常值，仅包含 .valid 文件。

覆盖范围与增长

初始范围: 从早期初步数据集中继承了约 500 只股票。
增长方式: 逐步添加整个指数，覆盖范围将持续增长。
近期新增指数:
- 2025-12-24: SMI（瑞士市场指数，20 个成分股）
- 2025-12-23: NIFTY 50（印度 Nifty 50 指数，50 个成分股）
- 2025-12-22: FTSE 100（英国富时 100 指数，100 个成分股）
- 2025-12-19: S&P 500（美国标普 500 指数，503 个成分股）
- 2025-12-18: Hang Seng Index（香港恒生指数，82 个成分股）
- 2025-12-17: EURO STOXX 50（欧洲斯托克 50 指数，50 个成分股）

预期用途

主要用途: 训练和评估用于交易策略和自主 AI 机器人的机器学习模型。
其他用途: 时间序列分析、金融研究、教育项目、社区驱动的扩展。
适用场景: 金融时间序列的机器学习、日内和波段交易研究、OHLC 数据的特征工程、需要密集日内历史的策略回测、探索性量化分析。

限制与注意事项

数据新鲜度: 数据通常有几天延迟，非实时。
覆盖范围: 并非所有代码都有完整的历史数据，尤其是分钟分辨率或新添加的指数。
发展阶段: 数据集正在积极扩展中。
非财务建议: 该数据集仅用于研究和教育目的。
数据保证: 数据集按“原样”提供，不保证完整性或正确性。

许可与使用

许可: 仅限非商业研究和教育用途。
再分发: 未经原始数据提供者明确许可，不允许再分发此数据集。
完整条款: 参见 LICENSE 文件。

引用

如果使用 TroveLedger，请按如下格式引用：

@dataset{Traders-Lab_TroveLedger_2025, author = {Traders-Lab}, title = {TroveLedger Financial Time Series Dataset}, year = {2025}, url = {https://huggingface.co/datasets/Traders-Lab/TroveLedger} }

搜集汇总

数据集介绍

构建方式

在金融时间序列分析领域，高质量且连续的数据是模型训练的基石。TroveLedger数据集的构建采用了一种渐进式累积策略，其核心在于通过yfinance库从雅虎财经获取公开市场数据，并系统性地整合来自全球主要股票指数的成分股。数据采集覆盖日线、小时线和分钟线三种时间粒度，经过完整性验证与异常值清洗后，以Parquet格式存储。为确保数据连续性，该数据集特别注重分钟级数据的长期积累，避免因滚动窗口采集导致的碎片化历史，从而形成无缝衔接的时间序列，为量化研究与机器学习提供可靠基础。

特点

该数据集在金融数据资源中展现出独特优势，其最显著的特点在于强调时间序列的连续性与完整性，而非单纯追求更新频率。通过持续累积分钟级数据，TroveLedger克服了公开数据源通常仅提供短期高频数据的局限，形成了跨越数月的无缝日内历史记录。数据集结构清晰，按资产类别与时间粒度分层组织，并包含经过质量校验的“.valid”文件，便于直接用于模型训练。此外，其覆盖范围持续扩展，已纳入标普500、欧洲斯托克50、恒生指数等多个全球重要指数，体现了跨市场、多粒度的综合性数据特征。

使用方法

对于旨在开发交易策略或进行时间序列预测的研究者而言，TroveLedger数据集提供了直接的应用路径。用户可通过标准的Parquet读取工具加载数据，利用其OHLCV（开盘价、最高价、最低价、收盘价、成交量）字段进行特征工程与模型训练。数据集支持从单一标的分析到大规模跨市场模型构建等多种场景，特别适用于需要长周期日内数据进行回测的量化策略研究。用户可根据实验需求，灵活重命名或分割“.valid”文件以创建训练、验证及测试集，从而无缝集成至机器学习工作流程中。

背景与挑战

背景概述

金融时间序列分析作为量化金融与人工智能交叉领域的关键支柱，其数据质量直接决定了模型预测的可靠性与策略回测的有效性。TroveLedger数据集由Traders-Lab团队于2025年创建，旨在应对公开市场数据中高分辨率日内数据长期连续性的匮乏问题。该数据集通过持续累积来自雅虎财经的分钟级、小时级和日级OHLCV数据，构建了一个跨越全球主要股指成分股的统一时间序列库。其核心研究问题聚焦于为机器学习驱动的交易策略提供具备时间连续性与跨市场覆盖的可靠数据基础，从而推动自主交易智能体与量化模型的发展，对金融人工智能领域的研究与实践具有重要的基础设施价值。

当前挑战

在金融时间序列预测领域，模型训练面临数据非平稳性、市场机制转换以及高噪声信噪比等固有挑战，TroveLedger旨在为应对这些挑战提供高质量数据。然而，数据集构建本身亦存在多重困难：首要挑战在于维持分钟级数据的长期无间断连续性，这需要克服公共API通常仅提供短期滚动窗口的限制；其次，在全球化扩张过程中，确保不同市场、不同指数成分股数据的格式统一与质量验证是一项复杂的系统工程；此外，数据管道的可持续运行需平衡更新频率与对原始数据源的访问负荷，同时动态跟踪指数成分股变化以维持数据集的时效性与完整性。

常用场景

经典使用场景

在量化金融与机器学习交叉领域，TroveLedger数据集以其连续积累的高频分钟级OHLCV数据，为训练和评估基于深度学习的交易策略模型提供了经典场景。该数据集特别适用于构建时间序列预测模型，如长短期记忆网络（LSTM）或Transformer架构，以捕捉日内价格波动的复杂模式。研究人员可利用其无缝衔接的历史分钟数据，模拟高频交易环境，进行策略回测与风险分析，从而探索市场微观结构中的非线性动力学特征。

实际应用

在实际应用层面，TroveLedger为自主交易系统开发与算法策略优化提供了关键数据支撑。量化团队可基于其多分辨率数据构建特征工程管道，开发适用于日内交易或摆动交易的机器学习模型。金融科技公司可利用该数据集训练风险控制模块，模拟不同市场环境下的资产组合表现。此外，教育机构能够借助其结构化数据设计金融数据分析课程，培养学生处理真实市场数据的能力，为行业输送具备实践经验的量化分析人才。

衍生相关工作

围绕TroveLedger数据集已衍生出多项经典研究工作，主要集中在端到端交易智能体开发与市场状态识别领域。例如，研究者利用其连续分钟数据训练强化学习智能体，探索在多资产环境中实现夏普比率最大化的策略优化路径。同时，该数据集支持了基于图神经网络的跨市场关联分析，揭示了全球主要指数间的动态相关性结构。另有工作结合其高频数据开发了新型波动率预测模型，为期权定价与风险管理提供了更精确的输入参数。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集