five

etf-data

收藏
Hugging Face2026-05-15 更新2026-05-16 收录
下载链接:
https://huggingface.co/datasets/thecharttruth/etf-data
下载链接
链接失效反馈
官方服务:
资源简介:
skfolio Masterclass ETF 教学数据集是一个专为教育和研究目的设计的开源数据集,旨在为投资组合分析教学提供清洗过的金融市场数据。由 The Chart Truth 为 skfolio Masterclass 课程创建,核心目标是提供一个公开、无需认证的数据源,方便学习者在 Google Colab 等环境中直接使用,并演示如何将原始市场数据转换为适用于 skfolio 等投资组合优化库的格式。数据集包含四个主要 Parquet 格式数据文件:ETF 日度价格数据(涵盖 95 只 ETF 的 OHLCV 历史记录)、工具元数据(提供 ETF 符号级别的描述信息和交易状态)、ETF 流动性数据(提供基于过去 365 天的流动性指标)和指数日度价格数据(提供 SPX、VIX 和 NDX 的指数水平)。数据覆盖时间范围为 2021年5月12日至2026年5月13日,还包括一个 manifest.json 文件记录元数据。该数据集支持投资组合研究的教育工作流,适用于数据检查、价格转换、风险分析、相关性计算、回撤评估和资产配置优化等教学应用,但强调为教学导向,不适用于实盘交易或生产环境,使用限于教育和研究目的。

skfolio Masterclass ETF Teaching Dataset is an open-source dataset designed exclusively for educational and research purposes, aiming to provide cleaned financial market data for portfolio analysis teaching. Created by The Chart Truth for the skfolio Masterclass program, its core objective is to offer a public, authentication-free data source that allows learners to directly use it in environments such as Google Colab, and demonstrates how to convert raw market data into a format compatible with portfolio optimization libraries like skfolio. The dataset contains four primary Parquet-format data files covering different dimensions of information: 1. **ETF Daily Price Data** (`etf_daily_prices.parquet`): Contains historical daily OHLCV (Open, High, Low, Close, Volume) records for 95 ETFs, totaling 117,959 rows, which is used to teach price inspection and return calculation. 2. **Instrument Metadata** (`instrument_metadata.parquet`): Contains 98 records, providing descriptive information at the ETF ticker level and trading status fields (such as name, type, exchange, trading status, whether fractional share trading is supported, etc.), for universe inspection and data quality validation in teaching. 3. **ETF Liquidity Data** (`etf_liquidity_365d.parquet`): Contains 95 records, providing average/median trading volume, dollar trading volume and their rankings for ETFs calculated based on the past 365 days, used to teach liquidity screening and realistic portfolio universe design. 4. **Index Daily Price Data** (`index_daily_prices.parquet`): Contains 3,784 rows of records, providing daily index level data for SPX (S&P 500), VIX (Volatility Index) and NDX (NASDAQ 100), used to provide market context and benchmark/risk discussions. The data covers the time period from May 12, 2021 to May 13, 2026. The dataset also includes a `manifest.json` file for recording metadata of the data snapshot. This dataset is specifically designed to support educational workflows for portfolio research. Typical teaching applications include: learning data inspection and validation, transforming price data into wide-table format, converting prices into linear returns, conducting risk analysis, correlation calculation, drawdown assessment and asset allocation optimization based on returns. It is suitable for creating reproducible research examples, tutorial demonstrations for the skfolio library, and learning market data preprocessing workflows. It should be emphasized that this is an education-oriented dataset, intentionally compact, and may contain errors, outdated values or incomplete historical records. It does not constitute a complete market database, and is explicitly not intended for live trading, tax reporting, regulatory reporting or production environments. The dataset is provided under a custom license that permits educational and research use, but prohibits redistribution, resale and commercial use.
创建时间:
2026-05-13
原始信息汇总

数据集概述

名称:skfolio Masterclass ETF Teaching Data
地址:https://huggingface.co/datasets/thecharttruth/etf-data
许可证:自定义(需获得维护者书面许可方可再分发、转售或商业使用)
语言:英语
标签:金融、ETF、投资组合优化、时间序列、教育、Parquet格式
数据规模:100K < 记录数 < 1M


数据集构成

该数据集包含5个文件,专为教育用途设计,尤其适用于skfolio Masterclass教学笔记:

文件 行数 内容描述 主要教学用途
etf_daily_prices.parquet 117,959 95只ETF的每日OHLCV价格和成交量记录 原始市场历史,用于价格检查和收益率转换教学
instrument_metadata.parquet 98 ETF代码元数据和交易状态字段 投资组合构成检查、标签化和数据质量检查实践
etf_liquidity_365d.parquet 95 平均和中位数成交量及美元成交量排名 流动性筛选和现实投资组合设计
index_daily_prices.parquet 3,784 SPX、VIX和NDX指数的每日历史数据 市场环境背景和基准/风险讨论
manifest.json 1 快照元数据和行计数 轻量级审计追踪

数据集中不包含:原始API响应、账户数据、余额、持仓、交易记录、订单、凭证或交易指令。


数据集快照

项目
包含价格历史的ETF代码数 95
价格记录行数 117,959
元数据行数 98
流动性数据行数 95
指数数据行数 3,784
指数代码 SPX, VIX, NDX
日期范围 2021-05-12 至 2026-05-13
默认文件格式 Parquet

数据表结构

etf_daily_prices.parquet

列名 含义
date 交易日(用于分析和数据透视)
symbol ETF代码
asset_type 资产标签,固定为ETF
open, high, low, close 每日价格字段
volume 每日成交量

instrument_metadata.parquet

列名 含义
symbol 代码
asset_type 资产标签
name, type, exchange, exchange_name 来源提供的描述性字段
trading 交易状态字段
fractional_trading 碎股交易状态(如有)
option_trading, option_spread_trading, shorting_availability 工具能力字段

etf_liquidity_365d.parquet

列名 含义
rank_avg_daily_volume 按日均成交量排名
rank_avg_daily_dollar_volume 按日均美元成交量排名
symbol ETF代码
avg_daily_volume, median_daily_volume 成交量流动性估计
avg_daily_dollar_volume, median_daily_dollar_volume 美元成交量流动性估计
latest_volume, latest_close, latest_date 回看窗口内最新值
lookback_bars, lookback_days 流动性回看设置
history_bars, history_start, history_end 历史数据摘要

index_daily_prices.parquet

列名 含义
date 交易日
symbol 指数代码(SPX, VIX, NDX)
asset_type 固定为INDEX
open, high, low, close 每日指数水平
volume 成交量(如有)

预期用途与教学流程

适用场景:教育笔记、可复现的投资组合研究示例、skfolio教程和演示、学习如何检查、重塑和验证市场数据。

推荐教学流程

  1. 加载长格式价格表
  2. 验证代码、日期、重复值和缺失值
  3. 将价格数据透视成日期×代码矩阵
  4. 将价格转换为线性收益率
  5. 使用收益率进行风险、相关性、优化和验证分析

限制与注意事项

  • 数据集为紧凑型教学数据,可能包含错误、遗漏、陈旧值、调整值、供应商特性、转换错误、缺失元数据、幸存者偏差或不完整历史
  • 不适合作为实盘交易、税务报告、监管报告或生产投资操作的唯一数据源
  • 元数据字段可能为空,仅作为教学辅助工具,非完整证券主数据
  • 元数据表中的代码可能不在价格表中出现,用于教学真实世界数据检查

独立性与负责任使用

  • 本数据集为独立教育材料,未经任何券商、ETF发行人、指数提供商、交易所、数据提供商、Hugging Face、Google Colab或skfolio项目维护者认可、赞助或关联
  • 不构成金融、投资、税务或法律建议,不推荐买卖、持有或配置任何证券
  • 历史数据不能保证未来结果
  • 用户需自行验证数据质量、确认权利和许可,并决定使用方式是否适当

访问、更新与许可

  • 公共文件按自定义许可(LICENSE)提供,用于教育研究用途
  • 可能不定期发布更新,但不保证更新频率
  • 未经维护者和任何上游权利持有者书面许可,不得再分发、转售或商业使用
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集专为金融教育领域的投资组合研究设计,旨在为学习者提供一个无需登录即可在Google Colab中直接加载的公开数据源。其构建围绕ETF价格、元数据、流动性和市场指数四大核心表格展开,数据以Parquet格式存储,确保高效读取。价格表收录了95只ETF自2021年5月至2026年5月的日频OHLCV数据,共计逾11万条记录;元数据表提供98个标的的标签与交易状态信息;流动性表基于365天窗口计算日均成交量和成交额排名;指数表则包含SPX、VIX和NDX的日度价格序列。所有数据均经过清洗,剔除了原始API响应、账户与持仓信息,专注于教学场景的纯净性与可复现性。
特点
本数据集以教学导向为核心特点,结构紧凑且主题聚焦。其价格数据采用长表格式存储,便于学习者进行数据检查、透视与收益率转换练习。流动性评分与元数据字段设计精巧,能够直观地展示投资标的筛选与数据质量验证的真实流程。数据集刻意保留了元数据与价格表之间的符号不一致性,以此模拟实际投资研究中的数据清洗挑战。此外,数据集通过HuggingFace平台公开发布,支持无令牌下载,并预定义了四个命名配置(prices、metadata、liquidity、indexes),便于学习者快速分区加载,极大降低了入门门槛。
使用方法
使用者可以借助HuggingFace Hub的hf_hub_download函数直接下载Parquet文件,并通过pandas读取为DataFrame。推荐的教学流程首先是将长格式的价格数据通过透视表转换为以日期为行、股票代码为列的宽矩阵,随后运用skfolio库的prices_to_returns函数将其转化为收益率序列。此外,也可通过datasets库的load_dataset函数按配置名称加载各子表,确保在HuggingFace Dataset Viewer中保持数据独立。整个使用过程无需任何认证令牌,适合在Jupyter Notebook或Google Colab环境中进行交互式学习与组合优化实验。
背景与挑战
背景概述
etf-data数据集由The Chart Truth团队创建,旨在为教育投资组合研究提供结构化的交易所交易基金(ETF)数据源,主要发布于2020年代中期,服务于skfolio投资组合优化库的教学需求。该数据集涵盖95只ETF的日频价格、元数据、流动性排名及市场指数信息,日期跨度从2021年至2026年,专门用于演示多样化投资、流动性筛查、收益率转换、风险度量以及资产配置等核心金融课题。作为首个面向公众、无需登录即可在Google Colab中加载的ETF教学数据,它填补了金融量化教育中高质量、可复现数据源的空白,推动了投资研究教学流程的标准化与可访问性。
当前挑战
该数据集所解决的领域挑战在于金融教育中数据获取的碎片化与不规范性。传统教学往往依赖封闭API或付费数据库,学生难以自由获取大规模、整洁的市场数据来实践投资组合优化;构建过程中则需面对多重现实困境:跨ETF数据的时间对齐与缺失值处理、元数据表与价格表间可能存在的符号不一致(如实盘中部分标的在数据源中被发现但无历史行情)、数据清洗时需剔除价格异常和交易状态标记错误的记录,以及为保持教育简洁性而在规模上刻意舍弃完整市场覆盖,这导致数据可能存在幸存者偏差、供应商处理瑕疵以及更新频次无保障等局限性,须在教学场景中谨慎使用以培养学习者的数据批判思维。
常用场景
经典使用场景
etf-data数据集专为金融投资教育而生,尤其聚焦于交易所交易基金(ETF)的组合优化教学。其经典使用场景在于,学习者可通过加载清洗后的日频价格数据,结合skfolio库完成价格矩阵向收益率矩阵的转换,进而实践资产配置、风险度量、相关性分析及回撤计算等核心组合管理流程。该数据集提供了从数据质量检查、流动性筛选到市场基准对比的完整教学闭环,是理解现代投资组合理论在真实市场数据上落地的理想起点。
解决学术问题
该数据集精准解决了金融量化教育中长期存在的数据获取门槛问题,为学术研究提供了一个无需登录、开箱即用的标准化教学样本。它使研究者能够聚焦于方法论本身——如收益率预测、风险平价模型或动态资产配置策略——而不必被繁琐的数据清洗所困扰。通过涵盖ETF价格、元数据、流动性及市场指数等多维表格,它促进了关于数据质量、生存偏差及实盘约束等关键学术议题的探讨,显著提升了金融实证研究的可复现性与教学效率。
衍生相关工作
围绕该数据集已衍生出多项经典教育工作,其中最核心的是与skfolio库紧密结合的Masterclass系列教程,系统演示了如何利用ETF数据构建从简单分散化到复杂优化的投资组合。该数据集还常被用于教学案例的拓展,例如对比不同流动性阈值对组合绩效的影响、验证多元波动率模型的适用性,以及演示指数基准(如SPX、VIX)在风险归因中的角色。这些衍生工作共同构建了一个从理论到代码落地的完整知识链,推动了金融数据科学与教学的深度融合。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作