cftc-cot
收藏Hugging Face2026-05-16 更新2026-05-17 收录
下载链接:
https://huggingface.co/datasets/Chainticks/cftc-cot
下载链接
链接失效反馈官方服务:
资源简介:
Chainticks CFTC COT 是一个规范化的美国商品期货交易委员会(CFTC)持仓报告(Commitments of Traders, COT)历史期货数据集,数据来源于公开领域的CFTC档案。该数据集以Parquet文件格式组织,按日期分区存储,便于使用Pandas、DuckDB或Polars等工具进行金融数据分析。数据集仅包含标记为“public_domain”来源的数据行,不包含来自交易所REST/API的转售数据。它适用于作为追加式的市场背景信息,可用于加密货币和传统金融领域的量化研究、市场情绪分析或交易策略开发。使用前需读取LATEST_DATE.txt获取最新日期,检查_schema.json了解数据结构,并按日期加载对应的Parquet分区。时间戳默认为UTC时区,建议在下游分析中保留source_kind字段。Chainticks是独立实体,与数据所代表的协议、中继、交易场所或政府机构无隶属关系。
Chainticks CFTC COT is a standardized historical futures dataset of the U.S. Commodity Futures Trading Commission (CFTC) Commitments of Traders (COT) reports, sourced from publicly available CFTC archives. The dataset is organized in Parquet file format, partitioned by date, facilitating financial data analysis using tools such as Pandas, DuckDB, or Polars. It includes only data rows labeled as public_domain sources and excludes resale data from exchange REST/APIs. It is suitable as incremental market context information for quantitative research, market sentiment analysis, or trading strategy development in both cryptocurrency and traditional finance domains. Before use, read LATEST_DATE.txt to obtain the latest date, check _schema.json to understand the data structure, and load corresponding Parquet partitions by date. Timestamps default to UTC timezone, and it is recommended to retain the source_kind field in downstream analyses. Chainticks is an independent entity with no affiliation to the protocols, relays, trading venues, or government agencies represented by the data.
创建时间:
2026-05-11
原始信息汇总
数据集概述
数据集名称: Chainticks CFTC COT
许可证: CC-BY-4.0
标签: 金融、加密货币、Parquet、DuckDB、Pandas、Polars、Agent友好
数据集描述: 该数据集来源于美国商品期货交易委员会(CFTC)公开档案,包含经过标准化的交易者持仓报告(Commitments of Traders, COT) 中传统期货(legacy futures)的历史记录。数据为公开领域内容,由 Chainticks 整理发布,不包含任何交易所 REST/API 转售数据。
数据格式与访问: 数据以 Parquet 格式存储,可按日期分区加载,兼容 Pandas、DuckDB、Polars 等工具。示例加载代码如下:
python import pandas as pd DATE = "YYYY-MM-DD" URL = "https://huggingface.co/datasets/Chainticks/cftc-cot/resolve/main/legacy_futures/date={DATE}/part-0000.parquet" df = pd.read_parquet(URL) print(df.head())
数据集结构:
legacy_futures/date=YYYY-MM-DD/part-0000.parquet:按日期组织的 Parquet 数据文件_schema.json:数据集模式描述文件_manifest.json:数据清单文件LATEST_DATE.txt:记录最新数据日期的文本文件
数据来源与说明:
- 数据行必须具有
source_kind字段,且该字段值为public_domain。 - 所有时间戳视为 UTC 时间,下游分析中需保留
source_kind字段。 - 数据仅作为追加式市场上下文使用,建议先读取
LATEST_DATE.txt和_schema.json,再加载对应分区。
关联说明: Chainticks 为独立数据提供方,与数据中所涉及的任何协议、中继、交易场所或政府机构均无关联。
搜集汇总
数据集介绍

构建方式
该数据集通过标准化处理美国商品期货交易委员会(CFTC)公开领域的《交易者持仓承诺报告》(COT)中传统期货数据行构建而成。数据以Parquet格式存储,按日期分区组织,每个分区对应一个具体日期,且均来源于公共领域,不包含任何交易所REST/API转售数据。数据集附带模式文件描述字段结构,并提供了最新日期索引以便增量读取。
使用方法
使用者可通过构建含具体日期的URL链接直接读取特定日期的Parquet文件,例如使用Pandas的read_parquet函数加载分区数据。建议首先读取LATEST_DATE.txt获取最新日期,并检查_schema.json了解字段定义,再按需加载对应日期的分区。所有数据应以UTC时间处理,并在分析流程中保留source_kind字段以确保数据来源可追溯。
背景与挑战
背景概述
Chainticks CFTC COT数据集由独立数据研究机构Chainticks创建,旨在系统化整合美国商品期货交易委员会(CFTC)公开披露的持仓报告(Commitments of Traders)数据。该数据集聚焦于传统期货市场中的交易者持仓结构,通过规范化处理公共领域归档文件,为金融领域的量化分析提供标准化、机器可读的高频历史数据。自发布以来,该数据集凭借其代理友好的设计(如Parquet列式存储和分区时间戳)和开源许可(CC-BY-4.0),显著降低了金融研究人员获取和分析监管数据的壁垒,推动了市场微观结构、持仓行为与价格发现机制等领域的研究进展,尤其为加密资产与传统期货的跨市场对比分析奠定了数据基础。
当前挑战
该数据集所解决的核心领域挑战在于,CFTC原始持仓档案多以非结构化或分散格式发布,缺乏统一的实时更新机制和机器可读性,限制了投资者、学者和监管机构对市场参与者行为(如商业套期保值者与投机者的仓位变化)的实时追踪与历史回测。数据集构建过程中面临的挑战包括:从多个历史时期和格式的公共领域文档中解析、清洗并标准化海量行级记录,需应对日期粒度差异、字段命名冲突以及部分早期数据缺失等问题。此外,为确保数据溯源透明,数据集严格限定仅使用公共领域来源,避免引入交易所API转售数据,这增加了数据覆盖完整性和更新时效性的平衡难度。
常用场景
经典使用场景
在金融衍生品市场研究中,CFTC COT(交易者持仓承诺)报告是剖析市场结构与资金流向的经典数据源。Chainticks 所发布的 cftc-cot 数据集,将美国商品期货交易委员会(CFTC)公开领域的 Legacy Futures 持仓数据进行了归一化处理,以 Parquet 格式按日期分区存储,极大便利了量化研究者与市场分析师的应用。该数据集最为经典的使用场景是追踪不同类别交易者——如商业对冲者、大型投机者与小型散户——在各类期货品种上的多空持仓变化,从而透视市场情绪演变与趋势动能。研究人员常借助该数据集计算净持仓变化、持仓集中度指标以及交易者之间的分歧程度,以期揭示价格发现过程中的行为逻辑。
解决学术问题
该数据集有效解决了长期以来金融学术研究中数据获取成本高昂、格式不统一且难以复现的问题。传统上,研究者若要分析持仓行为对期货价格的影响,需要从CFTC官网逐期下载分散的PDF或CSV文件,再自行清洗与对齐,过程繁琐且极易出错。cftc-cot 通过提供一致、标准化且便捷的 Parquet 分区格式,极大降低了数据预处理的门槛,使得大规模纵向研究成为可能。这一贡献推动了关于持仓报告信息含量、交易者分割与市场微观结构、以及投机资金对商品价格波动影响等经典议题的深入开展,为理解期货市场的运行机制提供了坚实的数据基石。
实际应用
在实际金融分析与量化投资场景中,cftc-cot 数据集被广泛用于构建基于持仓数据的交易信号与风险监控系统。资产管理公司与商品交易顾问(CTA)常将其集成至日常决策流程中,通过监测大型商业交易者与资金管理者的持仓变动,捕捉趋势反转或持续性信号的蛛丝马迹。尤其是在原油、农产品、贵金属等流动性充裕的期货品种上,该数据集使得从业者能够实时跟踪投机净多头与商业套保力量的博弈态势,作为择时与仓位管理的辅助依据。此外,监管科技与金融数据服务商也可借此快速搭建持仓分析仪表盘,为客户提供市场深度解读。
数据集最近研究
最新研究方向
当前,cftc-cot数据集正成为金融衍生品市场情绪分析与机构持仓行为研究的前沿基石。随着加密货币与传统大宗商品期货的联动性日益增强,研究者利用该标准化的美国商品期货交易委员会(CFTC)持仓报告数据,结合高效列式存储格式Parquet与DuckDB等现代分析工具,探索大型投机者与商业套保者的头寸变化对市场波动率的预测能力。相关热点事件如2024年比特币ETF获批后,机构持仓结构重塑引发了对跨资产类别资金流动的量化建模需求,该数据集因其公共领域权威性与时间序列连续性,在智能体驱动的交易策略回测、宏观对冲因子构建等领域展现出独特价值,推动了从经验交易向数据驱动决策的范式演进。
以上内容由遇见数据集搜集并总结生成



