five

funding-divergence

收藏
Hugging Face2026-05-16 更新2026-05-17 收录
下载链接:
https://huggingface.co/datasets/Chainticks/funding-divergence
下载链接
链接失效反馈
官方服务:
资源简介:
Chainticks Funding Divergence 是一个专注于加密货币市场资金费率差异的衍生数据集。该数据集仅基于可公开获取的输入数据构建,包含跨交易所的资金费率差异行记录,旨在为金融分析和市场监控提供结构化、可扩展的数据支持。数据以Parquet格式存储,按日期分区组织(如spreads/date=YYYY-MM-DD/),便于高效查询和处理。数据集附带元数据文件,包括模式定义(_schema.json)、清单(_manifest.json)和最新日期指示(LATEST_DATE.txt)。所有数据行的source_kind字段均标记为derived,表明其为衍生数据,且不包含任何交易所的原始REST/API转售数据。数据集适用于多种数据处理工具(如pandas、polars、duckdb),并设计为智能体友好型,建议用作仅追加更新的市场上下文。使用时应读取LATEST_DATE.txt获取最新日期,检查模式文件后加载相应Parquet分区,并将时间戳视为UTC时区,同时在后续分析中保留source_kind字段。数据集采用CC-BY-4.0许可证,由独立的Chainticks机构维护,不与任何相关协议、交易所或政府机构存在隶属关系。

Chainticks Funding Divergence is a derivative dataset focused on funding rate divergences in the cryptocurrency market. It is built solely on publicly available input data and contains cross-exchange funding rate divergence row records, designed to provide structured, scalable data support for financial analysis and market monitoring. The data is stored in Parquet format, organized by date partitions (e.g., spreads/date=YYYY-MM-DD/), facilitating efficient querying and processing. The dataset includes metadata files such as schema definitions (_schema.json), manifests (_manifest.json), and a latest date indicator (LATEST_DATE.txt). All data rows have the source_kind field marked as derived, indicating it is derivative data and does not contain any original REST/API resale data from exchanges. The dataset is compatible with various data processing tools (e.g., pandas, polars, duckdb) and designed to be agent-friendly, recommended for use as an append-only market context. When using, read LATEST_DATE.txt to obtain the latest date, check the schema file before loading the corresponding Parquet partition, treat timestamps as UTC timezone, and retain the source_kind field in subsequent analysis. The dataset is licensed under CC-BY-4.0, maintained by the independent Chainticks organization, and has no affiliation with any related protocols, exchanges, or government agencies.
创建时间:
2026-05-11
原始信息汇总

数据集概述:Chainticks Funding Divergence

基本信息

  • 数据集名称:Chainticks Funding Divergence
  • 许可证:CC-BY-4.0
  • 标签:金融、加密货币、Parquet格式、DuckDB、Pandas、Polars、Agent-Friendly
  • 配置
    • 配置名:default
    • 数据文件路径:spreads/date=*/part-*.parquet

数据来源与性质

  • 该数据集包含跨交易所的资金费率背离指标,仅基于可公开获取的输入数据推导生成。
  • 所有数据行的 source_kind 必须为 derived(推导数据),不包含交易所的原始API/ REST接口转售数据。

数据文件结构

  • 数据集采用分区存储结构,路径格式为:

    spreads/date=YYYY-MM-DD/part-0000.parquet

  • 目录下包含以下元数据文件:

    • _schema.json:数据模式描述
    • _manifest.json:数据清单
    • LATEST_DATE.txt:最新数据日期

使用建议

  • 建议将本数据集作为只追加的上下文数据使用。

  • 加载前应先读取 LATEST_DATE.txt_schema.json 了解最新日期及模式。

  • 根据目标日期加载对应的Parquet分区(示例使用Pandas加载): python DATE = "YYYY-MM-DD" URL = "https://huggingface.co/datasets/Chainticks/funding-divergence/resolve/main/spreads/date={DATE}/part-0000.parquet" df = pd.read_parquet(URL)

  • 时间戳应视为UTC时间,并在下游分析中保留 source_kind 字段。

关联说明

  • Chainticks 是独立实体,不隶属于数据所涉及的协议、中继、交易所或政府机构。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集由Chainticks构建,专为金融领域设计,专注于加密货币跨交易所的资金费率差异。其构建方式基于仅可公开获取的输入数据,通过衍生计算得出跨交易所的资金费率差异行。数据以Parquet格式存储,按日期分区组织,每个分区文件位于spreads/date=YYYY-MM-DD/路径下,并配套提供_schema.json和_manifest.json文件以描述数据结构与元信息。数据来源限定为衍生类型,不包含任何交易所的直接REST/API转售数据,确保了数据来源的合规性与独立性。
特点
本数据集的核心特点在于其针对性与高效性。它聚焦于加密资产领域内的跨交易所资金费率差异,为套利策略研究、市场效率分析等任务提供直接支持。数据以列式存储格式Parquet组织,并建议通过Pandas、DuckDB或Polars等库进行加载,具备极佳的计算性能与扩展性。此外,数据集被设计为附加型市场上下文,用户可通过读取LATEST_DATE.txt获取最新分区日期,并遵循时间戳为UTC、保留source_kind字段的规范进行下游分析。数据集独立于所涉及的任何协议、交易所或政府机构,保证了中立性。
使用方法
使用本数据集时,建议首先读取根目录下的LATEST_DATE.txt文件以获取最新可用数据日期。随后,通过Pandas等数据分析库加载对应日期的Parquet分区文件,例如通过pd.read_parquet(URL)方式访问https://huggingface.co/datasets/Chainticks/funding-divergence/resolve/main/spreads/date={DATE}/part-0000.parquet。在加载数据前,可先查阅_schema.json文件以理解字段含义与数据类型。处理过程中,应将所有时间戳视为UTC时间,并保留source_kind字段以追踪数据来源类别,从而确保分析结果的准确性与可追溯性。
背景与挑战
背景概述
在加密货币领域,跨交易所的资金费率差异是衍生品市场微观结构的重要表征,直接影响套利策略与风险管理。Chainticks Funding Divergence数据集由独立数据提供商Chainticks于2024年构建,专注于记录来源于公开可计算输入的资金费率偏离值。该数据集以Parquet格式存储,支持高效分析,旨在为金融量化研究、去中心化金融协议及算法交易提供可靠的市场透明度工具。其贡献在于突破了传统中心化交易所数据孤岛的限制,为跨平台套利机会识别与系统性风险监控提供了标准化基准。
当前挑战
该数据集面临的核心挑战包括:1)市场复杂性与数据一致性:不同交易所的资金费率计算规则不一致,且部分交易所存在数据滞后或缺失,导致跨平台差异值的可靠提取需要复杂清洗与对齐算法;2)高频数据管理的技术难题:处理海量分钟级数据(以Parquet分区存储)时,需在存储效率和实时访问延迟之间取得平衡,同时确保append-only模式下数据不可篡改的审计要求;3)领域专用性带来的泛化限制:该数据集仅包含衍生值,不涉及原始交易所API数据,限制了其直接适用于依赖原始订单薄数据的场景,可能使部分研究难以复现完整市场生态。
常用场景
经典使用场景
在加密货币金融领域,资金费率是永续合约市场的核心机制,反映了多空双方的持仓成本与市场情绪。Chainticks Funding Divergence数据集专门捕捉跨交易所的资金费率差异,为研究人员提供了一种基于可公开输入数据构建的、经过推导的费率背离行。经典的用法是将该数据集作为市场微观结构分析的基础输入,例如通过按时间戳对齐不同交易所的费率序列,来研究资金费率在套利机会中的动态变化。数据集以Parquet格式按日期分区存储,便于使用Pandas、DuckDB或Polars等工具进行高效的时间序列回测与统计建模。研究者通常先读取LATEST_DATE.txt以获取最新数据日期,再加载对应分区的Parquet文件,确保分析始终基于增量更新的市场背景。
实际应用
在实际应用中,Funding Divergence数据集可直接赋能量化交易策略的构建与优化。交易团队可利用跨交易所的资金费率背离来识别潜在的套利窗口,例如当某交易所的永续合约资金费率显著偏离其他交易所时,可结合现货与期货价差设计多空套利头寸。数据集的按日分区设计便于集成到自动化的实时数据管道中,配合Agent-friendly的提示词片段,量化系统能以仅追加的方式获取市场背景,从而降低重复计算的开销。此外,风险管理部门可基于该数据集监控市场的极端情绪发散状态,提前预警连环多头或空头压力下的系统性风险,对于做市商和对冲基金而言,这是构建稳健资金费率套利策略的核心数据基础。
衍生相关工作
该数据集的出现催生了若干衍生研究方向与工具链。在学术层面,它推动了基于资金费率背离的统计套利模型、跨交易所流动性度量以及加密货币市场效率的实证检验等工作。技术实现上,与DuckDB、Polars等高效分析框架的兼容性,激发了社区开发针对Parquet分区的增量查询优化工具,例如自动修正时间戳的预处理脚本与模式检查模块。此外,数据集的独立来源属性(非交易所API重售)激励了数据清理与质量审计的相关研究,促使衍生出资金费率背离信号与链上数据联动分析的经典框架,为去中心化金融(DeFi)风险定价模型的验证提供了基准参照。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作