perp-data

Hugging Face2026-05-11 更新2026-05-12 收录

下载链接：

https://huggingface.co/datasets/Chainticks/perp-data

下载链接

链接失效反馈

官方服务：

资源简介：

Chainticks Perp Data 是一个免费、每日更新的永续合约市场数据集，专为量化研究、策略回测和市场微观结构分析而设计。数据来源于公共区块链/存档（如Hyperliquid链），排除了交易所内部研究数据，确保公开可验证。数据以分区的Parquet文件格式组织，按日更新，包含资金费率、交易记录、市场数据、未平仓合约和清算记录五个核心子集。时间戳采用UTC ISO-8601标准格式。适用于AI智能体市场上下文提供、交易策略历史回放、金融特征工程和公开基准数据切片构建。用户可通过Pandas、DuckDB或Polars等工具直接读取Hugging Face上的Parquet文件使用，并附带模式定义文件、清单文件和最新分区日期指针以方便数据发现和验证。

Chainticks Perp Data is a free, daily-updated perpetual contract market dataset designed for quantitative research, strategy backtesting, and market microstructure analysis. The core data is sourced from public blockchain/archives (currently launched on the Hyperliquid chain), strictly excluding internal research data from exchange REST APIs to ensure public and verifiable data sources. Data is organized in partitioned Parquet files, updated daily with additions. The dataset includes five core subsets: funding rates, trades, market data, open interest, and liquidations. All timestamps use the UTC ISO-8601 standard format. It is suitable for various applications, such as providing readable market context for AI agents, historical playback of trading strategies, financial feature engineering, and building public benchmark data slices. Users can directly read Parquet files on Hugging Face using tools like Pandas, DuckDB, or Polars. The dataset comes with schema definition files (_schema.json), manifest files (_manifest.json, containing available files, row counts, and time ranges), and a latest partition date pointer (LATEST_DATE.txt) for easy data discovery and validation.

创建时间：

2026-05-10

原始信息汇总

数据集概述：Chainticks Perp Data

该数据集提供每日更新的永续合约市场数据，专为量化研究、回测和市场微观结构分析设计。

数据来源与范围

当前覆盖链： Hyperliquid（链上/归档衍生数据）。
数据集类型： 5 个核心数据集，以分区 Parquet 格式存储。
- funding（资金费率）
- trades（交易记录）
- markets（市场信息）
- open_interest（未平仓合约）
- liquidations（清算数据）
更新频率： 每日追加新分区（UTC 日期分区）。

数据格式与访问

格式： 分区 Parquet 文件 .parquet。
时间戳： UTC ISO-8601 字符串，缺失值以 Arrow null 表示。
文件布局：
- 所有数据位于 hyperliquid_chain/ 目录下，按 date=YYYY-MM-DD 分区。
- 每个数据集对应一个子目录（如 trades/date=YYYY-MM-DD/），内部包含一个或多个 part-*.parquet 文件。
- 支持多分片（sharded）：大型交易日可能有多个 part 文件。
元数据文件：
- _schema.json：数据模式定义。
- _manifest.json：可用文件、行数、时间范围清单。
- LATEST_DATE.txt：最新已发布 UTC 分区日期。

数据溯源

公共数据来源（source_kind 字段）： 仅包含来自公开链上/归档状态的记录。
合法 source_kind 值： on_chain_event（链上事件）、chain_rpc（链 RPC 调用）、hypercore_s3（Hypercore S3 存储）。
排除数据： API 来源的内部研究数据被明确排除。

已知限制

该数据集仅供研究和分析，不可作为交易 API 使用。
不应视为完整的交易所真相，使用前需检查 manifest、数据新鲜度和溯源信息。
大型交易日的数据可能被分散到多个 part-*.parquet 文件中。

使用示例（代码片段）

Pandas（读取单分片）： python DATE = "YYYY-MM-DD" URL = "https://huggingface.co/datasets/Chainticks/perp-data/resolve/main/hyperliquid_chain/trades/date={DATE}/part-0000.parquet" trades = pd.read_parquet(URL.format(DATE=DATE))
Pandas（通过 Hugging Face API 读取全部分片）： python from huggingface_hub import HfApi repo = "Chainticks/perp-data" date = "YYYY-MM-DD" api = HfApi() files = [path for path in api.list_repo_files(repo, repo_type="dataset") if path.startswith(f"hyperliquid_chain/trades/date={date}/") and path.endswith(".parquet")] urls = [f"https://huggingface.co/datasets/{repo}/resolve/main/{path}" for path in files] trades = pd.concat([pd.read_parquet(url) for url in urls], ignore_index=True)
DuckDB（查询清算数据）： python import duckdb date = "YYYY-MM-DD" url = f"https://huggingface.co/datasets/Chainticks/perp-data/resolve/main/hyperliquid_chain/liquidations/date={date}/part-0000.parquet" rows = duckdb.sql("select symbol, count(*) as n from read_parquet(?) group by 1 order by 2 desc", [url]).df()
Polars（读取未平仓合约数据）： python import polars as pl date = "YYYY-MM-DD" url = f"https://huggingface.co/datasets/Chainticks/perp-data/resolve/main/hyperliquid_chain/open_interest/date={date}/part-0000.parquet" oi = pl.read_parquet(url)

许可证与元数据

许可证： CC-BY-4.0
任务类型： 表格回归（tabular-regression）
标签： finance、crypto、defi、trading、time-series 等。
Croissant 元数据： https://huggingface.co/api/datasets/Chainticks/perp-data/croissant

搜集汇总

数据集介绍

构建方式

perp-data数据集由Chainticks团队从Hyperliquid链上及归档状态中提取永续合约市场数据构建而成。数据以每日追加的Parquet分区格式存储，覆盖资金费率、交易记录、市场概况、未平仓合约和清算记录五个核心子集。每条记录均明确标注数据来源类型（如on_chain_event、chain_rpc或hypercore_s3），确保仅纳入链上公共数据，排除API转售内容，通过Hugging Face仓库以标准化路径结构发布。

特点

该数据集专为量化研究、策略回测与市场微观结构分析设计，具备高时效性与开放性。每日更新的UTC时间分区保证了数据的及时性，而Parquet列式存储格式则大幅提升了大规模时间序列数据的读取与处理效率。此外，数据集附带了模式文件（_schema.json）、清单文件（_manifest.json）和最新日期指针（LATEST_DATE.txt），为用户提供了透明的元数据管理机制。

使用方法

用户可通过Hugging Face Hub便捷访问该数据集，支持Pandas、DuckDB和Polars等主流数据框架直接读取远程Parquet文件。例如，使用Pandas的read_parquet函数传入特定日期的URL即可加载交易数据；对于多分片文件，可借助HfApi枚举文件列表后合并读取。DuckDB和Polars用户也可通过类似的远程URL方式完成查询与分析操作，极大简化了区块链衍生品市场数据的获取流程。

背景与挑战

背景概述

在去中心化金融（DeFi）领域，永续合约（perpetual contracts）作为链上衍生品交易的核心工具，其市场数据的可获取性与完整性对于量化研究、策略回测及市场微观结构分析至关重要。Chainticks Perp Data数据集由Chainticks团队创建并持续维护，专注于提供来自Hyperliquid链的永续合约市场数据，涵盖资金费率、交易记录、市场状态、未平仓合约及清算事件等关键维度。该数据集以每日更新的Parquet分区格式发布，时间戳采用UTC ISO-8601标准，并严格限定数据来源为链上公开状态（包括链上事件、RPC调用及Hypercore S3），排除了任何来自交易所REST API的内部研究数据，从而确保了数据的可验证性与透明性。自发布以来，该数据集已成为DeFi量化研究领域的重要公共基准资源，尤其在链上衍生品市场分析中具有显著影响力。

当前挑战

该数据集所解决的领域问题在于，去中心化永续合约市场长期缺乏公开、结构化且易于访问的历史数据，研究者难以获得链上衍生品交易的完整图景，从而制约了市场效率分析、风险建模及策略开发。构建过程中面临的挑战包括：首先，数据必须严格源自链上公开状态，需从Hyperliquid链的归档数据中提取并清洗，确保其来源符合“on_chain_event”、“chain_rpc”或“hypercore_s3”等合规标识，排除任何API来源的私有数据，这要求对数据溯源进行精细化管理。其次，每日数据以分区Parquet文件存储，对于交易量较大的日期，数据会被分片至多个part-*.parquet文件中，使用者需通过_manifest.json清单文件来获取完整的文件列表、行数及时间范围，增加了数据整合的复杂度。此外，时间戳以字符串形式存在且缺失值以Arrow null表示，要求使用者具备对空值的处理能力，同时确保日期分区与UTC时间的一致性。最后，数据集明确声明不应被视为完整的交易所真相，提示研究者在依赖数据前需校验清单、数据新鲜度及源数据证明，这对用户的数据溯源能力提出了额外要求。

常用场景

经典使用场景

在去中心化金融（DeFi）与加密资产量化研究的交叉领域，perp-data数据集为永续合约市场微观结构分析提供了不可或缺的基础数据支持。该数据集完整覆盖了Hyperliquid链上永续合约的五大核心数据维度：资金费率、成交记录、市场状态、持仓量与清算事件，并以每日分区的Parquet格式发布，极大便利了研究者对高频交易信号的捕捉与策略回测。其经典使用场景聚焦于基于历史资金费率与持仓量变化的择时策略开发，以及利用清算事件的聚类特征构建风险预警模型，为链上衍生品市场的量化探索奠定了坚实的数据基石。

实际应用

在实际应用层面，perp-data数据集已然成为链上永续合约交易策略开发与风险管理工具的核心数据引擎。量化交易团队可借助其提供的每日分区数据，构建基于资金费率与未平仓合约变化的自适应做市策略，或利用清算事件的时空分布特征优化止损逻辑。去中心化金融风险管理平台则可将该数据集纳入实时监控系统，通过对历史清算模式的机器学习建模，及早识别潜在的系统性风险暴露。此外，链上数据分析平台亦可基于该数据集提供标准化的永续合约市场数据看板，赋能投资者进行多维度的市场情绪与流动性评估。

衍生相关工作

围绕perp-data数据集，一系列衍生工作正在催生更为丰富的加密金融研究生态。基于该数据集的历史资金费率与成交量记录，研究者可复现并改进经典的永续合约套利策略回测框架，如跨交易所基差套利模型。通过对清算事件与持仓量变化的时间序列分析，可衍生出适用于去中心化交易所的波动率预测模型与流动性风险评估指标。此外，该数据集的标准化Parquet格式与按日分区结构，天然适配于机器学习流水线与大规模特征工程，激励着社区开发面向链上衍生品市场的开源特征库与基准测试集，从而推动整个领域的研究门槛持续降低。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集