perp-data
收藏数据集概述:Chainticks Perp Data
该数据集提供每日更新的永续合约市场数据,专为量化研究、回测和市场微观结构分析设计。
数据来源与范围
- 当前覆盖链: Hyperliquid(链上/归档衍生数据)。
- 数据集类型: 5 个核心数据集,以分区 Parquet 格式存储。
- funding(资金费率)
- trades(交易记录)
- markets(市场信息)
- open_interest(未平仓合约)
- liquidations(清算数据)
- 更新频率: 每日追加新分区(UTC 日期分区)。
数据格式与访问
- 格式: 分区 Parquet 文件
.parquet。 - 时间戳: UTC ISO-8601 字符串,缺失值以 Arrow null 表示。
- 文件布局:
- 所有数据位于
hyperliquid_chain/目录下,按date=YYYY-MM-DD分区。 - 每个数据集对应一个子目录(如
trades/date=YYYY-MM-DD/),内部包含一个或多个part-*.parquet文件。 - 支持多分片(sharded):大型交易日可能有多个 part 文件。
- 所有数据位于
- 元数据文件:
_schema.json:数据模式定义。_manifest.json:可用文件、行数、时间范围清单。LATEST_DATE.txt:最新已发布 UTC 分区日期。
数据溯源
- 公共数据来源(
source_kind字段): 仅包含来自公开链上/归档状态的记录。 - 合法
source_kind值:on_chain_event(链上事件)、chain_rpc(链 RPC 调用)、hypercore_s3(Hypercore S3 存储)。 - 排除数据: API 来源的内部研究数据被明确排除。
已知限制
- 该数据集仅供研究和分析,不可作为交易 API 使用。
- 不应视为完整的交易所真相,使用前需检查 manifest、数据新鲜度和溯源信息。
- 大型交易日的数据可能被分散到多个
part-*.parquet文件中。
使用示例(代码片段)
-
Pandas(读取单分片): python DATE = "YYYY-MM-DD" URL = "https://huggingface.co/datasets/Chainticks/perp-data/resolve/main/hyperliquid_chain/trades/date={DATE}/part-0000.parquet" trades = pd.read_parquet(URL.format(DATE=DATE))
-
Pandas(通过 Hugging Face API 读取全部分片): python from huggingface_hub import HfApi repo = "Chainticks/perp-data" date = "YYYY-MM-DD" api = HfApi() files = [path for path in api.list_repo_files(repo, repo_type="dataset") if path.startswith(f"hyperliquid_chain/trades/date={date}/") and path.endswith(".parquet")] urls = [f"https://huggingface.co/datasets/{repo}/resolve/main/{path}" for path in files] trades = pd.concat([pd.read_parquet(url) for url in urls], ignore_index=True)
-
DuckDB(查询清算数据): python import duckdb date = "YYYY-MM-DD" url = f"https://huggingface.co/datasets/Chainticks/perp-data/resolve/main/hyperliquid_chain/liquidations/date={date}/part-0000.parquet" rows = duckdb.sql("select symbol, count(*) as n from read_parquet(?) group by 1 order by 2 desc", [url]).df()
-
Polars(读取未平仓合约数据): python import polars as pl date = "YYYY-MM-DD" url = f"https://huggingface.co/datasets/Chainticks/perp-data/resolve/main/hyperliquid_chain/open_interest/date={date}/part-0000.parquet" oi = pl.read_parquet(url)
许可证与元数据
- 许可证: CC-BY-4.0
- 任务类型: 表格回归(tabular-regression)
- 标签: finance、crypto、defi、trading、time-series 等。
- Croissant 元数据:
https://huggingface.co/api/datasets/Chainticks/perp-data/croissant




