Polymarket Data
收藏Polymarket 数据集概述
数据集基本信息
- 数据集名称: Polymarket Data
- 数据集地址: https://huggingface.co/datasets/SII-WANGZJ/Polymarket_data
- GitHub 仓库: https://github.com/SII-WANGZJ/Polymarket_data
- 作者: Zhengjie Wang, Leiyu Chao, Yu Bao, Lian Cheng, Jianhan Liao, Yikang Li
- 机构: Shanghai Innovation Institute, Westlake University, Shanghai Jiao Tong University, Harbin Institute of Technology, Fudan University
- 许可证: MIT License
- 数据规模: 总计 107GB,包含约 11 亿条记录
数据集内容与结构
数据集包含来自 Polymarket 预测市场的完整交易数据,涵盖从平台创立至今的交易记录。
核心数据文件
| 文件 | 大小 | 记录数 | 描述 |
|---|---|---|---|
orderfilled.parquet |
31GB | 2.933 亿 | 来自区块链 OrderFilled 日志的原始事件 |
trades.parquet |
32GB | 2.933 亿 | 经过处理并与市场元数据关联的交易记录 |
markets.parquet |
68MB | 268,706 | 市场信息和元数据 |
quant.parquet |
21GB | 1.703 亿 | 以统一 YES 代币视角整理的干净市场数据 |
users.parquet |
23GB | 3.406 亿 | 按做市商/接受者角色划分的用户行为数据 |
数据来源与采集
- 主要来源: 直接从 Polygon 区块链和 Gamma API 获取。
- 追踪合约:
0x4bFb41d5B3570DeFd03C39a9A4D8dE6Bd8B8982E0xC5d563A36AE78145C45a50134d48A1215220f80a
- 采集模式: 支持批量获取历史数据和持续实时同步(每 2 秒一次)。
数据模式
OrderFilled 事件(原始)
包含时间戳、区块号、交易哈希、合约名称、交易双方地址、资产 ID、成交数量、费用(maker_fee, taker_fee, protocol_fee)和订单哈希等字段。
交易数据(处理后)
包含市场 ID、选项名称(YES/NO 等)、交易价格(0-1)、美元/代币金额、买卖方向等字段。
quant.parquet(干净市场数据)
- 视角统一: 所有交易统一为 YES 代币视角。
- 数据过滤: 过滤掉合约交易,仅保留真实用户交易。
- 用途: 适用于市场分析、价格研究、时间序列预测。
users.parquet(用户行为数据)
- 记录拆分: 每笔交易拆分为两条记录(做市商和接受者)。
- 方向统一: 全部转换为买入方向(负金额表示卖出)。
- 用户排序: 按用户排序以便进行轨迹分析。
- 用途: 适用于用户画像、盈亏计算、钱包分析。
markets.parquet(市场元数据)
包含市场信息和结果代币详情,用于将交易记录与市场背景关联。
主要特点与优势
- 数据完整性: 包含 11 亿条交易记录,覆盖超过 26.8 万个市场。
- 直接数据访问: 直接从区块链获取,无第三方依赖。
- 多格式输出: 提供 5 种适用于不同研究需求的分析就绪数据集。
- 实时更新: 支持持续模式以同步最新数据。
- 恢复支持: 自动保存进度,可随时重启而无数据丢失。
- 高效存储: 采用 Parquet 格式并压缩,支持增量写入。
- 数据质量: 经过区块链 RPC 节点交叉验证,确保无区块缺失或间隙。
应用场景
- 市场研究与分析: 研究预测市场动态、价格发现机制、市场效率和信息聚合。
- 行为研究: 追踪个体用户交易模式、决策过程以及不同条件下的市场参与者行为。
- 数据科学与机器学习: 用于价格预测和市场预测的模型训练、时间序列分析的特征工程。
- 学术研究: 经济学、金融学、社会科学和计算机科学领域的相关研究。
快速使用指南
安装与下载
-
克隆仓库并安装依赖: bash git clone https://github.com/SII-WANGZJ/Polymarket_data.git cd Polymarket_data pip install -r requirements.txt
-
下载数据集: bash pip install huggingface_hub hf download SII-WANGZJ/Polymarket_data --repo-type dataset
使用模式
- 持续实时模式: 自动获取新区块并保持 24/7 运行。
- 批量历史数据: 获取特定范围的历史区块数据。
- 完整流水线: 依次获取市场数据、链上数据并处理数据。
- Python API: 在代码中作为库使用,进行数据获取、解码和提取。
数据处理流水线
Polygon 区块链 (RPC) Gamma API ↓ ↓ orderfilled.parquet markets.parquet ↓ trades.parquet (+ 市场关联) ↓ ├─→ quant.parquet (统一 YES 视角) │ └─→ 过滤合约 + 标准化代币 │ └─→ users.parquet (拆分做市商/接受者) └─→ 拆分记录 + 统一买入方向
引用
如需在研究中引用此数据集或工具包,请使用: bibtex @misc{polymarket_data_2026, title={Polymarket Data: Complete Data Infrastructure for Polymarket}, author={Wang, Zhengjie and Chao, Leiyu and Bao, Yu and Cheng, Lian and Liao, Jianhan and Li, Yikang}, year={2026}, howpublished={url{https://huggingface.co/datasets/SII-WANGZJ/Polymarket_data}}, note={A comprehensive dataset and toolkit for Polymarket prediction markets} }




