five

Polymarket Data

收藏
github2026-01-01 更新2026-01-05 收录
下载链接:
https://github.com/SII-WANGZJ/Polymarket_data
下载链接
链接失效反馈
官方服务:
资源简介:
Polymarket Data是一个包含11亿交易记录的全面数据集,涵盖了268K+市场的交易数据。数据集提供了多种分析就绪的格式,包括原始区块链事件、处理后的交易数据、市场信息和用户行为数据。适用于市场研究、行为研究和定量分析。

Polymarket Data is a comprehensive dataset containing 1.1 billion transaction records, covering transaction data for over 268K markets. It provides multiple analysis-ready formats, including raw blockchain events, processed transaction data, market information, and user behavior data. It is suitable for market research, behavioral research, and quantitative analysis.
创建时间:
2026-01-01
原始信息汇总

Polymarket 数据集概述

数据集基本信息

  • 数据集名称: Polymarket Data
  • 数据集地址: https://huggingface.co/datasets/SII-WANGZJ/Polymarket_data
  • GitHub 仓库: https://github.com/SII-WANGZJ/Polymarket_data
  • 作者: Zhengjie Wang, Leiyu Chao, Yu Bao, Lian Cheng, Jianhan Liao, Yikang Li
  • 机构: Shanghai Innovation Institute, Westlake University, Shanghai Jiao Tong University, Harbin Institute of Technology, Fudan University
  • 许可证: MIT License
  • 数据规模: 总计 107GB,包含约 11 亿条记录

数据集内容与结构

数据集包含来自 Polymarket 预测市场的完整交易数据,涵盖从平台创立至今的交易记录。

核心数据文件

文件 大小 记录数 描述
orderfilled.parquet 31GB 2.933 亿 来自区块链 OrderFilled 日志的原始事件
trades.parquet 32GB 2.933 亿 经过处理并与市场元数据关联的交易记录
markets.parquet 68MB 268,706 市场信息和元数据
quant.parquet 21GB 1.703 亿 以统一 YES 代币视角整理的干净市场数据
users.parquet 23GB 3.406 亿 按做市商/接受者角色划分的用户行为数据

数据来源与采集

  • 主要来源: 直接从 Polygon 区块链和 Gamma API 获取。
  • 追踪合约:
    • 0x4bFb41d5B3570DeFd03C39a9A4D8dE6Bd8B8982E
    • 0xC5d563A36AE78145C45a50134d48A1215220f80a
  • 采集模式: 支持批量获取历史数据和持续实时同步(每 2 秒一次)。

数据模式

OrderFilled 事件(原始)

包含时间戳、区块号、交易哈希、合约名称、交易双方地址、资产 ID、成交数量、费用(maker_fee, taker_fee, protocol_fee)和订单哈希等字段。

交易数据(处理后)

包含市场 ID、选项名称(YES/NO 等)、交易价格(0-1)、美元/代币金额、买卖方向等字段。

quant.parquet(干净市场数据)

  • 视角统一: 所有交易统一为 YES 代币视角。
  • 数据过滤: 过滤掉合约交易,仅保留真实用户交易。
  • 用途: 适用于市场分析、价格研究、时间序列预测。

users.parquet(用户行为数据)

  • 记录拆分: 每笔交易拆分为两条记录(做市商和接受者)。
  • 方向统一: 全部转换为买入方向(负金额表示卖出)。
  • 用户排序: 按用户排序以便进行轨迹分析。
  • 用途: 适用于用户画像、盈亏计算、钱包分析。

markets.parquet(市场元数据)

包含市场信息和结果代币详情,用于将交易记录与市场背景关联。

主要特点与优势

  • 数据完整性: 包含 11 亿条交易记录,覆盖超过 26.8 万个市场。
  • 直接数据访问: 直接从区块链获取,无第三方依赖。
  • 多格式输出: 提供 5 种适用于不同研究需求的分析就绪数据集。
  • 实时更新: 支持持续模式以同步最新数据。
  • 恢复支持: 自动保存进度,可随时重启而无数据丢失。
  • 高效存储: 采用 Parquet 格式并压缩,支持增量写入。
  • 数据质量: 经过区块链 RPC 节点交叉验证,确保无区块缺失或间隙。

应用场景

  • 市场研究与分析: 研究预测市场动态、价格发现机制、市场效率和信息聚合。
  • 行为研究: 追踪个体用户交易模式、决策过程以及不同条件下的市场参与者行为。
  • 数据科学与机器学习: 用于价格预测和市场预测的模型训练、时间序列分析的特征工程。
  • 学术研究: 经济学、金融学、社会科学和计算机科学领域的相关研究。

快速使用指南

安装与下载

  1. 克隆仓库并安装依赖: bash git clone https://github.com/SII-WANGZJ/Polymarket_data.git cd Polymarket_data pip install -r requirements.txt

  2. 下载数据集: bash pip install huggingface_hub hf download SII-WANGZJ/Polymarket_data --repo-type dataset

使用模式

  • 持续实时模式: 自动获取新区块并保持 24/7 运行。
  • 批量历史数据: 获取特定范围的历史区块数据。
  • 完整流水线: 依次获取市场数据、链上数据并处理数据。
  • Python API: 在代码中作为库使用,进行数据获取、解码和提取。

数据处理流水线

Polygon 区块链 (RPC) Gamma API ↓ ↓ orderfilled.parquet markets.parquet ↓ trades.parquet (+ 市场关联) ↓ ├─→ quant.parquet (统一 YES 视角) │ └─→ 过滤合约 + 标准化代币 │ └─→ users.parquet (拆分做市商/接受者) └─→ 拆分记录 + 统一买入方向

引用

如需在研究中引用此数据集或工具包,请使用: bibtex @misc{polymarket_data_2026, title={Polymarket Data: Complete Data Infrastructure for Polymarket}, author={Wang, Zhengjie and Chao, Leiyu and Bao, Yu and Cheng, Lian and Liao, Jianhan and Li, Yikang}, year={2026}, howpublished={url{https://huggingface.co/datasets/SII-WANGZJ/Polymarket_data}}, note={A comprehensive dataset and toolkit for Polymarket prediction markets} }

搜集汇总
数据集介绍
main_image_url
构建方式
在区块链预测市场研究领域,数据获取的完整性与可靠性至关重要。Polymarket数据集通过构建一套端到端的数据基础设施,直接从Polygon区块链的RPC节点和Gamma API获取原始交易日志与市场元数据。其核心流程涵盖从链上抓取OrderFilled事件,到利用智能合约解码器解析交易细节,并最终通过多阶段处理管道将原始日志关联市场信息、清洗并归一化为面向分析的标准化格式。整个过程支持实时连续抓取与断点续传,确保了数据采集的连续性及可复现性。
特点
该数据集以其规模宏大与结构精细而著称,囊括了自平台创立以来超过1.1亿条交易记录,总计107GB数据,覆盖26.8万个以上预测市场。其显著特点在于提供了五种针对不同研究场景的衍生数据集:包含原始链上事件的orderfilled文件、关联市场元数据的trades文件、经过清洗并统一为YES代币视角的quant文件、按用户行为拆分的users文件以及市场元数据markets文件。相较于第三方数据源,本数据集额外包含了区块号、合约名称、详细费用及订单哈希等链上原生字段,为深度微观分析提供了更丰富的维度。
使用方法
研究人员可通过Hugging Face平台直接下载完整的预处理数据集,或利用配套工具包自行抓取与更新数据。数据集以高效的Parquet格式存储,支持使用Pandas等工具进行快速读取与分析。工具包提供了命令行接口与Python API,支持批量历史数据抓取、实时连续同步以及完整的数据处理流水线。典型应用场景包括:通过quant数据集进行市场价格发现与效率研究;利用users数据集分析用户交易轨迹与损益;结合markets元数据进行市场分类与宏观趋势分析。示例代码展示了如何计算市场统计量、绘制价格演化图及分析用户头寸,为学术与量化研究提供了即用型基础。
背景与挑战
背景概述
Polymarket Data 数据集由上海创新研究院联合西湖大学、上海交通大学、哈尔滨工业大学及复旦大学的研究团队于2026年构建,旨在为预测市场研究提供一套完整的数据基础设施。该数据集聚焦于区块链驱动的预测市场平台Polymarket,其核心研究问题在于解析市场动态、价格发现机制以及集体智慧在信息聚合中的作用。通过直接抓取Polygon区块链上的交易日志并整合Gamma API的元数据,该数据集提供了从平台创立至今超过11亿条交易记录的全面视图,涵盖了26.8万多个市场。这一大规模、高细粒度的数据资源显著推进了经济学、金融学及计算社会科学领域对于去中心化预测市场的实证研究,为市场效率分析、行为金融建模以及时间序列预测等方向奠定了坚实的数据基础。
当前挑战
该数据集致力于解决预测市场领域的高频交易分析、市场效率评估以及群体行为建模等复杂问题,其核心挑战在于如何从海量、异构的区块链事件中精准提取并标准化交易信息。构建过程中的技术挑战尤为突出:首先,需设计高效的数据管道以实时同步Polygon区块链上持续产生的订单填充事件,并确保在分布式网络环境下数据的完整性与一致性;其次,原始日志缺乏语义关联,必须通过复杂的令牌映射与市场元数据链接,才能将低级的资产转移事件转化为具有经济学意义的交易记录;此外,处理超过107GB的原始数据并生成适用于不同研究场景的分析就绪格式(如统一YES代币视角或用户行为拆分),对数据清洗、转换与存储架构提出了极高的计算与工程要求。
常用场景
经典使用场景
在预测市场与去中心化金融交叉领域,Polymarket数据集为研究者提供了前所未有的微观交易数据。该数据集最经典的应用场景在于市场效率与价格发现机制的研究,学者们能够追踪超过26.8万个预测市场中11亿条交易记录的完整生命周期。通过分析订单簿动态、流动性变化以及信息融入价格的速度,研究者可以深入探究去中心化预测市场是否能够有效聚合分散信息,并验证其在现实事件预测中的准确性。这种高粒度的时间序列数据特别适合构建市场微观结构模型,揭示交易者行为如何影响价格形成过程。
衍生相关工作
基于该数据集衍生的经典研究涵盖多个学科前沿。在经济学领域,学者们构建了预测市场与传统金融市场关联模型,探索信息跨市场传导机制。计算机科学研究者开发了新型的区块链数据分析框架,实现了对去中心化交易所交易流的实时解析。社会学研究则聚焦于群体决策动态,通过分析数百万用户的交易模式揭示集体智能的形成条件。这些工作不仅推动了预测市场理论的发展,也为去中心化金融基础设施的优化提供了实证依据,催生了新一代的链上数据分析方法论。
数据集最近研究
最新研究方向
在预测市场与区块链数据融合的学术前沿,Polymarket数据集正推动多个交叉领域的研究深化。当前研究聚焦于利用其海量交易记录探索市场信息聚合机制与群体智慧效能,通过量化分析揭示价格发现过程中的行为偏差与市场效率。该数据集支持对去中心化预测市场中用户决策模式的微观实证,为行为金融学提供了丰富的链上证据。同时,结合机器学习方法,学者们正构建时序预测模型以捕捉市场动态,并借由用户行为轨迹研究风险偏好与交易策略的演化。这些探索不仅增进了对预测市场运作机理的理解,也为区块链经济学与计算社会科学提供了关键数据基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作