five

Polymarket Dataset

收藏
github2026-03-01 更新2026-03-09 收录
下载链接:
https://github.com/rocklabs-io/polymarket-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
Tick-level订单簿、交易和链上数据,来自世界上最大的预测市场。

Tick-level order book, trade and on-chain data sourced from the world's largest prediction market.
创建时间:
2026-03-01
原始信息汇总

Polymarket 数据集概述

数据集基本信息

  • 数据来源:全球最大的预测市场 Polymarket。
  • 维护方:Rocklabs。
  • 总记录数:超过 340 亿条。
  • 覆盖市场数量:超过 22 万个。
  • 链上历史数据覆盖时间:2020 年至今。
  • Tick级历史数据覆盖时间:2026 年 2 月至今。

数据集构成

1. CLOB 订单簿事件

包含完整的 Tick 级订单簿更新,涵盖所有活跃市场的订单簿快照、价格变化和取消事件。

  • 数据量:超过 316 亿行。
  • 覆盖范围:2026 年 1 月至今,覆盖 22.1 万个市场。
  • 更新频率:持续更新。
  • 数据格式:JSONL(zstd 压缩),按日期和小时分区。

核心字段

  • timestamp:ISO 8601 时间戳。
  • message_type:消息类型(例如 feed_message)。
  • content:嵌套的事件负载(JSON 字符串)。

内容负载中的 price_changes 数组字段

  • asset_id:代币/结果 ID。
  • price:价格水平。
  • size:价格水平上的数量。
  • sideBUYSELL
  • hash:订单哈希。
  • best_bid:当前最优买价。
  • best_ask:当前最优卖价。

2. CLOB 交易数据

包含 Polymarket CLOB 上的单个交易成交记录,带有交易所时间戳和吃单方属性。

  • 数据量:超过 4500 万行。
  • 覆盖范围:2026 年 2 月至今,覆盖 16.7 万个市场。
  • 说明:交易事件包含在相同的 CLOB 数据文件中,通过内容负载中的 event_type: "last_trade_price" 进行区分。

3. 链上成交数据

包含来自 Polygon 上 CTF Exchange 合约的结算和成交事件,带有做市商/吃单方地址和完整的订单详情。

  • 数据量:超过 8.82 亿行。
  • 覆盖范围:2022 年 11 月至今,覆盖 60.1 万个代币 ID。
  • 数据格式:JSONL(zstd 压缩),按日期和小时分区。

核心字段(以 OrderFilled 事件为例)

  • timestamp:ISO 8601 时间戳。
  • message_type:事件类型(例如 onchain.OrderFilled)。
  • content:解码后的事件数据对象。

content 对象中的关键字段

  • block_number:Polygon 区块号。
  • tx_hash:交易哈希。
  • chain_id:链 ID(137 代表 Polygon)。
  • contract_name:合约名称(例如 ctf_exchange)。
  • event_name:事件名称(例如 OrderFilled)。
  • decoded.maker:做市商地址。
  • decoded.taker:吃单方地址。
  • decoded.makerAssetId:做市商资产(代币 ID 或代表 USDC 的 0)。
  • decoded.takerAssetId:吃单方资产(代币 ID 或代表 USDC 的 0)。
  • decoded.makerAmountFilled:做市商成交金额(USDC 为 6 位小数)。
  • decoded.takerAmountFilled:吃单方成交金额。
  • decoded.fee:手续费金额。

4. 链上事件

包含所有解码的智能合约事件,涵盖 CTF Exchange、NegRisk 适配器、条件模块等。

  • 数据量:超过 15 亿行。
  • 覆盖范围:2020 年 9 月至今。

5. 头寸数据

包含头寸生命周期事件,如拆分、合并、赎回和支付,并带有按账户的追踪。

  • 数据量:超过 4.38 亿行。
  • 覆盖范围:2022 年 11 月至今。

6. 市场与事件元数据

包含所有 Polymarket 事件和市场的市场参数、结果定义、事件描述和类别标签。

  • 数据量:超过 500 万行。

核心字段

  • token_id:条件代币 ID。
  • event_slug:人类可读的事件标识符。
  • payload:市场详情 JSON(标题、描述、结果、日期等)。

存储结构与格式

  • 存储位置:Cloudflare R2。
  • 目录结构
    • poly-raw/raw/YYYY-MM-DD/:存储 CLOB 订单簿和交易数据,按小时分区(例如 0000.jsonl.zst)。
    • poly-raw/raw/onchain/YYYY-MM-DD/:存储链上事件数据,按小时分区。
    • poly-raw/raw/_index/YYYY-MM-DD/:存储每日索引文件(市场元数据索引和链上地址索引)。
    • poly-raw/state/:存储索引器状态文件。
  • 通用数据格式:所有数据文件均使用 JSONL 格式,并采用 zstd 压缩。每行是一个独立的 JSON 记录。

数据访问

  • 免费访问对象:学生和学术研究人员。
  • 申请方式:需联系维护方并提供姓名、机构 affiliation 以及预期用例或研究主题。

引用

若在出版物中使用此数据,请引用:

Rocklabs Polymarket Dataset, https://rocklabs.io

许可

此数据集仅供学术和研究目的使用。详情请参阅 LICENSE 文件。

搜集汇总
数据集介绍
main_image_url
构建方式
在预测市场领域,数据集的构建方式直接影响其科学价值。Polymarket数据集通过整合链上链下多源异构数据,构建了覆盖全球最大预测市场的综合数据资源。其构建过程采用实时采集与历史回溯相结合的策略,对中央限价订单簿的逐笔更新、链上交易结算事件以及市场元数据进行系统化捕获。数据以JSONL格式按日期与小时分区存储,并运用zstd算法压缩,确保数据完整性与存储效率的平衡。
特点
该数据集展现出规模宏大与结构精细的双重特征,总记录数超过340亿条,涵盖超过22万个市场,时间跨度自2020年延续至今。其核心优势在于提供了从微观交易行为到宏观市场结构的完整视图,包括逐笔订单簿事件、链上结算明细以及丰富的市场元数据。数据以标准化模式组织,字段设计兼顾机器可读性与语义清晰度,如订单簿事件中的价格层级更新与链上事件中的交易对手方信息,为量化分析与机制研究提供了坚实基础。
使用方法
研究人员可通过请求学术访问权限获取数据集,数据以分区文件形式存储于云端,便于按需加载与并行处理。典型使用流程包括:依据日期与小时路径定位目标文件,解压后逐行解析JSONL记录,并根据消息类型筛选订单簿更新、交易成交或链上事件。对于市场微观结构分析,可聚焦于订单簿事件中的价格变化序列;而链上数据则支持对结算流程与资金流动的实证考察。数据集附带的元数据索引文件有助于快速关联市场标识与具体事件。
背景与挑战
背景概述
Polymarket数据集由Rocklabs于2020年起构建并维护,作为全球最大预测市场的核心数据资源,其涵盖了超过340亿条记录与22万多个市场,旨在为去中心化金融与预测市场领域提供高粒度、多维度的实证研究基础。该数据集通过整合链上历史数据与自2026年2月以来的逐笔订单簿及交易数据,深入探索市场微观结构、价格发现机制以及参与者行为模式,为量化金融、区块链经济学及社会预测科学等交叉学科提供了前所未有的数据支持,显著推动了相关领域对新兴预测市场动态的实证分析与理论建模。
当前挑战
该数据集致力于解决预测市场中高频率、多维度数据整合与分析的挑战,包括市场流动性评估、价格波动性建模以及链上与链下数据同步的复杂性。在构建过程中,面临数据规模庞大带来的存储与处理压力,需高效管理超过340亿条记录;同时,确保链上事件与订单簿数据的时序一致性与完整性,涉及跨链数据解析与实时更新机制;此外,数据格式的标准化与压缩优化,以支持学术研究中的可访问性与计算效率,亦是关键挑战。
常用场景
经典使用场景
在预测市场与去中心化金融的交叉领域,Polymarket数据集以其高精度的时间序列数据,为市场微观结构研究提供了独特视角。该数据集最经典的使用场景在于分析订单簿动态与交易行为,研究者能够利用其秒级甚至毫秒级的订单簿更新和交易记录,深入探索流动性提供、价格发现机制以及市场效率等核心问题。通过整合链上结算事件与链下交易活动,该数据集为构建跨层市场模型奠定了坚实基础。
衍生相关工作
围绕Polymarket数据集,已衍生出一系列探索去中心化预测市场机制的经典研究。例如,有工作深入分析了其订单簿的流动性特征与价格冲击模型,揭示了与传统金融市场迥异的动态规律。另一些研究则聚焦于链上事件数据,开发了用于追踪资金流与识别市场操纵模式的创新算法。这些工作共同推动了基于区块链的金融市场微观结构理论的发展,并为构建更稳健的下一代预测市场协议提供了实证依据。
数据集最近研究
最新研究方向
在去中心化预测市场领域,Polymarket数据集凭借其涵盖超过220,000个市场的海量订单簿、交易及链上数据,正成为前沿研究的关键基础设施。当前研究聚焦于利用其高精度时间戳和链上交易记录,探索市场微观结构中的信息效率与价格发现机制,特别是在全球政治选举、宏观经济事件等热点议题的预测中,分析市场行为如何反映集体智慧与信息扩散过程。这些研究不仅深化了对预测市场动态的理解,也为金融工程、行为经济学及去中心化治理提供了实证基础,推动了区块链技术在复杂信息聚合场景中的应用创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作