five

polymarket-users

收藏
Hugging Face2026-05-19 更新2026-05-21 收录
下载链接:
https://huggingface.co/datasets/vgregoire/polymarket-users
下载链接
链接失效反馈
官方服务:
资源简介:
Polymarket Users数据集是一个全面的链上预测市场研究数据集,涵盖了Polymarket(最大的链上预测市场)上所有用户的交易活动、利润和行为特征。数据集时间跨度为2022年11月11日至2026年3月29日,基于Polygon区块链上CTF Exchange合约的公开OrderFilled事件构建,并协调还原了最终用户交易、每日市值计价损益(PnL)以及丰富的用户级行为特征。数据集采用多表结构,包含元数据表(如市场元数据、事件元数据、预测代币映射)、用户特征与终端损益表(如user_features表包含约83列行为特征向量,user_pnl_summary表提供终端损益汇总)、每日损益面板(如pnl_daily及其变体)、损益变化面板(如每日和每月损益变化数据)以及交易级数据(如协调后的最终用户交易和聚合的OHLCV数据)。数据集适用于预测市场研究、用户行为分析、金融计量经济学和加密货币研究等任务。所有时间戳均采用UTC时间,并遵循特定的事件时间戳和快照时间戳约定。处理后的数据在CC-BY 4.0许可下发布,但源自Polymarket API的字段需遵守其使用条款。本数据集支持相关学术研究论文《Who Wins and Who Loses In Prediction Markets? Evidence from Polymarket》。

The Polymarket Users dataset is a comprehensive on-chain prediction market research dataset covering all user trading activities, profits, and behavioral characteristics on Polymarket, the largest on-chain prediction market. The dataset spans from November 11, 2022 to March 29, 2026, and is constructed based on public OrderFilled events from the CTF Exchange contract on the Polygon blockchain. It reconciles and restores final user trades, daily mark-to-market profit and loss (PnL), and rich user-level behavioral features. The dataset adopts a multi-table structure, including metadata tables (such as market metadata, event metadata, and prediction token mappings), user features and terminal profit and loss tables (e.g., the user_features table contains approximately 83 columns of behavioral feature vectors, and the user_pnl_summary table provides terminal profit and loss summaries), daily profit and loss panels (e.g., pnl_daily and its variants), profit and loss change panels (e.g., daily and monthly profit and loss change data), and trade-level data (such as reconciled final user trades and aggregated OHLCV data). The dataset is suitable for tasks such as prediction market research, user behavior analysis, financial econometrics, and cryptocurrency research. All timestamps are in UTC and follow specific event timestamp and snapshot timestamp conventions. The processed data is released under the CC-BY 4.0 license, but fields derived from the Polymarket API (such as market question text, descriptions, etc.) must comply with its terms of use. This dataset supports the related academic research paper Who Wins and Who Loses In Prediction Markets? Evidence from Polymarket.
创建时间:
2026-05-19
搜集汇总
数据集介绍
main_image_url
构建方式
Polymarket Users数据集源自去中心化预测市场平台Polymarket在Polygon链上的公开交易数据。研究者通过解析CTF Exchange智能合约发射的OrderFilled事件,结合Polymarket代理/安全钱包模式还原终端用户身份,进而对原始链上日志进行清洗、归并与计算加工。数据集涵盖自2022年11月11日至2026年3月29日期间所有已对账的终端用户交易记录,并基于每日按市值计价的损益模型,配合用户现金账户的模拟重建,生成了多维度用户级行为特征与损益面板数据,最终以Parquet格式分层存储。
特点
该数据集以多表关联的结构呈现,包含市场元数据、事件信息、预测代币映射、逾83维的用户行为特征向量、五种变体的终端损益汇总,以及稀疏编码的日频与类别日频损益面板。其独特之处在于支持从原始交易记录到高阶行为指标的灵活分析路径,包括对做市商与吃单方的区分、基于已结算市场的筛选、剔除手续费后的净损益计算,以及点差调整版本,为探究预测市场中不同参与者的盈亏分布与交易策略提供了坚实的数据基础。
使用方法
研究者可通过Hugging Face的datasets库或Apache Polars引擎直接加载数据。推荐使用Polars的惰性扫描模式高效读取日分区存储的大规模交易与损益表,并通过跨连接与前向填充技术将稀疏的损益面板重构为稠密的时间序列。数据集还提供自带的OHLCV聚合数据,支持对特定代币的行情分析。所有时间戳均以UTC对齐,且损益快照采用右边界标记法,便于与每日价格网格进行asof-join操作,从而简化量化研究中的数据处理流程。
背景与挑战
背景概述
Polymarket Users数据集由Pat Akey、Vincent Grégoire、Nicolas Harvie及Charles Martineau等学者于2026年构建,旨在系统性地分析去中心化预测市场中用户的交易行为与损益分布。作为最大的链上预测平台,Polymarket依托Polygon网络运行,其公开的链上数据为研究市场微观结构、用户异质性与信息聚合效率提供了前所未有的窗口。该数据集涵盖了自2022年11月平台上线至2026年3月的全部终端用户交易记录、逐日盯市损益及多维行为特征,支撑了关于预测市场赢家与输家的实证研究(Akey et al., 2026)。其发布为金融经济学、行为金融学及去中心化金融领域贡献了高颗粒度的结构化数据基础,推动了从信息有效性与市场设计角度对预测市场的深入理解。
当前挑战
该数据集所解决的领域核心挑战在于预测市场中用户行为的系统性量化难题。传统研究受限于平台中心化数据私密性,难以获取高分辨率的用户层面损益与交易动态。Polymarket Users通过链上事件重建,突破了数据访问壁垒,但其构建过程的挑战显著:需从CTF Exchange合约的OrderFilled事件中精确恢复终端用户身份,克服代理钱包与交易对手方识别复杂性;需设计稳健的逐日盯市损益算法,处理多品类市场、托管费策略变更及未平仓头寸的计价问题;同时需检测并处理潜在的虚假交易(如洗售交易),以平衡数据真实性与分析完整性,最终提供多维度、可复现的面板数据集以支持严谨的实证检验。
常用场景
经典使用场景
Polymarket Users数据集最经典的用途在于对链上预测市场参与者行为进行全景式剖析。研究者可利用其丰富的用户级特征表(user_features),结合日度损益面板(pnl_daily)与逐笔交易记录(trades),深入探究交易者的盈利模式、持有周期、做市与吃单偏好以及类别集中度等关键行为维度。该数据支持从终端损益汇总(user_pnl_summary)到小时级甚至五分钟级OHLCV颗粒度的多层级分析,为刻画预测市场生态中不同策略群体的异质性提供了坚实的数据基础。
解决学术问题
该数据集直接回应了预测市场领域长期存在的核心实证难题:谁在市场中获利、谁在亏损,以及背后的行为与信息机制。通过构建涵盖全部已对账终端用户的损益面板,并区分费用调整、已结算市场等不同口径,研究者得以分离信息优势、流动性提供与运气成分对最终收益的贡献。这解决了此前因缺乏完整用户级损益数据而难以检验的有效市场假说、异质性信念与信息聚合效率等经典学术问题,为行为金融与市场微观结构理论提供了来自链上自然实验的可靠证据。
衍生相关工作
该数据集衍生了一系列具有开创性的实证研究工作。最直接的成果来自Akey等人(2026)的工作论文《Who Wins and Who Loses In Prediction Markets?》,该研究利用本数据集首次对Polymarket平台上全部用户的损益分布进行了系统性分解,揭示了交易者之间的巨大不平等性与分类特异性。此外,后续工作可基于其细颗粒度的交易与OHLCV数据,开发基于去中心化交易所微观结构的日历效应、订单流不平衡与价格发现效率研究,以及结合预测市场特有的事件结构探讨信息到达与价格反应之间的动态关联。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作