polymarket-culture-data
收藏Hugging Face2026-04-03 更新2026-04-04 收录
下载链接:
https://huggingface.co/datasets/aliplayer1/polymarket-culture-data
下载链接
链接失效反馈官方服务:
资源简介:
Polymarket文化市场数据集是一个多结果预测市场数据集,专注于文化事件,特别是Elon Musk推文数量的市场预测,涵盖4天、7天和1个月的时间范围。数据集包含三个子集:'markets'(市场元数据,包括问题文本、解决方式、时间框架等)、'prices'(价格历史,以长格式存储,每个时间戳每个代币一行)和'ticks'(交易级别数据,记录单个交易事件)。数据集规模在1M到10M之间,每3小时自动更新一次。适用于时间序列预测和表格分类任务,特别适合研究预测市场行为、社交媒体影响和金融分析。数据集采用MIT许可证。
创建时间:
2026-03-29
原始信息汇总
Polymarket Culture Markets 数据集概述
数据集基本信息
- 数据集名称:Polymarket Culture Markets
- 托管地址:https://huggingface.co/datasets/aliplayer1/polymarket-culture-data
- 许可证:MIT
- 主要任务类别:时间序列预测、表格分类
- 数据语言:英语
- 数据规模:1M < n < 10M
- 更新频率:每3小时自动更新
数据集内容与范围
该数据集包含来自Polymarket预测市场的文化事件多结果预测市场数据。当前主要涵盖埃隆·马斯克推文数量相关的市场,时间范围包括4天、7天和1个月。
数据子集与结构
数据集包含三个配置(子集),均以Parquet格式存储。
1. markets - 市场元数据
- 文件路径:
data/markets.parquet - 描述:每个市场对应一行数据,包含问题文本、解决状态、时间范围以及一个将代币ID映射到结果标签的JSON
tokens映射。 - 关键字段:
market_id:Polymarket市场标识符question:市场问题文本crypto:事件类别(例如"ELON-TWEETS")timeframe:市场时间范围(4-day, 7-day, 1-month)volume:以USDC计的市场交易量resolution:市场解决状态start_ts:市场开始时间戳(秒级纪元时间)end_ts:市场结束时间戳(秒级纪元时间)condition_id:链上条件标识符tokens:代币ID到结果标签的JSON映射
2. prices - 长格式价格历史
- 文件路径:
data/prices/**/*.parquet - 描述:长格式的价格时间序列数据(每个时间戳每个代币对应一行),与使用宽格式的加密货币数据集不同。按
crypto和timeframe进行Hive分区。 - 关键字段:
market_id:Polymarket市场标识符timestamp:价格时间戳(秒级纪元时间)token_id:CLOB代币标识符outcome:结果标签(例如"10-19", "20-29", "Yes")price:结果价格(0.0-1.0)crypto:事件类别timeframe:市场时间范围
3. ticks - 交易级别成交记录
- 文件路径:
data/ticks/**/*.parquet - 描述:来自链上事件和WebSocket捕获的单个交易记录。模式与加密货币数据集的ticks表相同,按
crypto和timeframe进行Hive分区。 - 关键字段:
market_id:Polymarket市场标识符timestamp_ms:交易时间戳(毫秒级纪元时间)token_id:CLOB代币标识符outcome:结果标签side:"BUY"或"SELL"(以交易者视角)price:交易价格(0.0-1.0)size_usdc:以USDC计的交易规模tx_hash:交易哈希(WebSocket ticks记录为空字符串)block_number:Polygon区块号(WebSocket ticks记录为0)log_index:区块内的日志索引source:"onchain"或"websocket"spot_price_usdt:不适用于文化市场spot_price_ts_ms:不适用于文化市场
相关资源
- 生成管道:此数据集由polymarket-data-pipeline生成。
- 相关数据集:完整的管道文档请参见加密货币数据集(polymarket-crypto-updown)。
搜集汇总
数据集介绍

构建方式
在预测市场与文化事件交叉的领域,Polymarket Culture Markets数据集通过自动化数据管道系统性地整合了链上与实时流数据。该数据集依托polymarket-data-pipeline工具,以三小时为周期动态更新,从Polygon区块链捕获交易事件,并辅以WebSocket流捕捉高频市场活动。数据以Parquet格式存储,并采用Hive分区策略,依据事件类别与时间范围进行高效组织,确保了时间序列的完整性与查询性能。
特点
该数据集以多结果预测市场为核心,聚焦文化事件中的埃隆·马斯克推文数量预测,涵盖四日、七日及月度三种时间框架。其结构包含市场元数据、长格式价格历史与交易级明细三个子集,通过token映射机制支持复杂结果标注。区别于传统宽表格式,价格数据采用长格式存储,便于时间序列分析与机器学习建模,同时交易数据融合链上记录与实时流捕获,提供了微观市场行为的细粒度视角。
使用方法
使用者可通过Hugging Face数据集库直接加载markets、prices与ticks三个配置,或借助DuckDB执行高效SQL查询,实现跨分区数据的灵活提取。该数据集适用于时间序列预测、市场情绪分析及交易策略回测等任务,其结构化设计支持从宏观市场动态到微观交易模式的多元分析。结合自动化更新机制,研究者可构建实时监控系统,持续追踪文化事件在预测市场中的概率演化过程。
背景与挑战
背景概述
Polymarket文化市场数据集由研究人员aliplayer1于近期构建,专注于捕捉预测市场中文化事件的动态演化。该数据集源自Polymarket平台,聚焦于埃隆·马斯克推文数量等文化现象的预测市场,涵盖市场元数据、价格时间序列及交易级数据,为时间序列预测与表格分类任务提供结构化资源。其核心研究问题在于探究社会文化事件如何通过预测市场的集体智慧机制进行量化与预测,从而深化对社交媒体影响力与金融市场交互的理解,为行为经济学与计算社会科学领域注入新的实证基础。
当前挑战
该数据集旨在解决文化事件预测市场中的核心挑战,即如何准确建模高度动态且受社交媒体驱动的短期事件,其价格波动常受情绪化交易与信息不对称影响,增加了预测难度。在构建过程中,面临多源异构数据整合的复杂性,需协调链上交易记录与WebSocket流数据的实时同步,并确保时间戳一致性及数据分区效率。此外,文化事件标签的稀疏性与市场流动性差异,亦对数据质量与代表性构成潜在制约。
常用场景
解决学术问题
该数据集有效解决了预测市场研究中数据稀缺与粒度不足的学术问题。传统预测市场数据往往局限于二元结果或缺乏细粒度交易记录,而本数据集通过提供多结果分类、长格式价格序列及实时交易数据,使研究者能够深入探讨市场效率、信息聚合过程以及社交媒体影响力对市场定价的因果效应。其意义在于为行为经济学、计算社会科学和金融工程领域提供了实证基础,推动了预测市场作为社会传感工具的理论发展。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在预测市场算法与跨模态信息融合领域。例如,研究者利用其价格序列开发了基于深度学习的多结果时间序列预测模型,提升了文化事件概率估计的准确性;另有工作将市场数据与推特文本流结合,构建了端到端的社交媒体影响力量化框架。这些衍生成果不仅丰富了预测市场方法论,还促进了文化计算与决策科学交叉学科的发展。
以上内容由遇见数据集搜集并总结生成



