StakeBench

Name: StakeBench
Creator: 布里斯托大学
Published: 2026-05-26 01:38:30
License: 暂无描述

arXiv2026-05-26 更新2026-05-27 收录

下载链接：

https://polymarket.com

下载链接

链接失效反馈

官方服务：

资源简介：

StakeBench是由布里斯托大学研究团队构建的一个专注于市场承诺语言理解的双平台预测市场评估框架。该数据集整合了来自Polymarket和Manifold两个预测市场的560,876条评论，覆盖2,261个已结算市场，包含18个主题与平台的组合，数据规模庞大且具有时间序列特征。数据创建过程通过公开API采集评论线程，并基于交易历史重建用户持仓记录，将语言表达与可验证的持仓行为、后续交易动作及市场赔率轨迹进行关联，形成无人工标注的监督信号。该数据集旨在解决金融自然语言处理中语言理解与市场实际承诺脱节的问题，通过四个渐进式诊断任务评估模型对市场承诺信号、持仓方向、未来行动及集体赔率变化的识别能力，为金融文本的战略性分析提供实证基础。

StakeBench is a dual-platform prediction market evaluation framework focused on market commitment language understanding, developed by the research team at the University of Bristol. This dataset integrates 560,876 comments from two prediction markets, Polymarket and Manifold, covering 2,261 settled markets and spanning 18 topic-platform combinations, exhibiting large-scale volume and inherent time-series characteristics. The data creation process collects comment threads via public APIs, reconstructs users' position records based on transaction histories, and associates linguistic expressions with verifiable position behaviors, subsequent trading actions and market odds trajectories, thereby generating manually-unannotated supervision signals. This dataset aims to address the disconnect between language understanding and actual market commitments in financial natural language processing. It evaluates models' ability to recognize market commitment signals, position directions, future actions and collective odds changes through four progressive diagnostic tasks, providing an empirical foundation for strategic analysis of financial texts.

提供机构：

布里斯托大学

创建时间：

2026-05-26

搜集汇总

数据集介绍

构建方式

在预测市场这一独特领域中，语言表达往往与发言者的经济利益紧密交织。StakeBench的构建正是基于这一洞察，通过将来自Polymarket和Manifold两大平台的560,876条评论与2,261个已结算市场的公开记录相链接，开创性地以可观测的市场承诺行为替代传统的人工标注。具体而言，数据集的标签并非源于外部评判者的感知，而是通过重建每个评论者在评论时刻的持仓方向、随后的交易动作以及市场赔率轨迹来生成。从Polymarket的实盘资金数据到Manifold的虚拟货币记录，所有标签均通过回放公开的交易历史进行确定性重建，从而确保了监督信号的客观性与可复现性。

特点

StakeBench最显著的特点在于其以揭示偏好为基石的渐进式诊断框架。它设计了四个难度递进的任务：市场承诺检测、揭示方向识别、未来行为预测和集体赔率投射，形成了一个从个体持仓到市场整体的完整推理链路。尤为重要的是，数据集引入了承诺感知型指标，如承诺校准准确率与昂贵信号差值，用以区分表面情感与真正的利益绑定。此外，双平台设计使其能够捕捉不同激励制度下的互补信号——Polymarket提供更强的货币激励信号，而Manifold则拥有更密集的持仓覆盖，这种互补性极大地增强了诊断的全面性。

使用方法

使用StakeBench进行评测时，研究者需遵循固定提示协议和贪婪解码策略，以零样本方式向语言模型输出四个任务的预测结果。评估过程通过宏平均跨越18个主题-平台组合，防止高流量市场主导最终分数。每个任务都设有清晰的基准线：分类任务使用二项式显著性检验，集体赔率投射任务则与持仓加权基准进行对比。数据集还配套提供了完整的评估代码和有效性审计工具，用以检验模型究竟是利用了承诺信号还是单纯的结果预测线索，使得评估结果具有高度的可审计性和可解释性。

背景与挑战

背景概述

StakeBench由布里斯托大学Yunhua Pei、Jingyu Hu等研究人员于2026年创建，旨在解决现有金融自然语言处理基准依赖外部标注、无法捕捉说话者真实市场承诺的问题。该数据集从Polymarket和Manifold两个预测市场平台收集了2261个已结算市场的560,876条评论，将每条评论与可验证的头寸、交易行为和市场赔率轨迹相关联。通过设计四项渐进式诊断任务——市场承诺检测、揭示方向识别、未来行为预测和集体赔率预测，StakeBench开创性地以可观察的市场行为替代感知标签，为评估语言模型在金融市场中的承诺感知能力提供了首个可审计框架，对金融NLP领域产生了重要影响。

当前挑战

StakeBench面临的挑战主要体现在三个方面：首先，金融市场语言具有内在策略性，同一表述因说话者既有头寸不同而含义迥异，现有模型难以区分承诺信号与表面情绪；其次，数据构建过程中，Polymarket平台只有27.2%的评论可关联到验证头寸，且其评论API与活动数据API使用不同市场标识符，导致仅14.1%的定位评论可匹配后续交易记录；最后，在15个大语言模型评估中，10个模型在未来行为预测任务中崩溃至仅输出一到两个行为标签，且无任何模型在集体赔率预测中持续超越简单基线，表明模型在推理承诺语言的行为后果方面存在系统性缺陷。

常用场景

经典使用场景

在金融自然语言处理研究领域，StakeBench最经典的使用场景是作为一项面向市场承诺的渐进式诊断基准，系统性地评估大语言模型在预测市场语境下对立场绑定语言的理解能力。该数据集将用户评论与经过验证的持仓记录、交易行为及市场赔率轨迹相链接，构建了涵盖市场承诺检测、立场揭示识别、未来行动预测和集体赔率方向投影的四级递进任务体系。研究者可利用这一框架取代传统依赖人工标注的情感或立场分类，转而通过可观测的市场行为信号来衡量模型是否能够捕捉到说话者经济承诺对语言的影响，从而在更贴近真实金融博弈的维度上检验语言模型的推理深度。

实际应用

在实际应用中，StakeBench为金融风险监控、市场情绪分析和算法交易策略的评估提供了更具可操作性的分析工具。交易平台可利用该框架自动化检测评论中蕴含的市场承诺信号，识别发言者是否拥有实际持仓及其立场倾向，从而辅助判断信息的可信度与潜在市场影响。监管机构亦可借助该基准评估监控模型对金融市场中策略性语言的识别水平，防范利用虚假信息操纵市场。此外，该数据集为开发能够理解经济激励对语言塑造作用的下一个代表大会模型提供了标准化测试环境，推动金融AI从文本分析向行为理解演进，在合规审查、投资者保护与智能投顾等场景中具有广阔的应用前景。

衍生相关工作

StakeBench的出现催生了一系列聚焦于承诺绑定语言理解的相关研究工作。一方面，研究者基于其渐进式任务架构，开发了面向预测市场的承诺信号增强训练方法，探索如何通过引入持仓上下文信息来提升模型对策略性语言的推理能力。另一方面，该数据集启发了跨模态金融语义理解的新范式，衍生出结合持仓权重校准的承诺感知评估指标以及面向集体智慧推断的赔率方向基准。此外，受其揭示偏好监督思想的启发，若干工作开始在其他金融市场语料中尝试构建可验证的行为锚点，将承诺绑定推理扩展至股票论坛、加密社区等场景，推动领域朝向更严格的行为经济学验证框架演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集