KellyBench

Name: KellyBench
Creator: 通用推理公司
Published: 2026-04-30 21:47:22
License: 暂无描述

arXiv2026-04-30 更新2026-05-02 收录

下载链接：

https://openreward.ai/GeneralReasoning/KellyBench

下载链接

链接失效反馈

官方服务：

资源简介：

KellyBench是由通用推理公司开发的开放式非静态环境数据集，旨在评估语言模型在体育博彩市场中的长期序列决策能力。该数据集基于2023-24赛季英超联赛的真实市场赔率，包含历史数据、高级统计、阵容和公开赔率等信息，数据量涵盖100-150个比赛日。数据集通过Open Reward Standard协议构建，提供时间戳信息以支持离线分析。其核心应用领域为金融决策和人工智能适应性测试，旨在解决模型在动态环境中识别市场优势、管理风险并实现长期资本增长的挑战。当前测试显示前沿模型平均亏损8%，表明该领域存在显著改进空间。

提供机构：

通用推理公司

创建时间：

2026-04-30

原始信息汇总

好的，根据您提供的数据集详情页面内容，以下是该数据集的概述总结。

KellyBench 数据集概述

基本信息

名称: KellyBench
创建者: GeneralReasoning, Inc.
地址: https://openreward.ai/GeneralReasoning/KellyBench
描述: KellyBench 是一个开放式的、非平稳环境，用于评估智能体在体育博彩市场中的顺序决策能力。智能体被放置在一个模拟的英格兰足球超级联赛赛季中，目标是最大化长期资本增长。

核心能力

开发体育预测机器学习模型
针对真实公开博彩市场回测模型
凯利准则式资金管理与投注
迭代模型开发与赛季中自适应调整
长周期多轮执行（每个episode需 500-900 次工具调用）
跨越整个赛季的连贯闭环推理

任务分解

环境包含以下任务：

训练任务（3个）:
- 新千年: 2000/2001 赛季（起始资金 £100，97个比赛日）
- 危机后: 2010/2011 赛季（起始资金 £150，105个比赛日）
- 新冠赛季: 2020/2021 赛季（起始资金 £200，148个比赛日）
测试任务（1个）:
- 最近赛季: 2023/2024 赛季（起始资金 £220，120个比赛日）

奖励结构

类型: 密集的、完全可验证的奖励环境。
计算方式: 每个比赛日 t 的奖励是对数财富的变化值：rt = log(W_{t+1}) - log(W_t)。累积奖励为 log(最终财富/初始财富)。
确定性: 奖励由真实比赛结果和博彩赔率确定性计算得出，无需LLM评分器。

数据详情

智能体可访问两类历史数据，并按比赛日逐步披露：

比赛级数据: 自 1993/94 赛季起的英超联赛纵向数据集，包含日期、球队、全场结果，且时间越近数据越丰富（如半场比分，射门、犯规等统计数据，以及多家博彩公司的开盘赔率）。
球员级数据: 自 2008 年起，欧洲主要联赛和杯赛的每场比赛球员统计数据，包括阵容、进球、助攻、射门、预期进球等。

可用工具

环境工具（4个）: view_matches（查看赛程）、place_bet（下注）、view_bankroll（查看资金）、next_matchday（推进至下一个比赛日）。
命令行工具（7个）: bash, glob, grep, read, write, edit, todo_write，允许智能体在沙箱内编写脚本、训练模型和检查数据。

时间与算力

时间跨度: 模拟整个赛季的模型开发与交易。
资源消耗: 每个episode约需 500-900 次工具调用和 30-5 亿 tokens。运行一个GPT-5.4 (xhigh) 种子约需 $2,000。
算力配置: 沙箱配备 4 个 CPU 和 16GB 内存，预装标准 Python 数据科学库。

难度与表现

未饱和状态: 所有前沿模型在 2023/24 赛季任务中平均均亏损。
模型表现（2023/24赛季）:

模型平均投资回报率避免破产

Claude Opus 4.6 -11.0% 是

GPT-5.4 -13.6% 是

Gemini 3.1 Pro -43.3% 否
常见失败模式: 策略与代码执行脱节、无法处理新升班马球队、对平局和冷门系统性地误判、缺乏赛季中模型重训练、过早终止任务等。
精妙度评分: 引入 44 分制的专家精妙度评估量表，评估特征、投注、非平稳性处理和执行力。所有模型得分均低于 50%。

其他要求

外部依赖: 除 OpenReward 端点外，无需外部 API 密钥。
安全性: 智能体仅与历史公开赔率进行博彩互动，不存在直接安全风险。但需注意间接风险，即智能体可能将“最大化财富”的单一目标泛化到其他环境中。

搜集汇总

数据集介绍

构建方式

KellyBench的构建基于开放奖励标准（Open Reward Standard），通过模拟2023–24赛季英格兰足球超级联赛的完整赛程，构建了一个长时域序贯决策环境。环境以比赛日为单位推进，智能体在每轮先观察该比赛日的对阵与博彩公司收盘赔率，然后在沙盒计算环境中自主开发预测模型与投注策略，并针对每场比赛的胜平负或大小球市场投放注码。每轮结束后，系统根据真实比赛结果结算盈亏，更新资金池，并推送最新的比赛结果与球员统计数据，供智能体用于后续模型的迭代训练。整个交互循环持续约100至150个独比赛日，直至赛季终结。

特点

该数据集的核心特征在于其非平稳性与开放性。与传统的静态基准不同，KellyBench中的环境动态随时间演化——球队实力、市场效率乃至主场优势均会因伤病、转会或外部事件而改变，智能体必须持续适应这种变化。数据方面，系统提供了自1993赛季起跨越三十年的比赛级数据，以及自2008年起覆盖多个欧洲联赛的详尽球员级统计信息，包括预期进球（xG）等高级指标。奖励机制采用对数资金增长率，紧密契合凯利准则，激励智能体在追求长期复合增长的同时规避破产风险。此外，环境内置了防数据泄漏机制，明确要求智能体基于规则策略而非记忆进行决策。

使用方法

使用KellyBench时，研究者需通过OpenReward API端点接入环境。智能体通过四类环境工具与模拟世界交互：查看当前比赛日对阵与赔率、投放注码、查询资金余额、推进至下一比赛日。同时，系统提供七种通用CLI工具，支持在沙盒中编写脚本、训练模型、管理文件与任务清单。每个实验需运行多个随机种子以评估策略的稳健性。研究者可利用内置的52点评分标准对智能体策略的成熟度进行定性评估，涵盖特征工程、执行策略及非平稳性应对等多个维度。该基准特别适合评估长时域下智能体的自适应决策能力与模型泛化性能。

背景与挑战

背景概述

KellyBench 是由 General Reasoning, Inc. 的研究团队于2026年提出的一项基准测试，旨在评估语言模型在长时域、非平稳环境下的序列决策能力。该基准以2023–24赛季英格兰超级联赛为模拟背景，要求智能体在真实博彩市场的赔率与详细历史数据（包括高级统计数据、阵容信息及公开赔率）下，通过构建机器学习模型、识别市场边际优势并管理风险，以实现长期资金增长的最大化。不同于传统针对静态任务或狭窄目标的评估，KellyBench聚焦于开放目标、动态变化的环境，揭示了当前前沿模型（如GPT-5.4、Claude Opus 4.6）在持续学习和适应性决策方面的显著不足，为衡量智能体在复杂现实场景中的表现提供了重要范本。

当前挑战

KellyBench所应对的核心挑战在于，语言模型需从有限的归纳推理跃升至能够自我演化的闭环决策：首先，模型必须在高度非平稳且信息效率极高的博彩市场中，开发出能持续超越市场隐含概率的预测模型，而所有前沿模型在五个随机种子上均平均亏损（最优模型平均回报为-8%），部分模型甚至经历破产；其次，构建过程面临多重困难，包括模型需在缺乏联网能力的情况下，自主处理新升级球队带来的分布偏移、克服跨赛季的非平稳性（如疫情空场效应），并且要在长达120个比赛日的模拟中维持情境意识——多数模型未能实现赛季内的策略自适应，出现工具调用失败、过早声明任务完成等问题，暴露了其在长时域推理和闭环执行上的根本性短板。

常用场景

经典使用场景

在长时域序列决策的研究浪潮中，KellyBench 以其对非平稳、开放目标环境的深刻模拟而脱颖而出。该数据集的核心使用场景在于评估语言模型在体育博彩市场中的序贯决策能力——智能体被置入一个模拟的2023–24赛季英格兰足球超级联赛环境中，需基于详尽的比赛历史数据、球员统计与实时赔率，构建机器学习模型以识别市场定价偏差，并运用凯利准则进行仓位管理与风险控制，最终实现长期资本增长的最大化。

实际应用

在实际应用层面，KellyBench 的评估框架为量化金融与智能体部署提供了极具参考价值的压力测试场景。它模拟了一个具有真实市场摩擦（如庄家抽水、信息不对称）的动态博弈环境，能够有效衡量自主智能体在风险控制、模型迭代与策略执行一致性上的综合能力。这直接对应于现实世界中诸如程序化交易、自动化投研系统等需要持续学习与稳健运行的高风险决策系统，为检验AI代理在复杂、非稳态市场中的真实鲁棒性提供了标准化的评估工具。

衍生相关工作

KellyBench 的诞生催生了一系列围绕长时域、非平稳环境下智能体评估的衍生工作。它直接拓展了诸如 MLE-Bench、MLGym 等仅关注程序性或离线机器学习任务的研究方向，引入了对智能体在动态世界中进行闭环推理与适应性调整的衡量。其提出的“策略老练度”评分体系（sophistication rubric）为质性评估模型决策过程的成熟度提供了新思路。此外，该基准也激发了后续针对元认知能力、知识-行动鸿沟以及多智能体协作框架在复杂世界中的应用探索，成为连接实验室评测与现实部署的重要桥梁。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

模型	平均投资回报率	避免破产
Claude Opus 4.6	-11.0%	是
GPT-5.4	-13.6%	是
Gemini 3.1 Pro	-43.3%	否