YC-Bench

arXiv2026-04-02 更新2026-04-03 收录

下载链接：

https://github.com/collinear-ai/yc-bench

下载链接

链接失效反馈

官方服务：

资源简介：

YC-Bench是由研究者团队开发的长期规划与一致性执行基准数据集，旨在评估AI代理在模拟初创公司运营中的战略连贯性。该数据集包含数百轮模拟决策任务，涉及合同选择、员工分配和现金流管理等复杂场景，数据生成基于部分可观测的马尔可夫决策过程（POMDP），通过对抗性客户和动态薪酬机制构建真实商业环境。其核心应用于测试大语言模型在长周期任务中的资源分配、风险管理和适应性决策能力，为解决AI代理在延迟奖励和复合决策场景下的性能瓶颈提供量化标准。

YC-Bench is a benchmark dataset for long-term planning and consistent execution developed by a research team, designed to assess the strategic coherence of AI Agents in simulated startup operations. The dataset contains hundreds of rounds of simulated decision-making tasks involving complex scenarios including contract selection, employee allocation and cash flow management. It is built upon Partially Observable Markov Decision Processes (POMDPs), and creates a realistic business environment through adversarial clients and dynamic compensation mechanisms. Its core use case is to test the resource allocation, risk management and adaptive decision-making capabilities of Large Language Models (LLMs) in long-cycle tasks, and to provide a quantitative standard for addressing the performance bottlenecks of AI Agents in scenarios featuring delayed rewards and compound decision-making.

创建时间：

2026-04-02

原始信息汇总

YC-Bench 数据集概述

数据集基本信息

数据集名称: YC-Bench (Your Company Bench)
核心定位: 一个用于LLM智能体的长周期确定性基准测试。
模拟场景: 智能体在一家AI初创公司中担任CEO，通过一个CLI工具在一个基于SQLite的离散事件模拟中进行为期1-3年的运营。
测试目标: 评估智能体在数百个回合中，持续管理复合决策的能力，包括声望专业化、员工分配、现金流和截止日期风险。

核心工作机制

模拟循环

智能体调用 yc-bench sim resume 将时间推进到下一个事件或月度发薪日。
引擎刷新任务进度，应用声望衰减，触发到期事件，执行发薪。
智能体读取唤醒事件并决策：接受任务、分配员工、派遣、取消。
重复此过程，直至破产或时间范围结束。

结束条件

模拟在以下情况结束：破产（发薪后资金<0）、时间范围结束（1-3年）或达到最大回合数（如果配置）。如果智能体连续10个回合未调用 sim resume，循环将自动强制执行一次。

关键机制

资金: 初始资本因预设而异（8万至25万美元）。月度工资自动扣除。任务奖励随声望缩放（基础值 × (1 + 缩放系数 × (声望 − 1))）。
四大领域: 研究 · 推理 · 数据/环境 · 训练。每个领域独立追踪声望，范围在[1.0, 10.0]。
领域声望门槛: 任务所需的声望会针对其每个所需领域进行检查。智能体必须广泛提升声望，而非仅在一个领域。
声望衰减: 每个领域每天都会损失声望。被忽视的领域会衰减回1.0。智能体必须跨领域保持活跃以维持市场准入。
声望缩放的工作量: 更高声望的任务需要按比例更多的工作。更高的声望带来更多报酬，但也要求更高的产能。
员工: 10名员工分为3个等级（初级/中级/高级）。智能体只能看到每位员工的等级和薪资，而非他们在各领域的技能效率。一个初级员工可能秘密地是某个领域的超级明星，因此智能体必须从任务进度观察中推断生产力。
吞吐量分割: 一名被分配到N个活跃任务的员工，其有效效率 = 基础效率 / N。专注优于广度。
任务成功: 按时完成奖励资金、声望、技能提升和1%的薪资涨幅（复合的工资压力）。延迟完成会惩罚声望。取消任务的惩罚更重。
进度检查点: 智能体在任务完成25%、50%、75%和100%时被唤醒，提供数据点以估算员工生产力。
草稿本: 数据库中的持久性笔记，可在上下文截断后保留（仅保留最近20轮对话）。

智能体交互接口

智能体通过 run_command("yc-bench <cmd>") 进行交互，所有命令返回JSON。

观察命令

yc-bench company status - 资金、声望、运营时间
yc-bench employee list - 等级、薪资、活跃任务
yc-bench market browse [--domain X] [--limit N] - 可用任务
yc-bench task list [--status X] - 你的任务
yc-bench task inspect --task-id UUID - 进度、截止日期、分配情况
yc-bench finance ledger - 交易历史
yc-bench report monthly - 月度损益

行动命令

yc-bench task accept --task-id UUID - 从市场领取任务
yc-bench task assign --task-id UUID --employee-id UUID - 分配员工
yc-bench task dispatch --task-id UUID - 开始工作
yc-bench task cancel --task-id UUID --reason "" - 取消任务（声望惩罚）
yc-bench sim resume - 推进时间
yc-bench scratchpad write/append/clear - 持久性记忆操作

配置与难度预设

实验预设以TOML文件形式存在于 src/yc_bench/config/presets/ 中，通过 --config 传递预设名称。所有预设使用10名员工和200个市场任务。难度来自截止日期压力、惩罚严重性、声望分布和任务规模。

配置	截止日期压力	声望模式	测试重点
tutorial	非常宽松	1	基本的接受→分配→派遣循环
easy	宽松	1	吞吐量意识
medium	中等	3	声望提升 + 领域专业化
hard	紧张	4	精确的ETA推理 + 产能规划
nightmare	极其紧张	5	复合工资压力下的持续完美表现

完整可调参数列表参见 default.toml。

技术栈与运行

编程语言: Python 3.12+
包管理工具: uv
支持的API提供商: 任何与LiteLLM兼容的提供商（如Anthropic, Gemini, OpenRouter, OpenAI）
输出: 在 db/ 目录下生成SQLite数据库，在 results/ 目录下生成JSON格式的推演记录。

引用信息

如果该数据集对您的工作有帮助，请引用： bibtex @misc{collinear-ai2025ycbench, author = {{Collinear AI}}, title = {{YC-Bench}: Your Company Bench — A Long-Horizon Coherence Benchmark for {LLM} Agents}, year = {2025}, howpublished = {https://github.com/collinear-ai/yc-bench}, note = {Accessed: 2026-02-25} }

搜集汇总

数据集介绍

构建方式

在人工智能代理面临日益复杂任务的背景下，YC-Bench采用部分可观测马尔可夫决策过程（POMDP）框架构建了一个为期一年的初创公司模拟环境。该数据集通过确定性但未知的状态转移和观测动态，模拟了包含数百个决策回合的商业运营场景。构建过程中，研究者设计了包含四个专业领域的任务市场、固定员工阵容、客户信任机制以及隐藏的对抗性客户等核心要素。环境采用20回合的上下文窗口限制，强制代理使用持久性草稿本作为跨上下文截断的唯一记忆机制，以此测试长期战略连贯性。模拟时钟由代理显式控制，允许在事件间隔内执行任意数量的战略调整行动。

特点

YC-Bench的核心特点在于其深度模拟了长期规划中的复合效应与延迟反馈机制。数据集通过对抗性客户设置——约35%的客户会隐秘地膨胀任务工作量——创造了必须从历史成败模式中推断隐藏信息的学习挑战。环境具备多重复合动态：成功完成任务会提升员工特定领域生产力但同时增加薪酬支出，客户信任的建立能减少未来工作量却会侵蚀与其他客户的关系。绩效通过年终公司资金的单一标量衡量，这反映了数百个关于任务选择、资源分配和风险管理的连续决策的累积影响。数据集的开源与可配置特性支持社区对前沿模型进行压力测试。

使用方法

使用YC-Bench时，研究者在模拟环境中部署大型语言模型代理，赋予其初创公司CEO的角色，目标是在一年模拟期内最大化最终资金。代理通过命令行工具接口与环境交互，每回合可执行浏览市场、接受任务、分配员工、调度任务和控制时间推进等操作。评估过程要求代理在部分可观测条件下，主动查询员工技能、市场任务和客户信任水平等信息。关键使用机制在于代理必须自主决定将哪些关键信息（如对抗性客户特征、员工专长、战略规则）记录于持久性草稿本中，以应对上下文截断。性能评估基于最终资金、破产率、客户信任构建效率及对抗性任务识别能力等多维度指标展开。

背景与挑战

背景概述

随着大型语言模型（LLM）代理处理日益复杂的任务，一个核心研究问题在于评估其能否在长周期内维持战略一致性，即在不确定性下规划、从延迟反馈中学习，并在早期错误产生复合影响时进行适应。YC-Bench 基准由 Collinear.ai 的研究团队于 2026 年 4 月提出，旨在填补这一研究空白。该基准模拟了代理在为期一年的时间跨度内运营一家初创公司的场景，要求代理在部分可观测环境中管理员工、选择任务合同并维持盈利能力。其核心研究问题聚焦于评估 LLM 代理的长期规划与一致执行能力，特别是面对对抗性客户和不断增长的薪资等复合动态时的战略连贯性。YC-Bench 通过引入确定但未知的转移与观测动态，为测试代理在延迟、稀疏奖励下的自适应执行能力提供了标准化评估框架，对推动具身智能与自主决策系统的研究具有重要影响力。

当前挑战

YC-Bench 旨在解决的领域核心挑战是评估 AI 代理在长周期、部分可观测环境中的战略规划与一致执行能力，这超越了传统图像分类或短序列决策任务的范畴。具体挑战体现在：其一，代理必须从稀疏且延迟的反馈中学习，识别隐藏的对抗性客户，并管理随时间复合的财务压力（如薪资增长），这对模型的长期推理与记忆保持提出了极高要求。其二，在数据集构建过程中，挑战在于设计一个既具有现实商业复杂性（如多领域任务分配、客户信任动态）又能确保实验可重复性与确定性的模拟环境。此外，基准需通过有限的上下文窗口（20轮对话）强制代理使用持久化便签本作为唯一记忆机制，这要求环境设计能有效测试代理自主决定信息持久化的能力，而非偏向特定记忆架构。

常用场景

经典使用场景

在人工智能代理的长程规划与一致性执行研究领域，YC-Bench作为一项开创性基准测试，其经典使用场景聚焦于评估大型语言模型代理在复杂、长周期商业模拟环境中的战略连贯性。该场景模拟一家初创公司为期一年的运营历程，要求代理在数百个决策回合中，于部分可观测环境下管理员工、选择任务合同并维持盈利能力。代理必须应对对抗性客户和不断增长的薪资压力，其早期决策的失误会产生复合性后果，从而精准检验模型在不确定性下的规划能力、从延迟反馈中学习的能力以及长期战略的适应能力。

实际应用

超越纯粹的学术评估，YC-Bench的设计理念紧密贴合现实世界的商业决策与运营管理。其实践应用场景可延伸至自动化商业智能体、AI辅助战略规划系统以及复杂资源管理平台的开发与测试。例如，在自动化运营领域，该基准可用于训练和筛选能够处理多任务分配、客户关系管理与现金流优化的AI代理。在风险投资与初创企业孵化场景中，经过YC-Bench评估的代理模型，其决策模式可为人类管理者提供风险预警与战略优化参考。该数据集通过模拟真实的商业压力与对抗性动态，为构建能够在动态、不确定环境中进行稳健长期规划的实用AI系统提供了宝贵的沙盒测试环境。

衍生相关工作

YC-Bench的提出建立在多项经典工作的基础之上，并与之形成了深刻的学术对话。它直接继承并拓展了Vending-Bench的核心思想，将评估范围从自动售货机业务扩展至更具复杂性的初创公司模拟，引入了多领域任务分配、隐藏技能率等新维度。该数据集也与PlanBench、BALROG等长视野规划基准相互呼应，但其基于仿真的确定性环境设计，使其能够有效避免预训练数据污染，更纯粹地测试模型的推理能力。此外，YC-Bench借鉴了Generative Agents中关于持久性代理记忆的架构思想，通过草稿纸机制测试模型自主决定信息持久化的能力。这些关联工作共同勾勒出评估AI代理长程连贯性与战略规划能力的学术脉络，而YC-Bench则在这一脉络中填补了商业模拟与复合决策动态评估的关键空白。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集