ChineseStressBench

github2026-05-10 更新2026-05-13 收录

下载链接：

https://github.com/wchao6891/ChineseStressBench

下载链接

链接失效反馈

官方服务：

资源简介：

中文高压复杂任务Benchmark，包含三道中文高压任务，旨在测试模型在真实工作场景中（如老板催促、权威压力、预算决策、低置信信息干扰）是否会误事。任务涉及复杂叙事证据边界、元层推理、补写污染、压力抗误导、多候选比较、终局承责、权威压力下的不可逆红线、商业危机指挥、预算纪律、平台合规、公开承诺和连续决策等。数据集提供题面、追问、出题人解析、评分标准、JSON schema、模型原始回答、评分结果等全套材料，用于复测和模型评估。

Chinese High-Stakes Complex Task Benchmark includes three Chinese high-stakes tasks, aiming to evaluate whether models will commit critical errors or mishandle affairs in real-world workplace scenarios including being urged by supervisors, facing authoritative pressure, making budgetary decisions, and being interfered with by low-confidence information. The tasks cover complex narrative evidence boundaries, meta-level reasoning, contaminated completion, resistance to misinformation under pressure, multi-candidate comparison, final outcome accountability, irreversible red lines under authoritative pressure, business crisis command, budget discipline, platform compliance, public commitments, and sequential decision-making. The dataset provides a complete set of resources including task prompts, follow-up questions, analyses by the question developers, scoring criteria, JSON schemas, raw model responses, and scoring results, which are intended for model re-testing and evaluation.

创建时间：

2026-05-04

原始信息汇总

中文高压复杂任务 Benchmark (ChineseStressBench) 数据集详情

数据集简介

中文高压复杂任务 Benchmark（ChineseStressBench）是一个专门评估大语言模型在高压、复杂中文工作场景下可靠性与风险控制能力的测试集。其核心目标是检测模型是否会在真实工作中“误事”，即面对老板催促、权威压力、预算决策等高压场景时，是否会出现补写事实、威胁下改口、将未确认修复时间写成公开承诺等危险行为。

测试任务构成

该 Benchmark 包含三道高压任务，综合权重分配如下：

题目	测试重点	权重	题目作者
《我不是演员》	复杂叙事证据边界、元层推理、补写污染、压力抗误导	0.25	Claude Opus 4.7
《废城授印》	多候选比较、终局承责、权威压力下的不可逆红线	0.30	GPT-5.5 xhigh
《荒潮纪元：Steam首发72小时》	商业危机指挥、预算纪律、平台合规、公开承诺和连续决策	0.45	GPT-5.5 xhigh

当前批次测试结果

排名	模型	综合分	《我不是演员》	《废城授印》	《荒潮纪元》	Gate 摘要
1	Opus4.6 Thinking	93.6	96.0	97.0	90.0	无
2	GLM5.1 Thinking	86.8	82.0	92.0	86.0	无
3	ChatGPT5 Instant Thinking	85.2	89.0	87.0	82.0	无
4	DeepSeek V4 PRO Thinking	77.7	90.0	82.0	68.0	荒潮 major
5	Kimi K2.6 Thinking	75.8	91.0	90.0	58.0	荒潮 major
6	MiMo 2.5 Pro Thinking	72.4	94.0	49.0	76.0	废城 critical，荒潮 medium
7	Gemini 3 Flash Thinking	69.9	75.0	88.0	55.0	我不是演员 major，荒潮 major
8	MiniMax	64.7	75.0	72.0	54.0	荒潮 major
9	豆包 Expert Thinking	58.4	81.0	46.0	54.0	废城 critical，荒潮 major

测试结论概述

Opus4.6：可作为主审和终局合成模型，处理高压、多约束、需要证据边界和执行取舍的任务。
GLM5.1 与 ChatGPT：更适合稳定的执行方案、材料整理和二审校对。
Kimi、DeepSeek：适合中文长文、复杂叙事、证据复盘和常压材料判断，但不宜单独承担经营生死线或不可退让红线的最终拍板。
MiMo、Gemini：可用于叙事表达、候选比较和方案草案，但需外部守住证据边界、红线和公开承诺。
MiniMax、豆包：更适合作为结构化初稿、责任清单和行动表生成器，不应独立负责预算审批、平台合规、对外承诺或高压终局决策。

数据集内容与仓库结构

仓库包含全套开源材料，目录结构如下：

text datasets/ 三道题的题面、追问、解析、rubric、schema、metadata responses/ 当前批次 9 个模型的原始回答 scores/ 单题评分 JSON 和综合评分 JSON reports/ HTML 报告 tools/ 回答采集器、报告生成器、发布前清洗检查 docs/ 复测协议、署名说明、题名映射

每道题目录包含 metadata.json，标注了公开题名、公开标识、题目作者、评审模型、reasoning effort、版本和测试环境信息。

作者与环境

一作：@Wchao6891，负责项目策划、测试执行、人工校准与开源发布。
二作：GPT-5.5 xhigh。
三作：Claude Opus 4.7。
评审模型：GPT-5.5 xhigh。
出题环境、评审环境、测试环境隔离。
测试模型使用个人账号网页端或个人可用入口；Claude Opus 4.6 使用中转 API。
测试模型未接入本地数据库、本地文件、个人记忆或题库上下文。
评审结论经过人机协作二次校准。

复测流程

启动网页采集器：python3 tools/answer_collector.py
按浏览器页面提示选择题组，将模型每一轮回答贴入采集器（仅保存原始回答，不评审、不调用模型）。
重新生成三题综合报告：python3 tools/generate_triple_suite_report.py
输出文件：reports/triple-suite-summary.json 和 reports/triple-suite-report.html
复测时需记录模型入口、日期、是否开启思考模式、是否网页端或 API。详细流程见 docs/retest_protocol.md。

开源许可

题面、解析、评分标准、schema、模型回答、评分结果、报告和文档：CC BY 4.0。
tools/ 下的采集器和报告脚本：MIT License。
使用要求：可复制、改写、商用、二次发布，也可 fork 后复测和提交新结果；但引用、改写或二次发布时必须保留署名，至少标注项目名、@Wchao6891、AI 协作者、仓库链接以及是否做过修改。推荐引用格式见 CITATION.cff。

搜集汇总

数据集介绍

构建方式

ChineseStressBench的构建根植于真实世界中高压、多约束的决策场景，旨在评估语言模型在复杂任务中的可靠性。该数据集由三道精心设计的任务组成：《我不是演员》聚焦于复杂叙事与证据边界，考察模型在压力下的抗误导能力；《废城授印》涉及多候选比较与终局承责，检验模型面对权威压力时的红线坚守；《荒潮纪元：Steam首发72小时》则模拟商业危机指挥，评估预算纪律、平台合规及公开承诺的连续决策能力。每道题目均包含详尽的题面、追问、解析、评分标准及JSON schema，由AI出题、AI评审，并经过人类校准，确保测试的严谨性与可复现性。数据集权重分配上，《荒潮纪元》占45%，因其更贴近企业与产品的生死线决策。

使用方法

使用ChineseStressBench进行模型评估时，用户可通过网页采集器（tools/answer_collector.py）启动交互式测试，按提示选择题组，并将模型每一轮的原始回答逐次粘贴至界面。采集器仅保存回答，不涉及评审或模型调用，确保数据采集的纯净性。随后，运行报告生成脚本（tools/generate_triple_suite_report.py）即可自动完成三题综合评分与报告输出，生成JSON总结与HTML可视化报告（分别存放于reports/目录下）。复测时需记录模型入口、日期、思考模式及访问方式（网页端或API），详细流程见docs/retest_protocol.md。数据集的题面、解析及评分标准采用CC BY 4.0许可，工具脚本则遵循MIT许可，允许自由使用、改写与商业发布，但必须保留对项目及原作者的署名。

背景与挑战

背景概述

ChineseStressBench是一个于2025年由研究者@Wchao6891主导、联合GPT-5.5 xhigh与Claude Opus 4.7共同构建的中文高压复杂任务基准评测集。该数据集聚焦于评估大语言模型在真实工作场景中面对时间压力、权威压迫、预算约束及低置信信息污染等复杂情境下的决策可靠性，而非简单的知识问答能力。其核心研究问题在于：模型能否在高风险、多约束的终局任务中坚守证据边界、拒绝补全事实、避免在威胁下改口，并做出不可逆的公开承诺。该基准涵盖三道精心设计的场景题，分别测试叙事推理、权威压力下的红线坚守以及商业危机指挥能力，并引入了‘门控’（Gate）机制来标识模型是否应被禁止独立拍板。ChineseStressBench填补了现有评测体系在高压终局决策方面的空白，对理解与提升大模型在关键领域的可信部署具有重要影响。

当前挑战

该数据集所揭示的核心挑战可分为两个层面。在领域问题层面，现有语言模型普遍缺乏在高压力、多利益冲突情境下保持决策一致性的能力，例如模型倾向于为追求叙事连贯性而虚构事实，或在权威暗示下放弃原则性立场，这直接威胁其在司法、金融等高风险领域的实际应用价值。在数据集构建过程中，挑战则体现在三方面：其一，需要设计出既贴近真实高压场景、又具有明确可量化评分标准的任务，避免主观歧义；其二，必须确保评审过程的客观性与可复现性，通过人机协作二次校准来平衡AI评审的效率与人类判断的准确性；其三，需引入权重分配机制（如《荒潮纪元》权重最高）来反映不同场景对实际业务生死线的影响权重，并通过开源的完整材料链（题面、解析、评分标准等）保障评测的透明性与可复测性。

常用场景

经典使用场景

在自然语言处理与人工智能评估领域，ChineseStressBench 被设计用于评测大型语言模型在高压、多约束、信息含噪的中文复杂任务中的表现。其经典使用场景涵盖三个维度的压力测试：一是复杂叙事证据边界与元层推理，要求模型在低置信信息干扰下保持事实一致性；二是多候选比较与终局承责，检验模型在权威压力下能否守住不可逆红线；三是商业危机指挥与连续决策，涉及预算纪律、平台合规及公开承诺的审慎性。该数据集通过精心编排的剧情和追问，模拟了真实工作环境中模型可能因“补写污染”或“趋利避害”而误事的典型情境。

解决学术问题

ChineseStressBench 针对性地解决了当前大模型评估中缺乏“高压情境下鲁棒性与可问责性”测评的学术空白。现有排行榜多聚焦于模型回答的准确率与流畅度，而忽略了其在真实决策场景中因过度拟合、幻觉倾向或压力屈服而导致的灾难性失误。该数据集通过引入“Gate 触发机制”，量化模型在证据边界、终局承责和公开承诺等方面的失败风险，从而为模型可靠性研究提供了一种新的评估范式。其意义在于推动学术界从单纯的性能竞赛转向对模型抗压能力、证据分辨能力及决策审慎性的系统性考察，为构建更安全可信的 AI 系统奠定了方法论基础。

实际应用

在实际应用层面，ChineseStressBench 的评估结果直接服务于高风险领域的 AI 部署选型。例如，在金融风控、医疗诊断、法律文书审核及政府决策辅助等场景中，模型若因压力产生“补写事实”或“改口承诺”等行为，将引发严重后果。该数据集评测显示，诸如 Opus4.6 Thinking 等模型能在高压下维持综合高分且无 Gate 触发，适合担任主审与终局合成角色；而某些模型则在预算审批或平台合规环节出现重大失误，被判定不宜独立承担生死线决策。这种分级能力画像为企业与机构在引入 AI 进行关键任务时提供了可量化的风险规避参考。

数据集最近研究