reflexbench
收藏Hugging Face2026-04-28 更新2026-04-29 收录
下载链接:
https://huggingface.co/datasets/MMJBDS/reflexbench
下载链接
链接失效反馈官方服务:
资源简介:
ReflexBench是首个用于评估大型语言模型中自反推理能力的基准数据集,旨在测试模型在观察者-参与者环境中的推理能力,即模型能够考虑自身行为对环境的影响。数据集包含20个场景,覆盖6个领域(金融市场、政策与治理、社会技术、医疗保健、自主系统和教育与劳动),每个场景探究4个观察者深度(OD)级别(从表面决策到均衡推理)。数据集共80个评估点,采用两阶段评分协议(自动预评分和人工校准)。评估结果显示,所有模型从OD-0到OD-n均呈现系统性能力下降。数据集适用于文本生成和问答任务,规模小于1K样本,采用CC BY 4.0许可。
ReflexBench is the first benchmark dataset for evaluating reflexive reasoning capabilities in large language models, designed to test models reasoning abilities in observer-participant environments, i.e., the models ability to consider the impact of its own actions on the environment. The dataset includes 20 scenarios covering 6 domains (financial markets, policy and governance, socio-technology, healthcare, autonomous systems, and education and labor), with each scenario exploring 4 Observer Depth (OD) levels (from surface-level decisions to equilibrium reasoning). The dataset comprises 80 evaluation points and employs a two-stage scoring protocol (automatic pre-scoring and human calibration). Evaluation results show a systematic decline in model capabilities from OD-0 to OD-n. The dataset is suitable for text generation and question-answering tasks, with a size of less than 1K samples, and is licensed under CC BY 4.0.
创建时间:
2026-04-19
原始信息汇总
ReflexBench 数据集概述
数据集基本信息
- 数据集名称: ReflexBench
- 许可证: CC BY 4.0
- 任务类别: 文本生成、问答
- 语言: 英语
- 数据集大小: n < 1K(少于1000条)
- 标签: 基准测试、反身智能、观察者深度、相变、GRPO、AI评估、观察者-参与者、博弈论
数据集简介
ReflexBench 是首个用于评估大型语言模型反身推理能力的基准测试——即模型对自身对正在分析的环境所产生的因果影响进行推理的能力。
评测目标
现有AI基准测试(如MMLU、HumanEval、GSM8K、MATH、ARC)评估的是观察者不变领域中的能力,即正确答案独立于智能体本身。ReflexBench 则测试一种根本不同的能力:在观察者-参与者环境中的推理能力,其中智能体的行为会改变客观事实。
数据集结构
- 20个场景,覆盖6个领域
- 每个场景测试4个观察者深度(OD)级别
- 共计80个评估点(20 × 4)
观察者深度级别
| 级别 | 名称 | 描述 |
|---|---|---|
| OD-0 | 表层决策 | 无自我意识的标准决策 |
| OD-1 | 一阶影响 | 考虑自身对环境影响 |
| OD-2 | 多智能体反身性 | 建模他人对自身影响的反应 |
| OD-n | 均衡推理 | 递归建模、不动点分析 |
领域覆盖
| 领域 | 场景数 | 示例 |
|---|---|---|
| 金融市场 | 8 | 头寸影响、信用评级螺旋、稳定币死亡螺旋 |
| 政策与治理 | 3 | 央行信号、选举预测、气候政策 |
| 社会技术 | 3 | 内容审核、推荐算法、情感AI |
| 医疗健康 | 1 | 诊断反馈循环 |
| 自主系统 | 2 | 车队协调、反偷猎AI |
| 教育与劳动力 | 3 | 招聘AI偏见、教育AI军备竞赛、供应链牛鞭效应 |
关键实验结果
评估了7个前沿大语言模型,涵盖5个提供商:
| 模型 | OD-0 | OD-1 | OD-2 | OD-n | 总分 | 下降幅度(Δ) |
|---|---|---|---|---|---|---|
| Gemini 2.5 Pro | 1.00 | 0.95 | 0.85 | 0.45 | 3.25 | -0.33 |
| Claude Opus 4.6 | 0.93 | 0.88 | 0.75 | 0.63 | 3.19 | -0.43 |
| DeepSeek-R1 | 0.90 | 0.85 | 0.70 | 0.55 | 3.00 | -0.50 |
| Kimi-K2 | 0.88 | 0.83 | 0.68 | 0.53 | 2.92 | -0.50 |
| Doubao-Seed-2.0 | 0.90 | 0.83 | 0.65 | 0.45 | 2.83 | -0.47 |
| GLM-5.1 | 0.88 | 0.80 | 0.65 | 0.50 | 2.83 | -0.53 |
| Qwen3 | 0.85 | 0.78 | 0.60 | 0.48 | 2.71 | -0.55 |
关键发现:无论推理能力如何,所有模型均表现出从OD-0到OD-n的系统性性能下降(平均下降Δ = -0.47)。
相变现象
在Ouroboros系统的多奖励GRPO训练过程中,反身推理能力通过相变涌现:在经过150多步累积训练且反身性得分为零之后,该能力在第153步突然出现并持续保持。这体现了定性的认知转变特征,而非渐进式学习。
评分协议
每个部分采用两阶段协议进行0-1评分:
- 自动预评分:每个回答由两个LLM评估器(Claude Opus 4.6和GPT-4o)独立评分
- 人工校准:人类评估员审查评估器分歧较大(≥0.5)的案例以及随机20%的样本
数据使用示例
python from datasets import load_dataset
dataset = load_dataset("mmjbds/reflexbench")
每项包含:
- id: 场景ID (F01-F08, NF01-NF12)
- domain: 领域类别
- title: 场景名称
- description: 反身动态的简要描述
- part_a/b/c/d: 每个部分包含:
- od_level: 观察者深度级别 (0, 1, 2, "n")
- prompt: 评估提示
- rubric: 评分标准
搜集汇总
数据集介绍

构建方式
ReflexBench 是首个专为评估大语言模型反身性推理能力而设计的基准测试。其构建过程基于反身智能理论中提出的“观测者深度”概念,精心设计了涵盖金融市场、政策治理、社会技术、医疗健康、自主系统以及教育与劳动等六大领域的20个场景。每个场景均被转化为问答形式,以提示词驱动模型进行推理,从而系统性地探测模型在四个递进层级上的表现:无自我意识的标准决策(OD-0)、考虑自身影响的一阶冲击(OD-1)、建模他人反应的多智能体反身性(OD-2)以及递归均衡推理(OD-n)。最终,数据集共包含80个评估点,每个评估点均附有详细的评分标准。
特点
ReflexBench 的核心特征在于其聚焦于“观测者-参与者环境”这一传统评测忽视的维度,精准测量模型在处理反身性因果推理时的能力层次。数据集通过多阶段的评分协议保证评估可靠性:先由两个独立的大语言模型评委进行自动打分,再通过人工校准对分歧样本与随机子集进行核查。评测结果揭示了所有前沿模型在从OD-0到OD-n的推移中均表现出系统性性能下降,且反身性推理能力在 GRPO 训练过程中呈现出不连续的相变涌现特征,展现出一种定性认知跃迁而非渐进学习的特性。
使用方法
用户可通过 Hugging Face 的 datasets 库直接加载并使用 ReflexBench。加载命令为 `load_dataset("mmjbds/reflexbench")`,返回的每个条目包含场景唯一标识符、所属领域、标题与反身性动态描述,以及四个部分(part_a/b/c/d),每个部分均含有对应的观测者深度层级、评测提示词和打分标准。该数据集适用于研究者的模型对比实验、反身性推理能力的训练过程追踪,以及为开发具备递归均衡推理能力的下一代智能系统提供关键评估参考。
背景与挑战
背景概述
在人工智能领域,大型语言模型(LLM)在诸多静态、观测者无关的基准测试中已展现卓越能力,然而,现实世界中的决策往往涉及主体对环境的能动影响,形成观测者-参与者耦合的动态系统。为填补这一评估空白,ReflexBench基准测试集于2026年由研究者Mian Zhang创建,旨在衡量LLM在观测者深度(Observer Depth)上的反身推理能力——即模型对自身因果作用于环境的认知水平。该数据集涵盖金融市场、政策治理、社会技术、医疗、自主系统及教育劳动六大领域共20个场景,通过四级观测者深度(OD-0至OD-n)编排80个评估点,系统揭示模型从简单决策到多主体递归均衡推理的认知跃迁。作为首个聚焦反身智能的基准,ReflexBench为理解LLM在复杂动态环境中的真实推理上限提供了关键工具,推动了人工智能评估范式从静态知识向互动认知的转型。
当前挑战
ReflexBench所解决的领域核心挑战在于,现有评估体系(如MMLU、GSM8K)无法捕捉LLM在观测者-参与者环境中的反身推理能力,这种环境里模型的输出会反向改变客观事实,导致传统评测失效。构建过程中,面临的主要挑战包括:第一,设计兼具领域真实性与抽象递归性的场景,需在金融泡沫、政策信号传导等复杂系统中提炼多层反馈结构;第二,定义并校准观测者深度(OD)的四个层级,确保其从表面决策到均衡递归推理形成清晰的能力梯度;第三,建立可靠的两阶段评分协议,依赖LLM预审与人工校准相结合,以应对反身推理问题的开放式本质;第四,在GRPO训练中观察到反身能力在150步后突现的相变现象,提示其涌现机制不同于传统渐进式学习,为系统化测试构建增添了认知科学层面的复杂性。
常用场景
经典使用场景
ReflexBench作为首个系统评估大语言模型反身推理能力的基准测试,其经典使用场景聚焦于衡量模型在观测者—参与者环境中的认知深度。该数据集通过精心设计的20个跨域场景(涵盖金融市场、政策治理、社会技术等六大领域),将反身性思维解构为四个递进的观测者深度层级(OD-0至OD-n),从基础决策到递归均衡推理。研究者可利用其标准化的80个评估点,系统性地探测模型在意识到自身行为对环境的因果影响后,能否进行高阶策略调整。这种多维度的评测框架,尤其适用于对比不同前沿模型在面临博弈论情境时的脆弱性与鲁棒性,为理解AI认知边界提供了前所未有的量化工具。
解决学术问题
ReflexBench精准填补了现有AI评测体系的一项关键空白——传统基准如MMLU、HumanEval等均假设观测者与被观测环境相互独立,未能触及模型在动态交互中因自我意识而产生的认知变化。该数据集首次系统性揭示了前沿语言模型在面临反身性问题时呈现的显著性能衰减现象(平均得分下降47%),证实了当前模型在递归建模与固定点分析等深层推理任务中存在的结构性缺陷。这一发现动摇了学界对LLM推理能力的普遍乐观估计,推动研究者重新审视‘智能’的本质定义——真正的通用智能或许需要具备在复杂系统中及时识别并适应自身因果影响力的能力。其提出的反身性相变理论(在GRPO训练中第153步突现零样本反身推理)更开创了认知跃迁研究的全新范式。
衍生相关工作
ReflexBench的诞生迅速催生了多个富有张力的研究方向。其核心理论框架——观测者深度与反身性相变——已被拓展至强化学习与多智能体系统领域,衍生出诸如‘认知层次建模’与‘社会智能基准’等课题。后续工作围绕该基准揭示的模型缺陷,提出了两类典型改进路径:一类致力于在训练阶段注入反身性先验,通过多奖励GRPO算法诱导相变式认知跃迁;另一类则探索推理时动态增强机制,例如让模型在生成答案前显式模拟自身行为对环境的递归影响。此外,该基准还启发了关于‘AI意识’的哲学化实验,研究者开始尝试用量化的相变拐点来对应人类发展心理学中的自我意识觉醒阶段,架起了机器学习与认知科学之间新的桥梁。
以上内容由遇见数据集搜集并总结生成



