neulab/behavioral-lift
收藏Hugging Face2026-05-08 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/neulab/behavioral-lift
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Behavioral Lift Annotations,包含15,282个行为注释,涵盖了15个模型和6个基准测试。每个注释包括模型响应、基准元数据、正确性以及JSON编码的行为注释,涉及推理行为、失败模式和恢复信号。数据集的主要发现是思维训练与正确性信号之间的放大不匹配现象:思维训练增加了自我纠正、假设测试和不确定性确认,而最强的正确性信号是信心校准、知识对齐和自我意识。数据集还提供了详细的加载方法、分割信息、模型列表、行模式结构、注释结构以及重要注意事项。
The dataset is named Behavioral Lift Annotations and contains 15,282 behavioral annotations of LLM and VLM reasoning traces across 15 models and 6 benchmarks. Each row includes model response, benchmark metadata, correctness, and a JSON-encoded behavioral annotation covering reasoning behaviors, failure modes, and recovery signals. The main finding is an amplification mismatch: thinking training increases self-correction, hypothesis testing, and uncertainty acknowledgment, while the strongest correctness signals are confidence calibration, knowledge alignment, and self-awareness. The dataset also provides detailed loading instructions, split information, model lists, row schema, annotation structure, and important caveats.
提供机构:
neulab
搜集汇总
数据集介绍

构建方式
该数据集源于对大型语言模型与视觉语言模型推理轨迹的精细化行为标注研究。研究者选取了15个涵盖不同训练类型的模型,包括基础指令微调与思维训练模型,在6个跨模态基准上采集其可观测的链式思维输出。每个推理样本经由大型语言模型裁判进行多维度评估,生成了包含15,282条行为注解的数据集。构建过程核心在于将原始推理文本转化为结构化标签,涉及五个行为组别:推理质量、高阶元认知、推理类型、失败模式及汇总指标,并特别为视觉语言模型增设了视觉基础组标签,所有标签均以JSON编码存储于evaluation字段中。
特点
本数据集最显著的特征在于揭示了思维训练与正确性之间的失配现象:思维训练显著提升了自我修正、假设检验与不确定性承认等行为,但这些行为与正确性的关联较弱;相反,置信度校准、知识对齐与自我意识虽不被训练显著放大,却是强正确性预测因子。此外,数据集提供了细粒度的行为强化度量——行为提升值,用以量化各行为在思维训练中的变化强度及其与正确性的关联程度。数据涵盖文本与视觉双模态,包含15个模型与6项基准,且提供了thinking、instruct、base三种训练类型的对比分析基础。
使用方法
用户可通过HuggingFace Datasets库便捷加载数据,使用load_dataset命令即可获取llm与vlm两个子集,分别存储纯语言与视觉语言模型的8,282条和7,000条记录。加载后,可利用training_type字段进行过滤,对比不同训练模式下的行为特征。行为注解需通过json.loads解析evaluation字段获取,其中包含九个核心元认知行为标签与多种失败模式标记。数据集还提供了programmatic exact_match与math_verify两项客观正确性指标,用于与裁判评估结果交叉验证。用户可结合模型家族、基准名称等元数据字段进行多维度的行为关联分析。
背景与挑战
背景概述
behavioral-lift数据集由Jean de Dieu Nyandwi、Leena Mathur、Yonatan Bisk和Graham Neubig等研究人员于2026年创建,旨在探究大型语言模型与视觉语言模型在推理过程中,何种行为模式真正与答案正确性相关联。该数据集收录了15,282条行为注释,覆盖15个模型和6个基准测试,核心研究问题在于揭示思维训练所强化的推理行为(如自我修正、假设检验)与正确性预测信号(如置信度校准、知识对齐)之间存在显著错配。这一发现对推理模型评估范式产生了深远影响,挑战了“更多思考必然带来更好表现”的直觉认知。
当前挑战
该数据集面临的挑战主要体现在两个方面。首先,在领域问题上,它直面当前推理模型普遍存在的“思维放大误区”——即思维训练过度强化了某些未必有益的行为(如不确定性承认),而真正预示正确性的关键行为(如置信度校准)却未被充分激活,这使得如何设计更有效的推理训练策略成为棘手难题。其次,在构建过程中,数据注释依赖LLM作为评判者,仅基于可视推理轨迹进行行为标注,无法触及模型隐藏的内部推理状态,这可能导致标注偏差;此外,不同基准测试和模型许可证的异质性也为数据集的合规使用与泛化评估带来了复杂性。
常用场景
经典使用场景
在大型语言模型(LLM)与视觉语言模型(VLM)的推理行为分析领域,behavioral-lift数据集被广泛用于探究‘思考型’模型(如DeepSeek-R1-Distill-Qwen-7B、Qwen3-4B-Thinking等)与标准指令型模型在推理过程中的行为差异。该数据集包含了15,282条经过精细标注的模型推理轨迹,覆盖了15个模型在6个经典基准测试(如LogiQA、MMLU-Pro、MathVista等)上的表现。研究人员常利用该数据集进行行为提升(behavioral lift)分析,即衡量特定推理行为(如自我修正、假设检验、不确定性承认等)在思考训练后的提升程度,并评估这些行为与最终正确性的关联强度。这一经典分析范式揭示了令人意外的现象:思考训练显著放大的行为(如自我修正)往往并非正确性的最强预测因子,而置信校准、知识对齐和自我意识等未被充分放大的行为反而与正确性高度相关。因此,该数据集为剖析思维过程的因果机制提供了关键实证基础。
解决学术问题
该数据集的核心学术贡献在于解决了‘何种推理行为真正驱动模型正确性’这一长期悬而未决的难题。传统研究多聚焦于链式思维(Chain-of-Thought)的整体效果,却鲜有细粒度的行为归因分析。behavioral-lift通过系统性的行为标注体系,首次量化了9种核心元认知行为(如规划、假设检验、自我修正、不确定性承认、置信校准、自我意识、目标跟踪、知识对齐、证据引用)在正确预测中的独立贡献,并揭示了‘思考训练提升行为’与‘正确性预测行为’之间存在令人瞩目的分离现象。这一发现挑战了学界对思考型模型训练功效的朴素认知——并非所有形式的思考都有助于正确性,真正有效的推理行为需要精确的自我监控与知识边界认知。此外,该数据集还推动了失败模式(如事后合理化、捷径推理、知识盲点)的系统性分类研究,为构建更可靠的推理评估理论框架提供了实验数据支撑。
衍生相关工作
behavioral-lift数据集的面世催生了一系列富有洞见的后续研究。部分工作直接借鉴其‘行为提升’(behavioral lift)指标,延伸至多模态推理场景的行为因果分析,或将其应用于提示工程策略的自动化搜索中。另有一些研究则以该数据集中的9种元认知行为标签为基础,构建了面向大模型的推理行为量化评估基准(如Reasoning Behavior Benchmark),推动不同家族模型在置信校准、目标跟踪、逻辑有效性等维度的横向对比。此外,该数据集所揭示的‘过度思考可能无益’现象直接激发了关于‘轻量级推理’(lightweight reasoning)的新方向——若干团队尝试设计仅保留高预测力行为(如知识对齐、自我意识)而抑制低效行为(如过度不确定性承认)的推理压缩策略,在保持或提升正确性的同时显著降低计算开销。这些衍生工作共同构成了一个聚焦于模型推理行为精细化调控的新兴研究脉络。
以上内容由遇见数据集搜集并总结生成



