behavioral-lift

Name: behavioral-lift
Creator: NeuLab @ LTI/CMU
Published: 2026-05-08 23:01:45
License: 暂无描述

Hugging Face2026-05-08 更新2026-05-09 收录

下载链接：

https://huggingface.co/datasets/neulab/behavioral-lift

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为行为提升标注，包含15,282条对LLM和VLM推理轨迹的行为标注，覆盖15个模型和6个基准测试。每条记录包含模型响应、基准元数据、正确性判断以及JSON编码的行为标注，涵盖推理行为、失败模式和恢复信号。数据集揭示了思维训练与正确性之间的不匹配现象：思维训练增加了自我纠正、假设测试和不确定性确认，但与正确性最相关的行为是信心校准、知识对齐和自我意识。数据集分为LLM（8,282条）和VLM（7,000条）两个子集，每个子集包含不同模型和基准测试的数据。数据字段包括模型名称、训练类型、基准问题文本、正确答案、模型推理链、行为标注等。行为标注分为推理质量、高级和元认知行为、推理类型、失败模式和总结指标五类。VLM标注还额外包含视觉基础组。数据集适用于文本分类、问答等任务，尤其适合研究推理行为和模型评估。

提供机构：

NeuLab @ LTI/CMU

创建时间：

2026-05-08

原始信息汇总

数据集概述

Behavioral Lift Annotations 是一个用于分析大语言模型 (LLM) 和视觉语言模型 (VLM) 推理行为与正确性之间关系的数据集。数据集基于论文 Not All Thinking Helps: Which Reasoning Behaviors Predict Correctness?，核心发现是：思维训练放大了自我修正、假设检验和不确定性承认等行为，但真正与正确性强相关的行为却是置信度校准、知识对齐和自我意识。

数据集规模

总标注数：15,282 条
覆盖 15 个模型 和 6 个基准测试
每条记录包含：模型响应、基准测试元数据、正确性标签，以及一个JSON格式的行为标注（涵盖推理行为、失败模式和恢复信号）

数据集划分

子集	行数	模型数	基准测试
`llm`	8,282	8 个 LLM	LogiQA, MINERVA Math500, MMLU-Pro
`vlm`	7,000	7 个 VLM	MMMU, MathVista, VisualPuzzles

模型列表

LLMs: DeepSeek-R1-Distill-Qwen-7B, NVIDIA-Nemotron-Nano-9B-v2-Base, NVIDIA-Nemotron-Nano-9B-v2, Olmo-3-7B-Instruct, Olmo-3-7B-Think, Qwen2.5-7B-Instruct, Qwen3-4B-Instruct-2507, Qwen3-4B-Thinking-2507

VLMs: GLM-4-1V-9B-Thinking, InternVL3_5-8B, InternVL3_5-8B-Instruct, Kimi-VL-A3B-Instruct, Kimi-VL-A3B-Thinking-2506, Qwen3-VL-8B-Instruct, Qwen3-VL-8B-Thinking

行模式 (Row Schema)

每条记录包含以下字段：

字段	类型	描述
`doc_id`	int	源文件内的问题索引
`modality`	str	`llm` 或 `vlm`
`model`	str	模型名称
`model_family`	str	模型家族（如 Qwen3, Nemotron）
`training_type`	str	`thinking`, `instruct`, 或 `base`
`benchmark`	str	基准测试名称
`correct`	bool	模型最终答案是否与真实答案匹配（由LLM评判）
`question`	str	基准测试问题文本
`ground_truth`	str	真实答案
`model_cot`	str	模型的思维链响应
`evaluation`	str	JSON编码的行为标注
`evaluator_notes`	str	评判者的自由文本评论
`annotation_timestamp`	str	标注的ISO时间戳
`source_file`	str	原始标注文件名
`exact_match`	float	程序化精确匹配分数（仅LLM子集）
`math_verify`	float	数学等价验证分数（仅LLM/minerva_math500）

标注结构

evaluation JSON对象包含五个组：

推理质量： reasoning_present, logical_steps_valid, reaches_correct_conclusion, context_understanding
高级与元认知行为（9个核心行为）： planning_present, hypothesis_testing, self_correction, uncertainty_acknowledgment, evidence_citation, confidence_calibration, self_awareness, goal_tracking, knowledge_alignment
推理类型： mathematical_reasoning, logical_reasoning, causal_reasoning, analogical_reasoning, procedural_reasoning, factual_recall, conceptual_reasoning（VLM额外包含：spatial_reasoning, counting_reasoning, compositional_reasoning, temporal_reasoning）
失败模式： factual_error, logical_failure, context_misread, knowledge_gap, post_hoc_rationalization, shortcut, lucky_guess（VLM额外包含：visual_hallucination, visual_neglect, language_bias）
摘要指标： complexity_score, reasoning_direction, efficiency, overall_quality, would_make_good_judge

VLM标注额外包含一个视觉基础组：visual_references_present, visual_claims_accurate, visual_input_necessary

重要注意事项

标注基于LLM评判模型对可见推理轨迹的评估，不涉及隐藏的内部模型推理。
correct字段反映评判者根据轨迹判断最终答案是否与真实答案匹配。对于LLM数据，exact_match字段提供了独立的程序化正确性检查。
数据集包含基准测试问题文本和模型思维链输出。标注采用CC-BY-4.0许可，但问题文本和模型输出可能受上游基准测试和模型许可条款约束。

引用

bibtex @article{nyandwi2026notallthinking, title={Not All Thinking Helps: Which Reasoning Behaviors Predict Correctness?}, author={Nyandwi, Jean de Dieu and Mathur, Leena and Bisk, Yonatan and Neubig, Graham}, year={2026} }

搜集汇总

数据集介绍

构建方式

该数据集通过系统性地收集15种大语言模型与视觉语言模型在6项基准测试上的推理轨迹，并采用大语言模型作为裁判进行细粒度行为标注而构建。每条数据记录包含模型生成的可见推理链、答案正确性标签，以及一个JSON编码的行为评估对象，该评估覆盖推理质量、元认知行为、推理类型、失败模式与摘要指标等五个维度，共计15,282条标注样本，分别构成语言模型和视觉语言模型两个子集。

特点

数据集的核心特点在于揭示了思维训练与正确性之间的错配现象：思维训练显著增强了自我修正、假设检验和不确定性承认等行为，但真正预测正确答案的却是信心校准、知识对齐和自我意识等信号。此外，数据涵盖了从基础推理到高级元认知的广泛行为类别，并特别为视觉语言模型增加了视觉基础相关的标注，使得跨模态的推理行为分析成为可能。

使用方法

用户可通过HuggingFace Datasets库加载该数据集，并可直接按模态（llm/vlm）或训练类型（thinking/instruct/base）进行过滤筛选。每条数据的`evaluation`字段为JSON字符串，需用`json.loads()`解析以获取细粒度行为标签。数据集适用于研究不同训练策略下模型推理行为的差异，以及探索哪些行为特征与答案正确性高度相关，从而指导更有效的推理模型训练与评估方法。

背景与挑战

背景概述

在大规模语言模型（LLM）与视觉语言模型（VLM）迅速发展的背景下，思维链（Chain-of-Thought）与显式推理训练虽被广泛采用以提升模型性能，但其具体行为对正确性的预测能力却鲜有系统探究。该数据集由Jean de Dieu Nyandwi、Leena Mathur、Yonatan Bisk及Graham Neubig于2026年创建，聚焦于剖析“哪些推理行为真正预测模型正确性”这一核心科学问题。数据集收录了15个模型在6个基准上的15,282条行为注释，涵盖LLM与VLM的显式推理轨迹，并系统标注了推理行为、失败模式及恢复信号。其研究揭示了“思维训练显著放大自校正、假设检验等行为，但正确答案的最强预测因子却是置信度校准、知识对齐与自我意识”这一非对称性发现，为理解模型推理机制提供了实证基础，对神经符号推理、可解释AI及模型诊断领域具有重要影响力。

当前挑战

该数据集所解决的领域核心挑战在于：现有思维训练方法虽强化了模型的显式推理过程，但被放大最多的行为并不一定有助于正确性，从而导致训练效率与目标间的错配。构建过程中，研究者面临两大挑战：其一，如何设计一套覆盖推理质量、元认知、失败模式等多维度的行为标注体系，以捕捉模型推理轨迹中的细微差异，并确保注释的可靠性与一致性；其二，如何在多模型、多基准的异构数据上进行系统性标注，涵盖文本与视觉模态，同时兼顾模型输出在训练类型（思考、指令、基础）上的广泛差异，并处理因模型差异导致的视觉幻觉、语言偏见等特殊失败模式，以保证数据集的泛化性与对比分析的有效性。

常用场景

经典使用场景

在探究大型语言模型（LLM）与视觉语言模型（VLM）的思维链推理行为与最终答案正确性之间关系的研究中，behavioral-lift数据集扮演着核心角色。研究人员通过该数据集提供的15,282条细粒度行为标注，系统性地分析模型在推理过程中展现的自我修正、假设检验、不确定性表达等具体行为模式。该数据集尤其被用于识别不同训练范式（如思考型训练与指令型训练）对模型行为特征的影响差异，从而揭示哪些推理行为真正与正确性相关，哪些仅仅是表面上的“深思熟虑”。

解决学术问题

该数据集直面一个关键学术难题：虽然思维链和思考型训练（如DeepSeek-R1、Qwen3-Thinking等模型）显著提升了模型的可视化推理过程，但这些被增强的行为是否真正推动了正确性提升？Behavioral-lift通过量化9种高级元认知行为（如信心校准、知识对齐、自我意识）与正确性之间的关联强度，有力地揭示了“放大不匹配”现象——训练增强的行为（如假设检验）并非对正确性贡献最大的行为。这一发现为推理模型的设计提供了重要纠偏方向，推动学界从追求推理过程可视化转向关注关键行为机制的优化。

衍生相关工作

围绕behavioral-lift数据集，已衍生出多项重要研究工作。其一，基于其行为标注框架，研究者开发了自动化推理行为诊断工具，能够将任意模型链式思维输出映射到九维行为空间中进行评分。其二，受其“放大不匹配”结论启发，涌现出一类旨在增强信心校准与自我意识的新型推理策略，例如通过对比学习迫使模型在不确定时明确表达置信度。此外，该数据集的视觉语言模型分支催生了跨模态推理行为分析方向，推动了VLM中视觉基础与语言推理协同机制的研究，相关成果已应用于多模态问答系统的行为优化中。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集