behavioral-lift
收藏数据集概述
Behavioral Lift Annotations 是一个用于分析大语言模型 (LLM) 和视觉语言模型 (VLM) 推理行为与正确性之间关系的数据集。数据集基于论文 Not All Thinking Helps: Which Reasoning Behaviors Predict Correctness?,核心发现是:思维训练放大了自我修正、假设检验和不确定性承认等行为,但真正与正确性强相关的行为却是置信度校准、知识对齐和自我意识。
数据集规模
- 总标注数:15,282 条
- 覆盖 15 个模型 和 6 个基准测试
- 每条记录包含:模型响应、基准测试元数据、正确性标签,以及一个JSON格式的行为标注(涵盖推理行为、失败模式和恢复信号)
数据集划分
| 子集 | 行数 | 模型数 | 基准测试 |
|---|---|---|---|
llm |
8,282 | 8 个 LLM | LogiQA, MINERVA Math500, MMLU-Pro |
vlm |
7,000 | 7 个 VLM | MMMU, MathVista, VisualPuzzles |
模型列表
LLMs: DeepSeek-R1-Distill-Qwen-7B, NVIDIA-Nemotron-Nano-9B-v2-Base, NVIDIA-Nemotron-Nano-9B-v2, Olmo-3-7B-Instruct, Olmo-3-7B-Think, Qwen2.5-7B-Instruct, Qwen3-4B-Instruct-2507, Qwen3-4B-Thinking-2507
VLMs: GLM-4-1V-9B-Thinking, InternVL3_5-8B, InternVL3_5-8B-Instruct, Kimi-VL-A3B-Instruct, Kimi-VL-A3B-Thinking-2506, Qwen3-VL-8B-Instruct, Qwen3-VL-8B-Thinking
行模式 (Row Schema)
每条记录包含以下字段:
| 字段 | 类型 | 描述 |
|---|---|---|
doc_id |
int | 源文件内的问题索引 |
modality |
str | llm 或 vlm |
model |
str | 模型名称 |
model_family |
str | 模型家族(如 Qwen3, Nemotron) |
training_type |
str | thinking, instruct, 或 base |
benchmark |
str | 基准测试名称 |
correct |
bool | 模型最终答案是否与真实答案匹配(由LLM评判) |
question |
str | 基准测试问题文本 |
ground_truth |
str | 真实答案 |
model_cot |
str | 模型的思维链响应 |
evaluation |
str | JSON编码的行为标注 |
evaluator_notes |
str | 评判者的自由文本评论 |
annotation_timestamp |
str | 标注的ISO时间戳 |
source_file |
str | 原始标注文件名 |
exact_match |
float | 程序化精确匹配分数(仅LLM子集) |
math_verify |
float | 数学等价验证分数(仅LLM/minerva_math500) |
标注结构
evaluation JSON对象包含五个组:
-
推理质量:
reasoning_present,logical_steps_valid,reaches_correct_conclusion,context_understanding -
高级与元认知行为(9个核心行为):
planning_present,hypothesis_testing,self_correction,uncertainty_acknowledgment,evidence_citation,confidence_calibration,self_awareness,goal_tracking,knowledge_alignment -
推理类型:
mathematical_reasoning,logical_reasoning,causal_reasoning,analogical_reasoning,procedural_reasoning,factual_recall,conceptual_reasoning(VLM额外包含:spatial_reasoning,counting_reasoning,compositional_reasoning,temporal_reasoning) -
失败模式:
factual_error,logical_failure,context_misread,knowledge_gap,post_hoc_rationalization,shortcut,lucky_guess(VLM额外包含:visual_hallucination,visual_neglect,language_bias) -
摘要指标:
complexity_score,reasoning_direction,efficiency,overall_quality,would_make_good_judge
VLM标注额外包含一个视觉基础组:visual_references_present, visual_claims_accurate, visual_input_necessary
重要注意事项
- 标注基于LLM评判模型对可见推理轨迹的评估,不涉及隐藏的内部模型推理。
correct字段反映评判者根据轨迹判断最终答案是否与真实答案匹配。对于LLM数据,exact_match字段提供了独立的程序化正确性检查。- 数据集包含基准测试问题文本和模型思维链输出。标注采用CC-BY-4.0许可,但问题文本和模型输出可能受上游基准测试和模型许可条款约束。
引用
bibtex @article{nyandwi2026notallthinking, title={Not All Thinking Helps: Which Reasoning Behaviors Predict Correctness?}, author={Nyandwi, Jean de Dieu and Mathur, Leena and Bisk, Yonatan and Neubig, Graham}, year={2026} }




