five

behavioral-lift

收藏
Hugging Face2026-05-08 更新2026-05-09 收录
下载链接:
https://huggingface.co/datasets/neulab/behavioral-lift
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为行为提升标注,包含15,282条对LLM和VLM推理轨迹的行为标注,覆盖15个模型和6个基准测试。每条记录包含模型响应、基准元数据、正确性判断以及JSON编码的行为标注,涵盖推理行为、失败模式和恢复信号。数据集揭示了思维训练与正确性之间的不匹配现象:思维训练增加了自我纠正、假设测试和不确定性确认,但与正确性最相关的行为是信心校准、知识对齐和自我意识。数据集分为LLM(8,282条)和VLM(7,000条)两个子集,每个子集包含不同模型和基准测试的数据。数据字段包括模型名称、训练类型、基准问题文本、正确答案、模型推理链、行为标注等。行为标注分为推理质量、高级和元认知行为、推理类型、失败模式和总结指标五类。VLM标注还额外包含视觉基础组。数据集适用于文本分类、问答等任务,尤其适合研究推理行为和模型评估。
提供机构:
NeuLab @ LTI/CMU
创建时间:
2026-05-08
原始信息汇总

数据集概述

Behavioral Lift Annotations 是一个用于分析大语言模型 (LLM) 和视觉语言模型 (VLM) 推理行为与正确性之间关系的数据集。数据集基于论文 Not All Thinking Helps: Which Reasoning Behaviors Predict Correctness?,核心发现是:思维训练放大了自我修正、假设检验和不确定性承认等行为,但真正与正确性强相关的行为却是置信度校准、知识对齐和自我意识。

数据集规模

  • 总标注数:15,282 条
  • 覆盖 15 个模型6 个基准测试
  • 每条记录包含:模型响应、基准测试元数据、正确性标签,以及一个JSON格式的行为标注(涵盖推理行为、失败模式和恢复信号)

数据集划分

子集 行数 模型数 基准测试
llm 8,282 8 个 LLM LogiQA, MINERVA Math500, MMLU-Pro
vlm 7,000 7 个 VLM MMMU, MathVista, VisualPuzzles

模型列表

LLMs: DeepSeek-R1-Distill-Qwen-7B, NVIDIA-Nemotron-Nano-9B-v2-Base, NVIDIA-Nemotron-Nano-9B-v2, Olmo-3-7B-Instruct, Olmo-3-7B-Think, Qwen2.5-7B-Instruct, Qwen3-4B-Instruct-2507, Qwen3-4B-Thinking-2507

VLMs: GLM-4-1V-9B-Thinking, InternVL3_5-8B, InternVL3_5-8B-Instruct, Kimi-VL-A3B-Instruct, Kimi-VL-A3B-Thinking-2506, Qwen3-VL-8B-Instruct, Qwen3-VL-8B-Thinking

行模式 (Row Schema)

每条记录包含以下字段:

字段 类型 描述
doc_id int 源文件内的问题索引
modality str llmvlm
model str 模型名称
model_family str 模型家族(如 Qwen3, Nemotron)
training_type str thinking, instruct, 或 base
benchmark str 基准测试名称
correct bool 模型最终答案是否与真实答案匹配(由LLM评判)
question str 基准测试问题文本
ground_truth str 真实答案
model_cot str 模型的思维链响应
evaluation str JSON编码的行为标注
evaluator_notes str 评判者的自由文本评论
annotation_timestamp str 标注的ISO时间戳
source_file str 原始标注文件名
exact_match float 程序化精确匹配分数(仅LLM子集)
math_verify float 数学等价验证分数(仅LLM/minerva_math500)

标注结构

evaluation JSON对象包含五个组:

  • 推理质量: reasoning_present, logical_steps_valid, reaches_correct_conclusion, context_understanding

  • 高级与元认知行为(9个核心行为): planning_present, hypothesis_testing, self_correction, uncertainty_acknowledgment, evidence_citation, confidence_calibration, self_awareness, goal_tracking, knowledge_alignment

  • 推理类型: mathematical_reasoning, logical_reasoning, causal_reasoning, analogical_reasoning, procedural_reasoning, factual_recall, conceptual_reasoning(VLM额外包含:spatial_reasoning, counting_reasoning, compositional_reasoning, temporal_reasoning

  • 失败模式: factual_error, logical_failure, context_misread, knowledge_gap, post_hoc_rationalization, shortcut, lucky_guess(VLM额外包含:visual_hallucination, visual_neglect, language_bias

  • 摘要指标: complexity_score, reasoning_direction, efficiency, overall_quality, would_make_good_judge

VLM标注额外包含一个视觉基础组:visual_references_present, visual_claims_accurate, visual_input_necessary

重要注意事项

  • 标注基于LLM评判模型对可见推理轨迹的评估,不涉及隐藏的内部模型推理。
  • correct字段反映评判者根据轨迹判断最终答案是否与真实答案匹配。对于LLM数据,exact_match字段提供了独立的程序化正确性检查。
  • 数据集包含基准测试问题文本和模型思维链输出。标注采用CC-BY-4.0许可,但问题文本和模型输出可能受上游基准测试和模型许可条款约束。

引用

bibtex @article{nyandwi2026notallthinking, title={Not All Thinking Helps: Which Reasoning Behaviors Predict Correctness?}, author={Nyandwi, Jean de Dieu and Mathur, Leena and Bisk, Yonatan and Neubig, Graham}, year={2026} }

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过系统性地收集15种大语言模型与视觉语言模型在6项基准测试上的推理轨迹,并采用大语言模型作为裁判进行细粒度行为标注而构建。每条数据记录包含模型生成的可见推理链、答案正确性标签,以及一个JSON编码的行为评估对象,该评估覆盖推理质量、元认知行为、推理类型、失败模式与摘要指标等五个维度,共计15,282条标注样本,分别构成语言模型和视觉语言模型两个子集。
特点
数据集的核心特点在于揭示了思维训练与正确性之间的错配现象:思维训练显著增强了自我修正、假设检验和不确定性承认等行为,但真正预测正确答案的却是信心校准、知识对齐和自我意识等信号。此外,数据涵盖了从基础推理到高级元认知的广泛行为类别,并特别为视觉语言模型增加了视觉基础相关的标注,使得跨模态的推理行为分析成为可能。
使用方法
用户可通过HuggingFace Datasets库加载该数据集,并可直接按模态(llm/vlm)或训练类型(thinking/instruct/base)进行过滤筛选。每条数据的`evaluation`字段为JSON字符串,需用`json.loads()`解析以获取细粒度行为标签。数据集适用于研究不同训练策略下模型推理行为的差异,以及探索哪些行为特征与答案正确性高度相关,从而指导更有效的推理模型训练与评估方法。
背景与挑战
背景概述
在大规模语言模型(LLM)与视觉语言模型(VLM)迅速发展的背景下,思维链(Chain-of-Thought)与显式推理训练虽被广泛采用以提升模型性能,但其具体行为对正确性的预测能力却鲜有系统探究。该数据集由Jean de Dieu Nyandwi、Leena Mathur、Yonatan Bisk及Graham Neubig于2026年创建,聚焦于剖析“哪些推理行为真正预测模型正确性”这一核心科学问题。数据集收录了15个模型在6个基准上的15,282条行为注释,涵盖LLM与VLM的显式推理轨迹,并系统标注了推理行为、失败模式及恢复信号。其研究揭示了“思维训练显著放大自校正、假设检验等行为,但正确答案的最强预测因子却是置信度校准、知识对齐与自我意识”这一非对称性发现,为理解模型推理机制提供了实证基础,对神经符号推理、可解释AI及模型诊断领域具有重要影响力。
当前挑战
该数据集所解决的领域核心挑战在于:现有思维训练方法虽强化了模型的显式推理过程,但被放大最多的行为并不一定有助于正确性,从而导致训练效率与目标间的错配。构建过程中,研究者面临两大挑战:其一,如何设计一套覆盖推理质量、元认知、失败模式等多维度的行为标注体系,以捕捉模型推理轨迹中的细微差异,并确保注释的可靠性与一致性;其二,如何在多模型、多基准的异构数据上进行系统性标注,涵盖文本与视觉模态,同时兼顾模型输出在训练类型(思考、指令、基础)上的广泛差异,并处理因模型差异导致的视觉幻觉、语言偏见等特殊失败模式,以保证数据集的泛化性与对比分析的有效性。
常用场景
经典使用场景
在探究大型语言模型(LLM)与视觉语言模型(VLM)的思维链推理行为与最终答案正确性之间关系的研究中,behavioral-lift数据集扮演着核心角色。研究人员通过该数据集提供的15,282条细粒度行为标注,系统性地分析模型在推理过程中展现的自我修正、假设检验、不确定性表达等具体行为模式。该数据集尤其被用于识别不同训练范式(如思考型训练与指令型训练)对模型行为特征的影响差异,从而揭示哪些推理行为真正与正确性相关,哪些仅仅是表面上的“深思熟虑”。
解决学术问题
该数据集直面一个关键学术难题:虽然思维链和思考型训练(如DeepSeek-R1、Qwen3-Thinking等模型)显著提升了模型的可视化推理过程,但这些被增强的行为是否真正推动了正确性提升?Behavioral-lift通过量化9种高级元认知行为(如信心校准、知识对齐、自我意识)与正确性之间的关联强度,有力地揭示了“放大不匹配”现象——训练增强的行为(如假设检验)并非对正确性贡献最大的行为。这一发现为推理模型的设计提供了重要纠偏方向,推动学界从追求推理过程可视化转向关注关键行为机制的优化。
衍生相关工作
围绕behavioral-lift数据集,已衍生出多项重要研究工作。其一,基于其行为标注框架,研究者开发了自动化推理行为诊断工具,能够将任意模型链式思维输出映射到九维行为空间中进行评分。其二,受其“放大不匹配”结论启发,涌现出一类旨在增强信心校准与自我意识的新型推理策略,例如通过对比学习迫使模型在不确定时明确表达置信度。此外,该数据集的视觉语言模型分支催生了跨模态推理行为分析方向,推动了VLM中视觉基础与语言推理协同机制的研究,相关成果已应用于多模态问答系统的行为优化中。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作