LehongWu/example-rewritten-collect_3tasks_25A_v3_1_0423-gemini3flash_medium-repeat8_suc200trajs
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/LehongWu/example-rewritten-collect_3tasks_25A_v3_1_0423-gemini3flash_medium-repeat8_suc200trajs
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个多模态交互数据集,包含图像和文本提示对,用于训练或评估视觉-语言模型。数据集中每个样本包括图像列表、多轮对话提示(含内容和角色信息)、奖励模型信息(含真实标签和风格)、额外信息(如答案、完成状态、思考过程、唯一标识符、目标、任务特定提示和先前指令),以及数据来源、能力描述和划分信息。数据集仅提供测试集,共789个样本,适用于多模态任务的研究和评估。
This dataset is a multimodal interaction dataset containing image and text prompt pairs, designed for training or evaluating vision-language models. Each sample includes a list of images, multi-turn prompts (with content and role information), reward model information (including ground truth and style), extra information (such as answer, completion status, thought process, UUID, goal, task-specific prompt, and previous instruction), as well as data source, ability description, and split information. The dataset only provides a test set with 789 samples, suitable for research and evaluation of multimodal tasks.
提供机构:
LehongWu
搜集汇总
数据集介绍

构建方式
该数据集基于多任务学习框架构建,融合了三种不同能力导向的指令微调任务,旨在提升模型对复杂指令的理解与执行能力。数据构建过程中,首先以Gemini 3 Flash模型作为基础生成器,通过中等重复采样策略对原始指令进行重写,确保每条指令获得8次独立改写,从而丰富语言表达的多样性。随后,结合奖励模型对生成结果进行筛选,保留成功率较高的200条轨迹样本,最终形成包含789条测试样本的验证集。数据集中每一条样本均包含图像、多轮对话提示以及结构化奖励信息,确保模型能够在多模态视觉问答场景中进行有效的适应与优化。
特点
该数据集的核心特点在于其多层次、多维度的信息结构,为模型提供了丰富的学习信号。每条样本不仅包含原始图像与对话历史,还额外提供了任务特定提示、奖励模型标注的ground truth与风格标签,以及模型内部思考过程的详细记录。这种设计使得数据集不仅适用于监督微调,还可用于强化学习与推理链分析。此外,数据集的构建过程引入了基于奖励模型的轨迹筛选机制,有效去除了低质量样本,确保剩余数据具有较高的任务完成度与指令跟随准确率。数据来源明确标注了能力维度,便于研究者针对特定能力进行定向优化。
使用方法
该数据集主要面向多模态大语言模型的指令微调与评估任务,特别是在视觉问答与复杂指令跟随场景中具有广泛应用。使用时,研究者可直接通过HuggingFace Datasets库加载test分片数据,其中包含789条样本用于模型验证与性能基准测试。每条样本的prompt字段以多轮对话格式呈现,可直接作为模型输入;reward_model字段提供了ground truth与风格标注,便于进行监督学习或对比学习训练;extra_info中的completion与think字段则可作为推理过程的监督信号,用于训练模型的逐步推理能力。建议将数据集与现有视觉语言模型结合,通过微调提升模型在自主操作任务中的表现。
背景与挑战
背景概述
该数据集由研究者基于多任务学习框架构建,旨在探索视觉语言模型在复杂指令跟随任务中的表现。数据集中包含了图像、多轮对话提示及奖励模型标注,核心研究问题聚焦于提升模型对多样化任务的理解与执行能力。创建过程中,研究人员从25个代表性任务中筛选出3个关键任务,通过重复采样与轨迹优化策略生成了200条成功交互轨迹。该数据集为评估模型在细粒度任务上的泛化性能提供了基准,对多模态智能体系统的研发具有重要推动作用。
当前挑战
所解决的领域挑战在于视觉语言模型常因任务指令模糊或场景变异导致行为偏差,尤其在整合图像理解与多步推理时表现脆弱。构建过程中,难点在于确保奖励模型与真实目标的语义对齐,以及从大规模交互样本中筛选高质量轨迹以避免噪声累积。此外,多任务数据的不平衡与任务间知识迁移的负效应,要求设计精巧的采样策略与验证机制,以维持数据集的实用性与公平性。
常用场景
经典使用场景
该数据集名称为example-rewritten-collect_3tasks_25A_v3_1_0423-gemini3flash_medium-repeat8_suc200trajs,聚焦于多模态交互场景下基于图像与文本指令的智能体执行任务。其经典用法是作为多轮视觉语言导航与操作任务的训练与评估基准,研究者可利用其中的图像序列与结构化提示(prompt)指导模型完成诸如物体操作、空间推理或工具使用等复杂指令。数据集中包含的ground_truth、style、goal、task_specific_prompt等字段为细粒度对齐感知提供了支撑,尤其适合用于训练具备视觉理解与执行能力的强化学习或指令跟随模型。
解决学术问题
该数据集解决了多模态大模型在少样本、多任务环境下指令跟随能力评估难题。传统基准常缺乏对任务目标(goal)与领域专用提示(task_specific_prompt)的分层标注,导致模型难以区分语义相似但执行策略不同的指令。本数据集通过引入结构化reward_model(含ground_truth与style)及丰富的extra_info字段(如completion、think轨迹),使学术界能够量化分析模型在拆解复杂任务、维持长程目标一致性等方面的瓶颈。其意义在于推动从“感知对齐”向“动作计划对齐”的范式迁移,为构建通用智能助手中的时空规划与错误恢复机制提供了关键验证平台。
衍生相关工作
该数据集衍生了若干经典研究方向,包括多任务元学习、可解释轨迹推理与视觉语言行为克隆。相关工作如《从静态数据集学习隐式奖励函数的视觉导航》利用其reward_model中的ground_truth与think链,借助逆强化学习解耦任务意图;另有研究基于completion字段开发了混合专家框架,将长程任务分解为可重组的子技能单元。此外,uuid的唯一标识符支持跨任务迁移学习,催生了结合对比学习与目标泛化的Benchmark(如“多库房异步操作”评测),推动了具身智能领域从单一场景向多源交互环境的演进。
以上内容由遇见数据集搜集并总结生成



