ETCHR-SFT-400K
收藏Hugging Face2026-05-22 更新2026-05-24 收录
下载链接:
https://huggingface.co/datasets/internlm/ETCHR-SFT-400K
下载链接
链接失效反馈官方服务:
资源简介:
ETCHR SFT-400K是一个用于监督微调(SFT)的大规模视觉推理数据集,旨在将基于FLUX.2-klein-base-9B构建的被动指令跟随图像编辑器,转化为一个自主的、以问题为条件的视觉推理助手。该数据集包含400,000个样本,覆盖五个核心视觉推理任务:细粒度感知、图表理解、迷宫求解、拼图以及空间理解。每个数据样本由三部分构成:原始图像、一个针对该图像提出的理解性问题(作为图像编辑的提示词),以及一个真实编辑后的图像(该编辑旨在帮助理解模型回答前述问题)。数据以DiffSynth-Studio的训练格式组织,存储于SFT-400K.parquet文件中。该数据集服务于ETCHR(Editing To Clarify and Harness Reasoning)项目,该项目通过引入一个解耦的、可插拔的专用图像编辑模块,来辅助下游多模态大语言模型(MLLMs)进行复杂视觉推理,突破了纯文本思维链在细粒度聚焦和空间变换上的局限性。
ETCHR SFT-400K is a large-scale visual reasoning dataset for supervised fine-tuning (SFT), designed to transform a passive instruction-following image editor built on FLUX.2-klein-base-9B into an autonomous, question-conditioned visual reasoning assistant. The dataset contains 400,000 samples covering five core visual reasoning tasks: fine-grained perception, chart understanding, maze solving, jigsaw puzzles, and spatial understanding. Each data sample consists of three parts: an original image, a comprehension question posed about the image (serving as the image editing prompt), and a ground truth edited image (where the edit is intended to help the model answer the aforementioned question). The data is organized in the DiffSynth-Studio training format and stored in the SFT-400K.parquet file. This dataset serves the ETCHR (Editing To Clarify and Harness Reasoning) project, which assists downstream multimodal large language models (MLLMs) in complex visual reasoning by introducing a decoupled, pluggable dedicated image editing module, overcoming the limitations of pure text chain-of-thought in fine-grained focus and spatial transformations.
提供机构:
InternLM
创建时间:
2026-05-21
原始信息汇总
数据集概述:ETCHR SFT-400K
基本信息
- 许可协议:MIT
- 任务类别:视觉问答、问答
- 语言:英文
- 数据规模:100,000 - 1,000,000 样本
- 标签:细粒度感知、图表理解、迷宫求解、拼图、空间理解
简介 ETCHR SFT-400K 是用于将被动遵循指令的图像编辑器(基于 FLUX.2-klein-base-9B)转换为自主、问题驱动的视觉推理助手的 SFT 训练数据。数据集中包含 400,000 个样本,涵盖五个任务:细粒度感知、图表理解、迷宫求解、拼图与空间理解。每个样本包含原始图像、针对该图像的理解问题(作为编辑提示)以及能够帮助理解模型回答该问题的真实编辑。
数据组织
- 数据文件:
SFT-400K.parquet - 数据格式:采用 DiffSynth-Studio 训练格式
- 训练集:所有数据以单一训练集形式提供,没有明确划分验证/测试集
- 更多使用细节可参考:
https://github.com/InternLM/ETCHR/blob/master/SFT/SFT.md
相关资源
- 论文预印本:
https://arxiv.org/abs/ - 项目主页:
https://github.com/InternLM/ETCHR - 模型:
https://huggingface.co/internlm/ETCHR-FLUX.2-klein-9B - 相关数据集:
https://huggingface.co/datasets/internlm/ETCHR-GRPO-10K、https://huggingface.co/datasets/internlm/DL3DV-2k
使用说明
所有源图像、真实编辑及文本指令均存储于 SFT-400K.parquet 文件中。数据集遵循 DiffSynth-Studio 训练格式,用户可直接用于训练视觉推理编辑器模型。
搜集汇总
数据集介绍

构建方式
ETCHR-SFT-400K数据集专为将被动式指令跟随图像编辑器转化为自主、问题驱动的视觉推理助手而构建,其核心设计依托于FLUX.2-klein-base-9B模型。该数据集汇集了400,000个样本,覆盖五大视觉推理任务:细粒度感知、图表理解、迷宫求解、拼图挑战与空间理解。每个样本由原始图像、针对该图像的推理问题(作为编辑提示)以及真实编辑结果三部分组成,后者旨在辅助理解模型准确回答问题。数据以DiffSynth-Studio训练格式组织,所有源图像、真实编辑与文本指令均存储于SFT-400K.parquet文件中,确保训练流程标准化与高效加载。
特点
该数据集的显著特色在于其解耦式与即插即用的设计理念。ETCHR作为独立模块,可无缝协助多种下游多模态大语言模型(如Qwen3-VL-8B、Gemini-3.1-Flash-Lite等),无需对理解模型进行任何任务特定微调。此外,其内置的编辑-验证-推理推理机制,允许理解模型过滤噪声或错误编辑,在验证失败时安全回退至原始图像,从而显著提升推理过程的稳健性与精确度。五大任务覆盖从微观细节到宏观空间结构的多样化认知需求,充分考验模型的综合视觉推理能力。
使用方法
使用该数据集时,研究者可直接从SFT-400K.parquet文件中读取所有图像源、真实编辑标注及文本指令。数据遵循DiffSynth-Studio的标准化训练格式,便于直接接入编辑模型训练流程。详细的训练指南发布于ETCHR项目主页的SFT文档中,指导用户如何基于该数据集对FLUX.2-klein-base-9B模型进行监督微调,从而将其演化为具备自主推理能力的视觉问答助手。数据加载后,模型将根据图像与问题生成编辑结果,通过与真实编辑的比较进行损失计算和参数优化。
背景与挑战
背景概述
ETCHR-SFT-400K数据集由上海人工智能实验室(上海AI Lab)InternLM团队于2026年5月发布,旨在解决多模态大语言模型在精细感知与空间推理任务中面临的“思维链失效”瓶颈。传统纯文本推理方法难以应对图表解析、迷宫求解、拼图恢复等需要复杂视觉变换的场景,而该数据集通过构建40万条“理解问题—原始图像—目标编辑”三元组,为训练自主推理型图像编辑器提供了关键数据支撑。其核心创新在于将图像编辑功能从理解模型中解耦,赋予模型基于问题主动编辑视觉输入的能力,显著提升了多模态系统的细粒度认知与空间操作水平。该数据集涵盖精细感知、图表理解、迷宫求解、拼图推理与空间理解五类任务,成为连接被动指令跟随与主动视觉推理的重要桥梁,对推动多模态智能体的发展具有深远意义。
当前挑战
ETCHR-SFT-400K数据集面临的核心挑战在于如何让图像编辑器从被动执行编辑指令转变为能够自主理解问题并执行推理性编辑,这一过程要求模型在无明确人类标注步骤下完成从问题解析到视觉变换的全链路推理。在领域问题层面,多模态大语言模型在精细感知(如图表中微小数值变化)与复杂空间操作(如迷宫路径标注)上表现脆弱,纯文本思维链难以弥合视觉与语言之间的语义鸿沟。在构建过程中,数据集面临着任务多样性与标注一致性的平衡难题:400K样本需覆盖五种异构任务,每种任务对编辑保真度、问题耦合度及视觉变化幅度的要求截然不同,同时需确保原始图像与编辑后图像间的差异仅由问题驱动,避免引入无关视觉噪声。此外,编辑验证机制的引入进一步增加了数据质量管控的复杂性。
常用场景
经典使用场景
在视觉推理与多模态大语言模型研究中,ETCHR-SFT-400K数据集的核心用途在于将被动遵循指令的图像编辑器转化为自主、面向问题的视觉推理助手。该数据集包含四十万条精心设计的样本,覆盖细粒度感知、图表理解、迷宫求解、拼图挑战与空间理解五大任务。每一组数据均由原始图像、针对该图像的理解问题作为编辑提示,以及用于指导模型回答问题的标准编辑答案构成。研究者常以此数据集对基于FLUX.2-klein-base-9B的图像编辑器进行监督微调,使其学会根据自然语言问题主动编辑图像,从而辅助下游多模态大语言模型完成复杂的视觉问答任务。
实际应用
在实际应用中,ETCHR-SFT-400K所训练的模型可作为插件式视觉推理模块,无缝集成至现有多模态理解系统如Qwen3-VL-8B、Gemini-3.1-Flash-Lite或Kimi K2.5中,无需对下游模型进行额外微调。例如,在自动图表解读场景中,编辑器可根据用户问题定位关键数据区域并进行标注性编辑,使理解模型更精准地生成解答。在教育辅导、盲人辅助、视觉问答客服等需要动态视觉交互的领域,该系统能够通过图像编辑操作实现对外部世界的条件性响应,显著提升系统的交互灵活性与答案可靠性。
衍生相关工作
ETCHR-SFT-400K的发布催生了多项衍生研究工作。其配套的ETCHR-GRPO-10K数据集被用于强化学习阶段的策略优化,进一步提升了编辑动作的鲁棒性。研究者基于该数据集训练了ETCHR-FLUX.2-klein-9B模型,并构建了DL3DV-2K基准测试,用于评估条件性视觉编辑在三维场景理解中的表现。此外,该工作提出的解耦式编辑-推理架构启发了后续关于模块化多模态系统的探索,推动了MLLM在无需任务特定微调下进行复杂视觉推理的方向发展,成为连接图像编辑与视觉问答的桥梁性工作。
以上内容由遇见数据集搜集并总结生成



