ETCHR-GRPO-10K

Name: ETCHR-GRPO-10K
Creator: InternLM
Published: 2026-05-22 21:08:27
License: 暂无描述

Hugging Face2026-05-22 更新2026-05-23 收录

下载链接：

https://huggingface.co/datasets/internlm/ETCHR-GRPO-10K

下载链接

链接失效反馈

官方服务：

资源简介：

ETCHR GRPO-10K 是一个用于增强ETCHR（一种解耦的视觉推理助手模型）编辑能力的GRPO训练数据集。该数据集包含10,000个样本，旨在通过引导奖励来优化模型的图像编辑性能。每个样本由三个核心部分组成：一张待编辑的图像、一条编辑指令，以及一个与该图像关联的理解任务（用于量化评估编辑质量）。数据集涵盖了五个具体的任务类型：细粒度感知、图表理解、迷宫求解、拼图和空间理解。这些任务设计用于解决多模态大语言模型在纯文本思维链中难以处理的精细焦点或复杂空间变换问题。数据集以Parquet格式（GRPO-10K.parquet）提供，适用于视觉问答和问答相关的模型训练与评估。

提供机构：

InternLM

创建时间：

2026-05-21

原始信息汇总

数据集概述：ETCHR GRPO-10K

名称：ETCHR GRPO-10K
托管地址：https://huggingface.co/datasets/internlm/ETCHR-GRPO-10K
许可证：MIT

数据规模与格式

样本数量：10,000 条（1K < n < 10K）
语言：英语
配置文件：default，包含训练集，数据文件为 GRPO-10K.parquet
数据内容：每条样本包含一张待编辑图像、一条编辑指令，以及一个与该图像相关的理解任务（用于通过引导奖励评估编辑质量）

任务类别

细粒度感知（Fine-grained Perception）
图表理解（Chart Understanding）
迷宫求解（Maze Solving）
拼图游戏（Jigsaw Puzzle）
空间理解（Spatial Understanding）

用途与背景

用途：作为 GRPO（Group Relative Policy Optimization）训练数据，用于进一步增强 ETCHR 编辑能力，以辅助理解模型。
所属项目：ETCHR（Editing To Clarify and Harness Reasoning），一种问题条件型的、推理感知的图像编辑器，作为多模态大语言模型（MLLMs）的解耦视觉推理助手。

数据集亮点

解耦与即插即用：ETCHR 作为独立模块，无需对下游理解模型进行特定任务微调，即可辅助多种 MLLM（如 Qwen3-VL-8B、Gemini-3.1-Flash-Lite、Kimi K2.5）。
自然反思流水线：引入“编辑-验证-推理”机制，当验证失败时，理解模型可过滤有噪声或有缺陷的编辑，安全回退至原始图像。

相关资源

论文：https://arxiv.org/abs/
项目主页：https://github.com/InternLM/ETCHR
模型：https://huggingface.co/internlm/ETCHR-FLUX.2-klein-9B
SFT 数据集：https://huggingface.co/datasets/internlm/ETCHR-SFT-400K
GRPO 数据集：https://huggingface.co/datasets/internlm/ETCHR-GRPO-10K
基准测试：https://huggingface.co/datasets/internlm/DL3DV-2k
GRPO 使用详情：https://github.com/InternLM/ETCHR/blob/master/RL/RL.md

搜集汇总

数据集介绍

构建方式

ETCHR-GRPO-10K数据集是专为增强图像编辑模型推理能力而构建的强化学习训练数据，隶属于ETCHR项目。该数据集包含10000个样本，覆盖细粒度感知、图表理解、迷宫求解、拼图游戏与空间理解五大任务。每个样本由待编辑图像、编辑指令及关联的理解任务组成，通过引导奖励机制评估编辑质量。数据以Parquet格式存储，来源涵盖多样化的视觉推理场景，确保编辑任务与下游理解的紧密耦合。

特点

该数据集的核心特色在于其多任务融合与引导奖励设计，不仅支持图像编辑的监督学习，还通过理解任务反向验证编辑效果，形成编辑-验证-推理的自然反射流水线。此外，ETCHR-GRPO-10K作为解耦即插即用模块，可辅助Qwen3-VL-8B等多种多模态大模型，无需对理解模型进行微调，显著提升了视觉推理的精准度与鲁棒性。

使用方法

使用ETCHR-GRPO-10K时，研究人员可直接加载GRPO-10K.parquet文件，其中包含源图像、编辑指令及用于引导奖励的问答列表。建议参考官方仓库中的强化学习指南（RL.md）以复现训练流程。该数据集适用于基于GRPO算法的图像编辑模型优化，通过联合优化编辑质量与下游理解性能，提升模型在复杂视觉任务中的推理能力。

背景与挑战

背景概述

ETCHR-GRPO-10K数据集由上海人工智能实验室（InternLM团队）于2026年发布，旨在为多模态大语言模型（MLLMs）提供一种解耦的、基于推理的图像编辑训练数据。该研究聚焦于如何通过图像编辑增强模型的视觉推理能力，尤其关注细粒度感知、图表理解、迷宫求解、拼图及空间理解等复杂认知任务。作为ETCHR项目的重要组成部分，该数据集通过GRPO强化学习方法，使专门化的图像编辑器能够辅助下游理解模型突破纯文本思维链在处理精细焦点与复杂空间变换时的瓶颈，对推动多模态AI在具身智能、教育辅助及交互式视觉推理领域的发展具有深远影响。

当前挑战

数据集核心挑战在于解决现有MLLMs在视觉推理任务中的细粒度理解与空间变换局限，例如图表中微小数据点的捕捉、迷宫路径的精确追踪、拼图碎片的空间拓扑关系推断等。构建过程中面临的技术难点包括：设计能够正确引导图像编辑以提升下游理解质量的指导奖励机制，确保编辑操作不会引入误导性视觉信息；同时需在仅包含1万样本的规模下覆盖五种差异显著的任务类型，平衡数据多样性与编辑指令的精准性，并建立可靠的验证-纠错流程以应对编辑失败时的回退策略。

常用场景

经典使用场景

ETCHR-GRPO-10K数据集专为多模态大语言模型的视觉推理增强而设计，其核心应用在于通过细粒度编辑指令引导模型完成对图像内容的精准操控。该数据集包含五种经典视觉理解任务，包括精细感知、图表解读、迷宫求解、拼图还原与空间推理，每一例样本均配有待编辑图像、编辑指令以及用于评估编辑质量的关联理解任务。研究者可借助这一资源，训练出能够基于问题条件进行因果推理的图像编辑器，从而在复杂的视觉场景中实现从文本到图像的精细化转化。该数据集的经典使用场景聚焦于提升多模态系统对高密度信息图像的解析能力，尤其在需要局部聚焦与空间变换的任务中展现独特价值。

衍生相关工作

围绕ETCHR-GRPO-10K的数据特性，衍生出一系列具有影响力的研究工作。一方面，基于其五种任务场景，研究者提出了针对多模态模型视觉推理能力的专项评估基准，如DL3DV-2K Benchmark，用于衡量模型在三维空间理解与动态场景编辑中的表现。另一方面，该数据集催生了结合强化学习与视觉编辑的新训练范式，例如通过组相对策略优化对编辑器进行迭代调优，从而提升其在复杂指令下的鲁棒性。此外，还有工作探索了将编辑后的图像作为中间表示融入多轮对话系统，实现了从静态图像到动态推理链的扩展，这些工作共同推动了多模态推理从感知层向认知层的跨越。

数据集最近研究