OneThinker-600k, OneThinker-SFT-340k

github2025-12-06 更新2025-12-07 收录

下载链接：

https://github.com/tulerfeng/OneThinker

下载链接

链接失效反馈

官方服务：

资源简介：

我们的数据集涵盖了图像和视频两种模态，并涵盖了一系列基本的视觉推理任务，包括基于规则的QA、开放式QA、字幕、空间定位、时间定位、时空定位、跟踪和分割。为了有效支持推理的SFT初始化，我们利用了一个强大的专有模型Seed1.5-VL来生成CoT注释。

Our dataset covers two modalities: image and video, and encompasses a range of fundamental visual reasoning tasks, including rule-based QA, open-ended QA, captioning, spatial localization, temporal localization, spatio-temporal localization, tracking, and segmentation. To effectively support SFT initialization for visual reasoning, we utilized a powerful proprietary model, Seed1.5-VL, to generate CoT annotations.

创建时间：

2025-12-02

原始信息汇总

OneThinker 数据集概述

数据集基本信息

数据集名称: OneThinker
发布机构/作者: OneThink
发布日期: 2025年12月03日
相关论文: OneThinker: All-in-one Reasoning Model for Image and Video

数据集内容与构成

模态: 涵盖图像和视频两种模态。
任务范围: 覆盖一系列基础视觉推理任务，包括：
- 基于规则的问答
- 开放式问答
- 描述生成
- 空间定位
- 时间定位
- 时空定位
- 跟踪
- 分割
训练语料库: 构建了大规模的多任务训练语料库 OneThinker-600k。
SFT数据: 构建了包含高质量思维链注释的 OneThinker-SFT-340k，用于冷启动监督微调。注释由强大的专有模型 Seed1.5-VL 生成。

数据集获取与使用

训练数据地址: https://huggingface.co/datasets/OneThink/OneThinker-train-data
评估数据地址: https://huggingface.co/datasets/OneThink/OneThinker-eval
数据文件说明:
- onethinker_rl_train.json: 用于强化学习训练。
- onethinker_sft_image.json 和 onethinker_sft_video.json: 用于SFT冷启动。
- 以 _unsampled 结尾的JSON文件为未采样的完整数据集。

模型性能

OneThinker-8B 在10个基础视觉任务的31个基准测试中表现出色，例如：

MMMU: 70.6% 准确率
MathVerse: 64.3% 准确率
VideoMMMU: 66.2% 准确率
Refcoco-testA: 93.7 分
ReasonVOS: 54.9 J&F 分数

训练方法

强化学习方法: 提出了 EMA-GRPO 方法，通过简单跟踪任务奖励标准差的移动平均，来平衡不同视觉任务间的异构奖励信号。
训练要求: 进行SFT和RL训练至少需要 8 × 80GB GPU。
训练框架: 支持 Qwen3-VL 训练、图像-视频混合训练以及多样视觉任务的奖励类型。

评估与推理

评估脚本: 提供了对所有基准进行评估的脚本 (./Evaluation/Eval/eval_bench_all.sh)。
推理支持: 由于与 Qwen3-VL-8B 架构相同，支持简单高效的推理。提供了单样本推理示例脚本。
部分任务评估工具: 对于图像QA和部分视频QA任务，使用 VLMEvalKit 进行评估。
分割任务评估: 需额外安装 sam2。

搜集汇总

数据集介绍

构建方式

在构建多模态推理数据集的过程中，OneThinker-600k与OneThinker-SFT-340k的创建体现了对视觉任务统一建模的深刻洞察。该数据集通过整合图像与视频两种模态，覆盖了规则问答、开放问答、描述生成、空间定位、时间定位、时空定位、跟踪及分割等一系列基础视觉推理任务。为确保高质量思维链注释，研究团队利用强大的专有模型Seed1.5-VL生成详细的推理过程，为后续的监督微调提供了可靠的冷启动基础。整个构建过程注重任务多样性与注释的严谨性，为训练统一的多模态推理模型奠定了坚实的数据基石。

特点

OneThinker数据集的核心特点在于其广泛的任务覆盖与高质量的注释设计。数据集不仅同时涵盖图像与视频模态，还跨越了十类基础视觉任务，实现了多任务学习的深度融合。其提供的思维链注释细致入微，能够有效引导模型进行逐步推理，增强其解释性与泛化能力。此外，数据集支持异构奖励信号的平衡，通过任务级奖励标准差的移动平均追踪，为强化学习训练提供了稳定的优化基础。这种设计使得数据集不仅能服务于监督微调，也为后续的强化学习对齐提供了完备的支持。

使用方法

使用OneThinker数据集进行模型训练遵循一套清晰的流程。首先，研究人员需要配置相应的训练环境，包括基于LLaMA-Factory的监督微调环境与基于EasyR1的强化学习环境。数据集文件分为用于强化学习的onethinker_rl_train.json以及用于监督微调冷启动的图像与视频专用JSON文件。训练过程通常从监督微调开始，以初始化模型的推理能力；随后可进行强化学习训练，利用数据集提供的多样化奖励信号进一步优化模型性能。对于评估，团队提供了涵盖多个基准的标准化脚本与JSON文件，支持对模型在各类视觉任务上的性能进行全面、高效的测试。

背景与挑战

背景概述

随着多模态人工智能技术的快速发展，视觉与语言融合的推理任务日益复杂化，传统单一任务模型难以应对跨模态、跨任务的综合需求。在此背景下，研究团队于2025年推出了OneThinker系列数据集，旨在构建一个统一的多模态推理通用模型。该数据集由OneThink研究机构主导开发，核心研究问题聚焦于如何让单一模型同时处理图像与视频中的多样化基础视觉任务，包括规则问答、开放问答、描述生成、空间定位、时序定位、时空定位、目标跟踪及分割等。通过大规模多任务训练语料OneThinker-600k与高质量思维链标注数据集OneThinker-SFT-340k的构建，该工作为多模态通用智能体的发展提供了关键数据支撑，推动了视觉推理模型从专项化向通用化的范式转变。

当前挑战

OneThinker数据集致力于解决多模态统一推理这一前沿领域的核心挑战，即如何让模型在单一架构下同时掌握图像与视频中多种异构视觉任务的推理能力。具体挑战体现在两个方面：在领域问题层面，需要克服跨任务知识迁移的困难，平衡不同任务间的奖励信号异质性，并实现零样本泛化能力；在构建过程中，面临多模态数据对齐、高质量思维链标注生成、以及大规模多任务数据集的清洗与整合等工程挑战。此外，数据集中涵盖的时空定位、目标跟踪等动态任务对标注精度与一致性提出了极高要求，而如何确保不同任务间数据分布的均衡性与代表性亦是关键难题。

常用场景

经典使用场景

在视觉多模态推理领域，OneThinker-600k与OneThinker-SFT-340k数据集为构建统一的多任务推理模型提供了核心训练资源。其经典使用场景在于支持模型在单一架构内，同时处理图像与视频模态下的多样化基础视觉任务，例如规则问答、开放问答、描述生成、空间定位、时序定位、时空定位、目标跟踪及分割等。通过大规模多任务语料与高质量思维链标注，该数据集使模型能够进行跨任务的知识迁移与零样本泛化，为训练具备广泛推理能力的通用视觉智能体奠定了数据基础。

解决学术问题

该数据集有效应对了多模态人工智能研究中长期存在的任务碎片化与模型专一化难题。通过整合涵盖图像与视频的十类基础视觉任务，它促进了统一推理框架的探索，解决了异构任务间奖励信号平衡、跨模态知识融合以及冷启动监督微调等关键学术问题。其构建的思维链注释进一步增强了模型的可解释性与分步推理能力，为迈向具备通用性的多模态推理专家系统提供了重要的数据支撑与研究范式。

衍生相关工作

该数据集的发布催生并紧密关联了一系列经典研究工作，特别是其提出的EMA-GRPO强化学习方法，为平衡多视觉任务间的异构奖励信号提供了新颖解决方案。相关衍生工作围绕统一多模态推理模型的架构设计、训练策略以及评估基准展开，例如对Video-R1、DeepSeek-R1等项目的借鉴与拓展。这些工作共同推动了构建全能型视觉推理通用模型的研究方向，并在VLMEvalKit等评估工具的支持下，建立了更全面的性能评测体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集