OneThinker-train-data

Hugging Face2025-12-09 更新2025-12-10 收录

下载链接：

https://huggingface.co/datasets/OneThink/OneThinker-train-data

下载链接

链接失效反馈

官方服务：

资源简介：

OneThinker-600k是一个大规模多任务训练语料库，旨在训练OneThinker模型，这是一个能够理解图像和视频的多模态推理模型。该语料库包括OneThinker-SFT-340k，这是一个包含高质量Chain-of-Thought注释的子集，用于监督微调冷启动。数据集涵盖图像和视频两种模态，并覆盖一系列基础视觉推理任务，如基于规则的问答、开放式问答、字幕生成、空间定位、时间定位、时空定位、跟踪和分割。数据集文件包括用于不同训练阶段的JSON文件，如RL训练和SFT冷启动。

创建时间：

2025-12-01

原始信息汇总

OneThinker-600k 训练数据集概述

数据集基本信息

数据集名称: OneThinker-600k Training Data
发布机构/作者: 与论文《OneThinker: All-in-one Reasoning Model for Image and Video》相关
任务类别:
- 图像-文本到文本
- 视频-文本到文本
- 目标检测
- 图像分割
语言: 英语 (en)

数据集简介

OneThinker-600k 是一个大规模多任务训练语料库，旨在训练 OneThinker——一个能够理解图像和视频、并处理多种基础视觉任务的一体化多模态推理模型。该语料库包含 OneThinker-SFT-340k，其中包含由强大的专有模型（Seed1.5-VL）生成的高质量思维链（CoT）标注，用于有效的监督微调（SFT）冷启动。

数据内容与任务覆盖

数据集涵盖图像和视频两种模态，并覆盖一系列基础视觉推理任务，包括：

基于规则的问答
开放式问答
描述生成
空间定位
时间定位
时空定位
跟踪
分割

数据集文件

训练数据由多个针对不同训练阶段定制的 JSON 文件组成：

onethinker_rl_train.json: 用于强化学习训练。
onethinker_sft_image.json: 用于图像数据的监督微调冷启动。
onethinker_sft_video.json: 用于视频数据的监督微调冷启动。文件名以 _unsampled 结尾的文件代表这些数据集的完整、未采样版本。

引用信息

若使用本数据集，请考虑引用相关论文： bibtex @article{feng2025onethinker, title={OneThinker: All-in-one Reasoning Model for Image and Video}, author={Feng, Kaituo and Zhang, Manyuan and Li, Hongyu and Fan, Kaixuan and Chen, Shuang and Jiang, Yilei and Zheng, Dian and Sun, Peiwen and Zhang, Yiyuan and Sun, Haoze and others}, journal={arXiv preprint arXiv:2512.03043}, year={2025} }

搜集汇总

数据集介绍

构建方式

在构建OneThinker-600k数据集时，研究团队致力于创建一个支持多模态推理的大规模训练语料库。该数据集通过整合图像与视频两种模态，覆盖了从规则问答、开放问答到描述生成，以及空间定位、时间定位、时空定位、跟踪与分割等一系列基础视觉任务。其核心组成部分OneThinker-SFT-340k采用了高质量的思维链标注，这些标注由强大的专有模型Seed1.5-VL生成，旨在为监督微调的冷启动提供有效支持，确保了数据在复杂推理任务上的深度与一致性。

特点

OneThinker-600k数据集展现出显著的多任务与多模态特性，它统一了图像与视频的理解框架，使模型能够在一个连贯的体系下处理多样的视觉推理问题。数据集不仅规模庞大，还特别注重标注质量，其中包含的思维链注释为模型提供了可解释的推理路径，有助于提升其逻辑分析与分步思考的能力。这种设计使得该数据集成为训练全能型视觉推理模型的理想资源，为跨任务的知识迁移与泛化奠定了坚实基础。

使用方法

该数据集的使用主要围绕不同的训练阶段进行组织。对于监督微调的冷启动，研究人员可分别使用`onethinker_sft_image.json`和`onethinker_sft_video.json`文件针对图像与视频数据开展训练；而在强化学习阶段，则需调用`onethinker_rl_train.json`文件。数据集还提供了未采样版本的文件，以满足对完整数据探索的需求。在实际应用中，开发者可依据这些结构化文件，系统地训练和评估如OneThinker这样的统一多模态推理模型，推动其在复杂视觉场景中的理解与应用。

背景与挑战

背景概述

随着多模态人工智能技术的飞速发展，构建能够统一理解图像与视频内容的通用推理模型成为计算机视觉领域的核心前沿。在此背景下，研究团队于2025年提出了OneThinker项目，并随之创建了大规模训练数据集OneThinker-600k。该数据集由论文《OneThinker: All-in-one Reasoning Model for Image and Video》的作者团队构建，旨在为训练一个全能型的多模态推理模型提供数据支撑。其核心研究问题是解决模型在图像与视频双模态下，对包括问答、描述、空间与时空定位、跟踪及分割在内的多种基础视觉任务进行统一理解和端到端推理的难题。该数据集的发布为推进通用视觉智能体的发展提供了关键的数据资源，对多模态大模型的研究方向产生了显著影响。

当前挑战

OneThinker数据集旨在应对构建通用视觉推理模型所面临的核心挑战。在领域问题层面，其挑战在于如何设计一个统一的模型架构与训练范式，以同时处理图像与视频两种模态，并覆盖从开放式问答、规则推理到像素级分割等跨度极大的异构任务，这要求模型具备极强的泛化与任务协调能力。在构建过程层面，挑战主要集中于高质量标注数据的获取与整合。具体而言，为启动监督微调阶段而构建的OneThinker-SFT-340k子集，其高质量思维链标注依赖于强大的专有模型生成，这涉及复杂的自动化标注流程设计与质量把控。此外，将涵盖时空定位、跟踪等复杂任务的海量图像与视频数据进行标准化、对齐与统一格式化，同样是一项艰巨的工程。

常用场景

经典使用场景

在视觉与语言多模态研究领域，OneThinker-600k数据集为训练统一的多模态推理模型提供了核心支撑。其经典使用场景集中于模型的监督微调与强化学习阶段，通过整合图像与视频两种模态，并覆盖从规则问答、开放问答到描述生成，再到空间定位、时序定位乃至分割与追踪等一系列基础视觉任务，为模型提供了端到端的跨任务联合训练框架。这种设计使得模型能够在一个统一的架构下，学习处理多样化的视觉推理问题，从而推动通用视觉理解能力的发展。

衍生相关工作

围绕OneThinker-600k数据集及其提出的统一建模思想，已衍生出系列相关研究。其核心工作《OneThinker: All-in-one Reasoning Model for Image and Video》系统阐述了构建全能推理模型的架构与训练方法。这一范式激励了后续研究进一步探索多模态任务的统一表示学习、跨模态的思维链推理增强，以及如何将更多样化的感知与认知任务整合进单一模型。这些工作共同推动了从专用模型向通用多模态智能体演进的研究趋势。

数据集最近研究