WeThink

Name: WeThink
Creator: 腾讯微信视觉实验室
Published: 2025-06-10 00:20:54
License: 暂无描述

arXiv2025-06-10 更新2025-06-11 收录

下载链接：

https://github.com/yangjie-cv/WeThink

下载链接

链接失效反馈

官方服务：

资源简介：

WeThink数据集是一个包含超过12万个多模态问答对的数据集，每个问答对都带有明确的推理路径。数据集由18个不同的公开图像数据集精心挑选而来，涵盖了各种问题和领域，包括推理、OCR、识别、数学、知识和空间感知等，从而增强了模型的多模态推理能力。WeThink数据集旨在解决多模态推理中缺乏多样化和推理中心数据的问题，并为模型提供了一组全面且具有挑战性的数据，以帮助模型在视觉语言推理任务中取得更好的表现。

The WeThink dataset is a collection of over 120,000 multimodal question-answer pairs, each paired with explicit reasoning paths. It is carefully curated from 18 distinct public image datasets, covering a wide range of question types and domains including reasoning, OCR, recognition, mathematics, general knowledge, and spatial perception, to enhance the multimodal reasoning capabilities of models. The WeThink dataset aims to address the scarcity of diverse, reasoning-focused data in multimodal reasoning, and provides a comprehensive and challenging dataset to help models achieve better performance on visual-language reasoning tasks.

提供机构：

腾讯微信视觉实验室

创建时间：

2025-06-10

原始信息汇总

WeThink数据集概述

数据集基本信息

名称: WeThink Multimodal Reasoning 120K
类型: 多模态推理数据集（视觉-语言）
存储位置: Hugging Face平台
数据集地址: https://huggingface.co/datasets/yangjie-cv/WeThink_Multimodal_Reasoning_120K

数据集内容

数据格式: JSON
字段说明:
- problem: 问题描述
- answer: 答案
- category: 问题类型
- abilities: 问题所需能力
- refined_cot: 思维过程
- image_path: 图像路径
- reward: 奖励方法

配套资源

配套图像:
- 下载地址: https://huggingface.co/datasets/Xkev/LLaVA-CoT-100k
- 文件格式: 分卷压缩包（image.zip.part-aa至image.zip.part-ap）
- 合并命令: cat image.zip.part-* > image.zip && unzip image.zip

训练支持

监督微调推荐工具: LLaMA-Factory
强化学习框架: EasyR1（支持基于规则的强化学习）

引用信息

bibtex @misc{yang2025wethink, title={WeThink: Toward General-purpose Vision-Language Reasoning via Reinforcement Learning}, author={Jie Yang and Feipeng Ma and Zitian Wang and Dacheng Yin and Kang Rong and Fengyun Rao and Ruimao Zhang}, year={2025}, eprint={2506.07905}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2506.07905}, }

搜集汇总

数据集介绍

构建方式

WeThink数据集通过创新的可扩展多模态问答合成流程构建，该流程能够直接从给定图像中自主生成具有上下文感知和以推理为核心的问题-答案对。数据来源于18个不同的公开图像数据集，覆盖了多种图像类别，包括通用图像、文本密集型图像、科学与技术图像以及艺术与文化图像。通过多轮信息精炼和能力协同约束策略，确保生成的问题具有深度和复杂性，同时结合规则和模型验证机制保证答案的准确性。

使用方法

WeThink数据集适用于监督微调（SFT）和强化学习（RL）训练。在SFT中，模型通过链式思维（CoT）标注数据学习生成推理步骤；在RL中，采用混合奖励机制（结合规则和模型评估）优化模型性能。数据集支持多领域任务，从数学推理到通用多模态挑战，通过提升数据多样性持续增强模型表现。

背景与挑战

背景概述

WeThink数据集由腾讯WeChat Vision团队联合中国科学技术大学、中山大学等机构于2025年6月发布，旨在推进通用视觉-语言推理能力的发展。该数据集包含超过12万对多模态问答数据，涵盖数学推理、OCR识别、空间感知等18个公共图像源的跨领域任务，通过强化学习范式优化多模态大语言模型的推理能力。其创新性的可扩展多模态QA合成管道实现了从图像自主生成上下文感知的推理中心问题，显著提升了模型在MathVista等14个基准测试中的表现，成为首个系统探索强化学习在通用视觉-语言推理中应用的开源数据集。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决多模态推理中语义鸿沟与逻辑连贯性的平衡问题，特别是数学符号识别与视觉上下文理解的交叉验证；在构建过程中，自动化流水线面临Qwen2.5-VL-72B视觉理解不完整与DeepSeek-R1问题生成随机性的矛盾，需通过多轮信息精炼机制和六维能力协同约束（推理+识别/知识/OCR/空间/数学）确保数据质量。此外，混合奖励机制需协调规则验证与模型评估的冲突，在主观性答案评估与客观数学精度间建立平衡。

常用场景

经典使用场景

WeThink数据集在视觉-语言推理领域具有广泛的应用场景，特别是在多模态大语言模型（MLLMs）的训练与评估中。该数据集通过其丰富的多模态问答对，为模型提供了涵盖数学推理、视觉感知、OCR识别、空间意识及知识应用等多样化任务的学习素材。在数学推理任务中，模型需结合图像内容进行多步逻辑推导，如计算概率或解决几何问题；在视觉问答任务中，模型需综合图像中的文本、物体及空间关系生成准确答案。数据集通过强化学习范式优化模型推理路径，显著提升了模型在复杂跨模态任务中的表现。

解决学术问题

WeThink数据集有效解决了多模态推理领域的两大核心问题：一是缺乏覆盖多领域的推理中心数据，传统数据集往往局限于单一任务或简单问答形式；二是强化学习奖励机制在通用视觉-语言场景中的适应性不足。通过自主生成的12万组带标注推理链的QA对，该数据集弥补了跨模态推理数据的空白。其混合奖励机制（规则验证与模型评估结合）突破了数学等结构化任务与开放式视觉问答的优化壁垒，在14个基准测试中使模型平均性能提升3.9%，尤其在MathVista和MMMU等需综合能力的任务上表现突出。

实际应用

在实际应用层面，WeThink数据集支撑的模型可部署于智能教育系统，辅助学生通过可视化步骤理解数学问题；在医疗领域，其增强的视觉推理能力有助于分析医学影像与诊断报告的结合；商业场景中，模型能精准解读图表数据并生成逻辑报告。数据集的自动化生成管道可持续从互联网抓取图像生成新QA对，使模型适应不断变化的现实需求，如动态更新的地理信息解读或新兴文化符号识别，体现了强大的场景泛化能力。

数据集最近研究