five

MINDGYM

收藏
arXiv2025-03-13 更新2025-03-14 收录
下载链接:
https://github.com/modelscope/datajuicer/tree/MindGYM
下载链接
链接失效反馈
官方服务:
资源简介:
MINDGYM数据集是由中山大学和阿里巴巴集团共同创建的,旨在通过合成自我挑战性问题来增强视觉语言模型的能力。该数据集涵盖了文本和多媒体环境下的认知问题,分为三个阶段:单跳问题合成、挑战性多跳问题合成和思维驱动的课程微调。具体内容包含了八个语义领域的单跳问题,以及通过多样化认知操作符组合形成多跳问题。该数据集的应用领域是视觉语言推理,旨在提升模型在多模态、高阶认知任务中的性能。

The MINDGYM dataset was co-created by Sun Yat-sen University and Alibaba Group, aiming to enhance the capabilities of vision-language models (VLMs) through the synthesis of self-challenging questions. This dataset covers cognitive problems in both textual and multimedia environments, and is divided into three stages: single-hop question synthesis, challenging multi-hop question synthesis, and thinking-driven curriculum fine-tuning. Specifically, it includes single-hop questions across eight semantic domains, as well as multi-hop questions formed by combining diverse cognitive operators. Targeting vision-language reasoning applications, this dataset is designed to improve model performance on multimodal high-order cognitive tasks.
提供机构:
中山大学, 阿里巴巴集团
创建时间:
2025-03-13
搜集汇总
数据集介绍
构建方式
MINDGYM数据集的构建方式分为三个阶段:种子单跳问题合成、具有挑战性的多跳问题合成和思考诱导的课程微调。首先,通过种子单跳问题合成生成认知问题,涵盖文本和跨模态上下文,涉及八个语义领域。其次,通过具有挑战性的多跳问题合成,结合种子问题,使用不同的原则创建多步问题,要求更深入的推理。最后,通过思考诱导的课程微调,构建了一个结构化的管道,逐步训练模型从支架推理到独立推理,将高级推理能力嵌入到模型参数中。
特点
MINDGYM数据集的特点是高数据效率、计算效率和强大的泛化能力。通过利用模型的自合成能力,MINDGYM在MathVision-Mini上取得了+16%的增益,仅使用了400个样本。同时,MINDGYM通过GPT-based评分分析,在推理深度和广度方面取得了显著改进(+15.77%的胜率),证明了其有效性。
使用方法
MINDGYM数据集的使用方法包括三个步骤:生成种子问题、合成具有挑战性的多跳问题和进行思考诱导的课程微调。首先,模型自生成逻辑相关的单跳问题,探索不同的推理方法和主题。其次,使用这些种子问题构建结构化的复杂问题,并通过多跳组合创建分层、多步问题,要求更深入的认知参与。最后,通过课程微调,逐步训练模型从支架推理到独立推理,嵌入高级推理能力。
背景与挑战
背景概述
随着视觉语言模型(VLMs)在需要联合推理视觉和文本输入的任务中的应用日益广泛,如何使其具备鲁棒、可迁移和高效的推理能力成为一个挑战。现有的方法依赖于劳动密集型的人工指令数据集或计算成本高昂的自监督学习方法,而MINDGYM数据集则提出了一种新的框架,通过合成自我挑战问题来增强VLMs。该数据集由中山大学的Zhe Xu、Daoyuan Chen和Zhenqing Ling,以及阿里巴巴集团的Yaliang Li和Ying Shen等人于2025年创建,旨在通过三个阶段(种子单跳问题合成、具有挑战性的多跳问题合成和思考驱动的课程微调)来提高VLMs的推理能力。
当前挑战
MINDGYM数据集在构建过程中面临了多个挑战。首先,它需要解决领域问题,即如何使VLMs具备鲁棒、可迁移和高效的推理能力。其次,构建过程中遇到了合成复杂问题的挑战,这些问题需要考虑思维的深度、广度和跨模态性。此外,还需要解决推理增强方法计算成本高昂的问题,例如强化学习和迭代提示等方法。MINDGYM通过引入自我挑战进化,实现了高数据效率和逐步训练,从而最小化了人类干预和资源需求,并取得了显著的性能提升。
常用场景
经典使用场景
MINDGYM数据集主要应用于增强视觉语言模型(VLMs)的推理能力。通过生成合成的自我挑战性问题,MINDGYM框架帮助VLMs在深度和广度上进行推理,从而在视觉和文本输入的任务中实现更鲁棒和可迁移的推理能力。
解决学术问题
MINDGYM数据集解决了现有VLMs在推理能力方面的局限性。通过引入自我挑战性问题,该数据集不仅提高了模型的数据效率,还减少了计算成本,并实现了在不同任务中的稳健泛化。此外,MINDGYM还展示了自我挑战进化的可行性,通过高效的数据利用和逐步训练,吸收了类似人类的推理模式。
衍生相关工作
MINDGYM数据集的提出和实现为视觉语言推理领域带来了新的研究方向。该数据集衍生了一系列相关工作,包括但不限于:基于自我挑战问题的视觉语言模型推理、基于认知数据自合成的模型训练、基于思维诱导课程微调的模型训练等。这些工作进一步推动了视觉语言推理领域的发展,并为相关研究和应用提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作