ViRL39K
收藏github2025-04-21 更新2025-04-22 收录
下载链接:
https://github.com/TIGER-AI-Lab/VL-Rethinker
下载链接
链接失效反馈官方服务:
资源简介:
ViRL39K为我们的RL训练奠定了基础。它具有以下优点:高质量且可验证:问答经过严格的过滤和质量控制,去除了有问题的查询。
ViRL39K lays the foundation for our RL training. It features the following strengths: high quality and verifiability, as the question-answer pairs have undergone strict filtering and quality control to eliminate problematic queries.
创建时间:
2025-04-05
原始信息汇总
VL-Rethinker 数据集概述
数据集基本信息
- 名称: ViRL39K
- 发布机构: TIGER-AI-Lab
- 发布时间: 2025年4月22日
- 访问地址: https://huggingface.co/datasets/TIGER-Lab/ViRL39K
数据集特点
- 高质量与可验证性: 经过严格筛选和质量控制,移除有问题的查询或无法通过规则验证的查询。
- 全面覆盖: 包含39K个查询,涵盖八个类别,从小学问题到更广泛的STEM和社会主题。
- 细粒度标注: 提供模型能力注释,指导不同规模模型的训练数据选择。
数据集内容
- 查询类型: 涵盖图表、图表、表格、文档、空间关系等多种推理任务。
- 主题范围: 包括STEM和社会科学等多个领域。
相关模型
- VL-Rethinker-7B: 基于Qwen2.5-VL-7B-Instruct,通过SSR和Forced Rethinking训练。
- VL-Rethinker-72B: 基于Qwen2.5-VL-72B-Instruct,通过SSR和Forced Rethinking训练。
性能表现
- 基准测试: 在MathVista、MathVerse和MathVision等基准测试中表现优异,分别达到80.3%、61.8%和43.9%。
- 多学科基准: 在MMMU-Pro、EMMA和MEGA-Bench等开源基准测试中达到最先进水平。
训练方法
- 选择性样本重放 (SSR): 通过重新排列训练样本,基于信息量选择最有可能促进模型改进的样本。
- 强制重新思考 (Forced Rethinking): 在RL训练中显式强制执行自我反思推理步骤。
引用信息
bibtex @article{vl-rethinker, title={VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning}, author = {Wang, Haozhe and Qu, Chao and Huang, Zuming and Chu, Wei and Lin, Fangzhen and Chen, Wenhu}, journal={arXiv preprint arXiv:2504.08837}, year={2025} }
搜集汇总
数据集介绍

构建方式
ViRL39K数据集的构建基于对视觉语言模型自我反思能力的强化学习需求,通过严格的质量控制和验证流程筛选出39,000个高质量查询。这些查询涵盖了从小学问题到STEM和社会科学等多个领域,并包含图表、图解、表格等多种形式的推理内容。数据集构建过程中采用了细粒度的模型能力标注,确保不同规模的模型能够针对性地选择训练样本。
特点
ViRL39K数据集以其高质量和可验证性著称,所有问答对均经过严格的过滤和质量控制,剔除了无法通过规则验证的问题。数据集内容全面,覆盖了广泛的学科类别和推理形式,包括图表分析、空间关系推理等。此外,数据集还提供了细粒度的模型能力标注,为不同规模的模型训练提供了精准的数据支持。
使用方法
ViRL39K数据集的使用方法主要围绕强化学习训练展开,用户可以通过Hugging Face平台直接访问数据集。数据集适用于训练不同规模的视觉语言模型,特别是在需要自我反思和验证能力的场景中。使用过程中,建议根据模型能力标注选择合适的查询样本,并结合选择性样本重放(SSR)技术进行高效训练。数据集还支持多种推理任务,用户可通过标准化的流程加载和处理数据。
背景与挑战
背景概述
ViRL39K数据集由TIGER-Lab团队于2025年4月发布,旨在推动视觉-语言模型在复杂推理任务中的自我反思能力。该数据集包含39K个高质量查询,涵盖八个不同类别,涉及从基础教育问题到STEM和社会科学等多个领域。数据集特别设计了细粒度的模型能力标注,为不同规模的模型训练提供了精准的数据支持。ViRL39K的发布标志着视觉-语言模型在慢思考能力上的重要突破,显著提升了在MathVista、MathVerse等科学基准测试中的表现。
当前挑战
ViRL39K数据集面临的挑战主要体现在两个方面:领域问题的复杂性和数据构建的严谨性。在领域问题方面,数据集需要解决视觉-语言模型在慢思考能力上的不足,尤其是在多模态推理任务中如何有效提升模型的自我反思和验证能力。在数据构建过程中,团队需确保查询的高质量和可验证性,同时覆盖广泛的学科类别和推理场景。此外,如何通过细粒度的模型能力标注优化数据选择,以适配不同规模的模型训练,也是构建过程中的关键挑战。
常用场景
经典使用场景
在视觉语言模型(VLM)的研究领域,ViRL39K数据集因其高质量和广泛的覆盖范围而成为训练和评估模型的重要资源。该数据集包含39K个查询,涵盖八个不同类别,从小学数学问题到更广泛的STEM和社会科学主题,涉及图表、图解、表格等多种视觉元素的推理。研究人员利用ViRL39K来优化模型的多模态推理能力,特别是在需要复杂视觉和语言结合的场景中,如数学问题求解和科学图表分析。
解决学术问题
ViRL39K数据集解决了视觉语言模型在多模态推理中的关键挑战,尤其是模型在复杂视觉和语言任务中的表现不一致问题。通过提供细粒度的模型能力标注,该数据集帮助研究人员识别和优化模型在不同任务中的表现,从而显著提升了模型在MathVista、MathVerse和MathVision等基准测试中的成绩。其高质量和可验证性确保了研究结果的可靠性,推动了视觉语言模型在学术研究中的进一步发展。
衍生相关工作
ViRL39K数据集催生了一系列相关研究,尤其是在强化学习与视觉语言模型结合的方向上。基于该数据集,研究人员开发了VL-Rethinker模型,通过选择性样本重放(SSR)和强制重新思考(Forced Rethinking)技术,显著提升了模型的自我反思能力。此外,该数据集还激发了多模态推理领域的新方法,如DAPO和OpenRLHF框架的应用,进一步推动了视觉语言模型的前沿研究。
以上内容由遇见数据集搜集并总结生成



