five

MM-Verify-Data

收藏
github2025-03-04 更新2025-03-08 收录
下载链接:
https://github.com/Aurora-slz/MM-Verify
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于MM-Verifier和MM-Reasoner的 fine-tune,通过模拟基于树的搜索与验证结合拒绝采样生成高质量的Chain-of-Thought (COT) 数据。

This dataset is designed for fine-tuning MM-Verifier and MM-Reasoner, and produces high-quality Chain-of-Thought (COT) data via simulating rejection sampling that integrates tree-based search and verification.
创建时间:
2025-02-15
原始信息汇总

MM-Verify 数据集概述

数据集简介

MM-Verify 是一个用于增强多模态推理的验证数据集。该数据集通过更长的推理和更稳健的验证来提升多模态推理性能。

数据集特点

  • 采用两步骤的多模态验证数据合成方法。
  • 结合基于模拟的树搜索与验证,使用拒绝抽样生成高质量的链式思维(COT)数据。
  • 为文本基础推理与多模态推理之间的差距提供了一种更有效的合成方法。

数据集组成

  • 用于微调验证模型 MM-Verifier 的 COT 数据。
  • 用于微调 MM-Reasoner 的 MMCOT 数据。

相关链接

数据集发布

  • 2025.02.23 发布 MM-Verifier 模型。
  • 2025.02.23 发布 MM-Verifier 和 MM-Reasoner 的训练数据集。

使用说明

  • 使用 ResT-MCTS 的搜索算法实现。
  • 对每个问题进行多次抽样。
  • 执行验证数据注释。
  • 进行数据清洗。

工具与脚本

  • /search/eval.sh:搜索算法评估脚本。
  • /data_syn/sample_qwen2vl.py:问题抽样脚本。
  • /data_syn/orm_to_sft.py:验证数据注释脚本。
  • /data_syn/clean_ormData_mm_sample.py:数据清洗脚本。
  • /data_syn/test4_mavis_vllm_slz.py:数据蒸馏脚本。
  • /data_syn/clean_qwqData_mm.py:数据清洗脚本。
搜集汇总
数据集介绍
main_image_url
构建方式
MM-Verify-Data数据集的构建采用了模拟基础的树搜索与验证相结合的两步骤合成方法。首先,通过模拟基础树搜索生成候选的Chain-of-Thought(COT)数据,随后利用拒绝抽样技术对数据进行筛选,以生成高质量的COT数据用于微调验证模型MM-Verifier。此外,研究团队还开发了一种更高效的MMCOT数据合成方法,以弥合文本基础与多模态推理之间的差距,进而用于微调MM-Reasoner模型。
特点
该数据集的主要特点是包含了精心合成的多模态Chain-of-Thought数据,这些数据能够促进模型在推理阶段生成更长的推断序列,从而提高准确性。MM-Verify-Data数据集的构建旨在增强多模态推理能力,通过提供强健的验证数据,有助于模型的长期推理和验证性能的提升。
使用方法
使用MM-Verify-Data数据集时,用户可依据数据集中的脚本进行数据合成、注释、清洗等步骤。数据合成阶段,用户可通过采样和搜索算法生成候选数据;数据注释阶段,用户需执行特定的脚本将原始数据转换为适用于模型训练的格式;而在数据清洗阶段,则需对数据进行过滤,以确保数据质量。数据集配备的脚本和工具旨在简化这一过程,便于研究者高效利用数据集进行模型训练与评估。
背景与挑战
背景概述
MM-Verify-Data数据集是在多模态推理领域为了提升推理性能而创建的。该数据集的构建起始于2025年,由相关研究人员通过深入探索如何通过更长的推理和更稳健的验证来增强多模态推理能力。核心研究问题是设计一种有效的多模态验证器(MM-Verifier),以解决多模态领域中缺乏强大验证工具的问题。该数据集的创建不仅促进了学术界的讨论,也为相关领域的技术进步提供了有力的数据支撑。
当前挑战
该数据集在构建过程中面临的挑战主要包括:如何合成高质量链式思维(COT)数据以微调验证模型MM-Verifier;如何架设文本基础推理与多模态推理之间的桥梁,提出更高效的多模态链式思维(MMCOT)数据合成方法。此外,数据集构建还需解决如何通过模拟基于树的搜索与验证结合的合成方法,以及如何在数据标注和清洗过程中保证数据的质量和一致性。
常用场景
经典使用场景
在当前的多模态推理领域,MM-Verify-Data数据集的典型应用场景在于通过长推理和强验证来增强多模态推理能力。该数据集通过模拟基于树的搜索与验证相结合的两步验证数据合成方法,以及拒绝采样技术,生成高质量的链式思维(COT)数据,进而用于微调验证模型MM-Verifier,推进了多模态推理的发展。
衍生相关工作
基于MM-Verify-Data数据集,已经衍生出MM-Verifier和MM-Reasoner等经典工作,这些工作不仅提升了多模态推理的性能,还为相关领域的研究提供了新的视角和工具,推动了多模态学习技术的发展。
数据集最近研究
最新研究方向
针对多模态领域缺乏强效验证器的现状,本研究提出了MM-Verifier与MM-Reasoner,通过更长的推理和更稳健的验证来增强多模态推理能力。研究首先提出了一种两步骤的多模态验证数据合成方法,结合基于模拟的树搜索与验证,并使用拒绝采样生成高质量的链式思维(COT)数据,进而用于微调验证模型MM-Verifier。此外,研究还展示了一种更高效的MMCOT数据合成方法,架起了文本基础推理与多模态推理之间的桥梁,并使用合成数据微调MM-Reasoner。该研究对推动多模态推理领域的发展具有重要意义,特别是在提升推理性能和验证效率方面。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作