five

MMCR

收藏
arXiv2025-03-24 更新2025-03-28 收录
下载链接:
http://arxiv.org/abs/2503.18533v1
下载链接
链接失效反馈
官方服务:
资源简介:
MMCR数据集是由西北工业大学和阿里巴巴集团联合创建的多模态多轮对话数据集。该数据集包含MMCR-310k和MMCR-Bench两部分,其中MMCR-310k是一个包含310000个对话的数据集,对话覆盖1-4张图片,分为4轮或8轮;MMCR-Bench则是一个诊断性基准,包含8个领域的对话和40个子主题。该数据集通过模拟真实世界的用户聊天机器人交互,强调每轮对话的上下文关联和逻辑推进,旨在提升视觉语言模型的多轮对话上下文推理能力。

The MMCR dataset is a multimodal multi-turn dialogue dataset jointly created by Northwestern Polytechnical University and Alibaba Group. It consists of two parts: MMCR-310k and MMCR-Bench. MMCR-310k is a dataset containing 310,000 dialogues, where each dialogue covers 1 to 4 images and is structured as either 4-turn or 8-turn conversations. MMCR-Bench, on the other hand, is a diagnostic benchmark that includes dialogues across 8 domains and 40 sub-themes. This dataset simulates real-world human-chatbot interactions, emphasizes the contextual relevance and logical progression of each dialogue turn, and aims to enhance the contextual reasoning ability of visual-language models in multi-turn dialogue scenarios.
提供机构:
西北工业大学
创建时间:
2025-03-24
搜集汇总
数据集介绍
main_image_url
构建方式
在视觉语言模型领域,多轮多图像对话数据集的构建一直是一个挑战。MMCR数据集的构建采用了创新的方法,首先从OmniCorpus-CC-210M中精心筛选了120万单图像样本和40万多图像样本作为基础数据。通过精心设计的提示工程,研究人员引导GPT-4o生成具有强上下文逻辑的多轮对话数据。为确保数据质量,采用CLIP模型对生成的对话进行语义相似度评估,严格过滤不符合要求的样本,最终获得21万单图像和10万多图像的高质量对话数据。这一构建过程特别注重对话的上下文关联性,确保每个对话轮次都能深入探讨图像细节和主题关联。
特点
MMCR数据集在视觉语言模型领域具有显著特点。作为目前最大的多图像多轮对话数据集,它包含31万条上下文对话,涵盖1-4张图像和4-8轮对话。数据集特别强调对话的上下文相关性和逻辑递进性,要求每个对话轮次都建立在前序对话基础上,深入探讨图像细节和主题关联。同时,数据集覆盖8个主要领域(人文、自然、科学、教育等)和40个子主题,确保了内容的广泛性和多样性。这些特点使MMCR成为评估和提升视觉语言模型上下文推理能力的理想选择。
使用方法
MMCR数据集的使用方法体现了其在视觉语言模型研究中的独特价值。研究人员可以将MMCR-310k用于模型微调,通过多轮多图像对话训练提升模型的上下文推理能力。MMCR-Bench则可用于全面评估模型性能,其600个精心筛选的评估样本涵盖多个领域和主题。评估采用GPT-4o作为评判者,从描述精确性、上下文一致性、逻辑关系等五个维度进行评分。值得注意的是,使用该数据集时需要保持任务类型的平衡分布,实验表明合理的数据配比对模型性能提升至关重要,这体现了'少即是多'的数据使用理念。
背景与挑战
背景概述
MMCR(Multimodal Multi-turn Contextual Reasoning)数据集由西北工业大学网络空间安全学院、阿里巴巴集团AI业务部门以及浙江大学计算机科学与技术学院的研究团队于2025年提出,旨在推动视觉语言模型(VLMs)在多轮多图像对话场景中的发展。该数据集包含MMCR-310k和MMCR-Bench两部分,分别提供了31万条多轮对话数据和涵盖8大领域40个子主题的评测基准。MMCR的诞生填补了现有VLMs在真实人机交互场景中多轮多图像对话能力评估的空白,其设计灵感来源于人类对话的聚焦主题与逻辑连贯性特点,通过GPT-4o生成并经过CLIP模型严格筛选,显著提升了模型在上下文推理任务中的表现。
当前挑战
MMCR数据集面临的挑战主要体现在两个方面:领域问题层面,传统VLMs主要针对单图像单轮对话优化,难以处理多图像跨轮次的复杂语义关联与长期依赖关系,导致对话连贯性和主题一致性不足;构建过程层面,需克服单图像数据生成多轮对话时的幻觉问题,确保多图像间语义关联强度,并通过提示工程精确控制对话的渐进式深度探索与逻辑递进。此外,数据平衡性对模型性能的影响揭示了'少即是多'现象,要求构建时兼顾数据规模与任务类型分布的合理性。
常用场景
经典使用场景
在视觉语言模型(VLMs)的研究领域,MMCR数据集被广泛应用于多轮多图像对话场景的模型训练与评估。该数据集通过模拟真实人机交互中的连续对话模式,为模型提供了丰富的上下文推理信息。研究者利用MMCR-310k中的31万条跨4-8轮对话数据,能够有效训练模型处理涉及1-4张图像的复杂对话序列,显著提升了模型在跨模态语境下的连贯性表现。
解决学术问题
MMCR针对当前视觉语言模型在长程多轮对话中存在的逻辑断裂和语境一致性不足等核心问题,提供了系统性解决方案。其构建的多维度评估框架MMCR-Bench覆盖8大领域40个子主题,通过精准标注的600组对话样本,首次实现了对模型在跨图像引用、主题延续性和冗余控制等五大维度的量化评估。实验表明,基于该数据集微调的模型在上下文准确率上提升达5.2%,同步推动AI2D等传统基准1.1-1.2%的性能突破。
衍生相关工作
该数据集催生了多项重要研究进展:基于MMCR构建的Ovis模型创新性采用可学习视觉嵌入表,在跨模态对齐任务中取得突破;其提出的'少即是多'训练现象颠覆了传统数据量认知,为参数效率优化提供新范式。后续工作如MMDU-45k等均在MMCR的评估框架基础上,进一步拓展了多图像对话任务的边界。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作