crag-mm-single-turn-public

Hugging Face2025-03-16 更新2025-03-17 收录

下载链接：

https://huggingface.co/datasets/crag-mm-2025/crag-mm-single-turn-public

下载链接

链接失效反馈

官方服务：

资源简介：

CRAG-MM是一个全面的多模态、多轮对话推理评估数据集，包含关于图像的不同复杂度的对话。该数据集旨在评估AI系统的视觉理解和对话能力，分为单轮对话和多轮对话两种变体，涵盖了从简单查看图像即可回答的问题到需要多源检索和推理的复杂问题。数据集结构包括会话ID、图像标识符或路径、对话轮次列表以及相应的答案列表。

创建时间：

2025-03-15

搜集汇总

数据集介绍

构建方式

CRAG-MM数据集的构建，旨在评估人工智能系统在视觉理解与对话能力方面的表现。该数据集以围绕图像的会话为核心，涵盖不同复杂度的图像，并包含由RayBan Meta智能眼镜捕获的egocentric图像以及公共图像（urls）。数据集分为单轮与多轮对话两种形式，均包含丰富的人类生成问题与专家回答，覆盖多种视觉推理任务。

特点

CRAG-MM数据集的特点在于其多模态、多轮次的对话结构，专为综合评估多模态对话生成模型（MM-RAG）而设计。数据集包含的事实性问题专注于视觉问答，提供了独特的图像与问答集合，适合对可穿戴设备进行全面评估。此外，数据集覆盖了13个领域，并包含四种类型的问题，从仅需观察图像即可回答的简单查询到需要多源检索与推理的复杂问题。

使用方法

使用Hugging Face的`datasets`库可以轻松加载和探索CRAG-MM数据集。用户可以根据需要加载单轮或多轮对话数据集，查看可用的分割，并访问示例数据。每个示例包含会话ID、图像标识符或路径、对话轮次以及对应的答案。此外，数据集还提供了示例代码以帮助用户打印完整的对话内容，便于更好地理解数据集的结构和内容。

背景与挑战

背景概述

CRAG-MM数据集是由研究团队针对多模态对话系统评估而创建的高质量会话基准。该数据集诞生于2025年，涵盖了关于图像的各种复杂度的对话，旨在评估人工智能系统在视觉理解和会话能力方面的表现。作为一种视觉问答基准，CRAG-MM专注于事实性问题，提供了独特的图像与问答集组合，以实现对可穿戴设备综合评估的支持。该数据集不仅包括由RayBan Meta智能眼镜捕获的第一人称图像，还包含公共图像（URLs），跨越13个领域。CRAG-MM数据集既包括单轮对话，也包括多轮对话，为多模态多轮RAG解决方案提供了全面的评估。

当前挑战

该数据集在构建过程中所遇到的挑战主要包括：1)如何准确地模拟和收集真实世界中的多模态对话，确保数据的质量和多样性；2)如何平衡数据集中不同领域的图像和问题，以避免偏差；3)所解决的领域问题是对多模态人工智能系统在视觉问答方面的能力进行评估，这要求数据集不仅包含简单的视觉问题，还要涵盖需要多源检索和推理的复杂问题。此外，数据集的样本分布、问题类型的多维度覆盖，以及对话轮次的多样性都是构建过程中必须精心考虑的挑战。

常用场景

经典使用场景

在人工智能领域，尤其是视觉理解与对话系统的评估中，CRAG-MM数据集以其高质量的对话实例而独树一帜。该数据集最经典的使用场景在于，通过模拟用户与智能助手围绕图像的问答互动，评估系统的视觉理解能力和对话能力。借助CRAG-MM，研究人员能够构建和测试能够处理从简单观察图像到复杂信息检索与推理等不同难度级别问题的AI模型。

衍生相关工作

CRAG-MM数据集的发布促进了众多相关研究的开展，包括但不限于多模态信息处理、对话系统优化和视觉问答模型改进等方面。这些衍生出的相关工作不仅推动了对话系统的理论研究，也为实际应用中的问题解决提供了新的方法和视角。

数据集最近研究