crag-mm-single-turn-public|多模态对话数据集|视觉推理数据集

huggingface2025-03-16 更新2025-03-17 收录

多模态对话

视觉推理

下载链接：

https://huggingface.co/datasets/crag-mm-2025/crag-mm-single-turn-public

下载链接

链接失效反馈

资源简介：

CRAG-MM是一个全面的多模态、多轮对话推理评估数据集，包含关于图像的不同复杂度的对话。该数据集旨在评估AI系统的视觉理解和对话能力，分为单轮对话和多轮对话两种变体，涵盖了从简单查看图像即可回答的问题到需要多源检索和推理的复杂问题。数据集结构包括会话ID、图像标识符或路径、对话轮次列表以及相应的答案列表。

创建时间：

2025-03-15

AI搜集汇总

数据集介绍

构建方式

CRAG-MM数据集的构建，旨在评估人工智能系统在视觉理解与对话能力方面的表现。该数据集以围绕图像的会话为核心，涵盖不同复杂度的图像，并包含由RayBan Meta智能眼镜捕获的egocentric图像以及公共图像（urls）。数据集分为单轮与多轮对话两种形式，均包含丰富的人类生成问题与专家回答，覆盖多种视觉推理任务。

特点

CRAG-MM数据集的特点在于其多模态、多轮次的对话结构，专为综合评估多模态对话生成模型（MM-RAG）而设计。数据集包含的事实性问题专注于视觉问答，提供了独特的图像与问答集合，适合对可穿戴设备进行全面评估。此外，数据集覆盖了13个领域，并包含四种类型的问题，从仅需观察图像即可回答的简单查询到需要多源检索与推理的复杂问题。

使用方法

使用Hugging Face的`datasets`库可以轻松加载和探索CRAG-MM数据集。用户可以根据需要加载单轮或多轮对话数据集，查看可用的分割，并访问示例数据。每个示例包含会话ID、图像标识符或路径、对话轮次以及对应的答案。此外，数据集还提供了示例代码以帮助用户打印完整的对话内容，便于更好地理解数据集的结构和内容。

背景与挑战

背景概述

CRAG-MM数据集是由研究团队针对多模态对话系统评估而创建的高质量会话基准。该数据集诞生于2025年，涵盖了关于图像的各种复杂度的对话，旨在评估人工智能系统在视觉理解和会话能力方面的表现。作为一种视觉问答基准，CRAG-MM专注于事实性问题，提供了独特的图像与问答集组合，以实现对可穿戴设备综合评估的支持。该数据集不仅包括由RayBan Meta智能眼镜捕获的第一人称图像，还包含公共图像（URLs），跨越13个领域。CRAG-MM数据集既包括单轮对话，也包括多轮对话，为多模态多轮RAG解决方案提供了全面的评估。

当前挑战

该数据集在构建过程中所遇到的挑战主要包括：1)如何准确地模拟和收集真实世界中的多模态对话，确保数据的质量和多样性；2)如何平衡数据集中不同领域的图像和问题，以避免偏差；3)所解决的领域问题是对多模态人工智能系统在视觉问答方面的能力进行评估，这要求数据集不仅包含简单的视觉问题，还要涵盖需要多源检索和推理的复杂问题。此外，数据集的样本分布、问题类型的多维度覆盖，以及对话轮次的多样性都是构建过程中必须精心考虑的挑战。

常用场景

经典使用场景

在人工智能领域，尤其是视觉理解与对话系统的评估中，CRAG-MM数据集以其高质量的对话实例而独树一帜。该数据集最经典的使用场景在于，通过模拟用户与智能助手围绕图像的问答互动，评估系统的视觉理解能力和对话能力。借助CRAG-MM，研究人员能够构建和测试能够处理从简单观察图像到复杂信息检索与推理等不同难度级别问题的AI模型。

衍生相关工作

CRAG-MM数据集的发布促进了众多相关研究的开展，包括但不限于多模态信息处理、对话系统优化和视觉问答模型改进等方面。这些衍生出的相关工作不仅推动了对话系统的理论研究，也为实际应用中的问题解决提供了新的方法和视角。

数据集最近研究

最新研究方向

CRAG-MM数据集作为一项高质量的多模态对话评估基准，近期研究方向主要集中于多模态助手在视觉理解和对话能力方面的综合评估。该数据集通过包含不同复杂度的关于图像的对话，旨在推动AI系统在视觉问答领域的深入发展。目前的研究热点聚焦于如何提升AI在处理事实性问题时对图像内容的理解以及多轮对话中的连贯性和准确性，这对于智能穿戴设备的人机交互具有显著影响和意义。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

rag-datasets/rag-mini-bioasq

该数据集主要用于问答和句子相似性任务，涉及生物医学领域。数据集包含两个配置：text-corpus和question-answer-passages，分别对应不同的数据文件路径。数据集来源于BioASQ任务11b的训练数据集，并通过`generate.py`脚本生成了子集。

hugging_face 收录

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

中国30米分辨率土壤可蚀性因子数据集

该数据集为2018年中国30米分辨率土壤可蚀性因子（K）栅格数据，数据是利用中国1979-1994年的全国第二次土壤普查的成果数据进行计算；再利用径流小区观测数据修正计算结果；将修订结果利用反距离权重插值法插值生成栅格数据。特殊地类河湖库塘、冰川及永久积雪、裸岩土地类型K因子值强制赋值为0。如果用户采用的土地利用精度较高，建议重新对以下土地类型的K因子强制赋值为0：河湖库塘、冰川及永久积雪、裸岩。如果有K值为0，但不属于上述类型的，K因子可按如下原则：取邻近相同土地类型图斑的K值，或取与该图斑邻近且不等于0的所有图斑K值的平均值。

国家地球系统科学数据中心收录

人民日报语料库

该数据集包含2023年5月至2024年4月期间人民日报的全部文章，以JSON格式保存，每篇文章包含URL、标题和内容。

github 收录

Papersnake/people_daily_news

人民日报（1946-2023）数据集是CialloCorpus的一部分。

hugging_face 收录