LightChen2333/M3CoT|多模态数据集|思维链数据集

hugging_face2024-05-28 更新2024-05-25 收录

多模态

思维链

下载链接：

https://hf-mirror.com/datasets/LightChen2333/M3CoT

下载链接

链接失效反馈

资源简介：

M3CoT是一个新颖的基准，旨在解决多模态链式思维（MCoT）中的多领域、多步骤和多模态推理问题。该基准通过引入视觉模态推理、多步推理和多领域推理，推动了多模态链式思维的发展。数据集包含文本和图像模态，要求模型利用这些模态进行逐步推理。M3CoT还进行了广泛的评估，涉及多种MCoT方法和视觉大语言模型（VLLMs），并指出当前VLLMs在M3CoT中的推理能力仍有待提高，与人类表现存在较大差距。

提供机构：

LightChen2333

原始信息汇总

数据集概述

数据集名称

M3CoT: A Novel Benchmark for Multi-Domain Multi-step Multi-modal Chain-of-Thought

数据集特征

id (字符串)
category (字符串)
image_id (字符串)
question (字符串)
choices (序列，字符串)
context (字符串)
answer (字符串)
rationale (字符串)
split (字符串)
image (图像)
domain (字符串)
topic (字符串)

数据集分割

训练集 (7863个样本，3096366639.498字节)
验证集 (1108个样本，170475029.712字节)
测试集 (2318个样本，507811557.674字节)

数据集大小

下载大小：1578587733字节
数据集大小：3774653226.884字节

许可

cc-by-sa-4.0

任务类别

image-to-text

语言

数据集别名

M3CoT

大小类别

10K<n<100K

配置

config_name: default
- data_files
  - split: train (路径: data/train-*)
  - split: validation (路径: data/validation-*)
  - split: test (路径: data/test-*)

AI搜集汇总

数据集介绍

构建方式

M3CoT数据集的构建旨在解决现有多模态链式思维（MCoT）基准的不足，特别是视觉模态推理的缺失、单步视觉模态推理以及领域缺失的问题。该数据集通过整合多领域、多步骤和多模态的链式思维任务，提供了丰富的视觉和文本信息，以促进模型在复杂场景中的推理能力。数据集的构建过程包括从多个来源收集和标注数据，确保每个样本包含图像、问题、选项、上下文、答案和推理过程等信息，从而形成一个全面的多模态链式思维基准。

使用方法

M3CoT数据集可以通过HuggingFace的datasets库直接加载，也可以从Google Drive下载并手动加载。加载后，用户可以使用提供的M3CoT类来管理和分析数据。数据集支持多种评估设置，包括零样本、少样本和工具使用等，用户可以根据需要选择合适的模型和提示进行评估。此外，数据集还提供了详细的文件结构和评估脚本，方便用户进行实验和结果分析。通过这些工具和资源，用户可以全面评估和提升模型在多模态链式思维任务中的表现。

背景与挑战

背景概述

M3CoT数据集由LightChen2333团队于2024年创建，旨在解决多模态链式思维（Multi-modal Chain-of-Thought, MCoT）领域的关键问题。该数据集由Qiguang Chen、Libo Qin等主要研究人员开发，并由ACL2024会议接受。M3CoT数据集的核心研究问题包括视觉模态推理的缺失、单步视觉模态推理的局限以及领域缺失，这些问题阻碍了MCoT的发展。通过引入多领域、多步骤、多模态的链式思维，M3CoT数据集为相关领域的研究提供了新的基准，推动了视觉大语言模型（VLLMs）的评估和发展。

当前挑战

M3CoT数据集在构建过程中面临多项挑战。首先，视觉模态推理的缺失限制了模型在多模态环境下的表现。其次，单步视觉模态推理无法满足复杂推理任务的需求。此外，领域缺失问题使得模型难以在不同领域间进行有效迁移。这些挑战不仅影响了数据集的构建，也限制了其在实际应用中的效果。尽管当前的VLLMs在之前的MCoT基准上表现优异，但在M3CoT上的推理能力仍与人类表现存在显著差距，这表明多模态链式思维的研究仍需进一步深入。

常用场景

经典使用场景

在多模态推理领域，M3CoT数据集以其独特的多领域、多步骤、多模态链式思维（Chain-of-Thought）特性，成为研究者们探索视觉与文本结合推理的经典工具。该数据集通过提供丰富的图像与文本对，支持模型在不同领域中进行逐步推理，从而评估和提升模型的多模态理解与推理能力。

解决学术问题

M3CoT数据集解决了当前多模态链式思维研究中的几个关键问题，包括视觉模态推理的缺失、单步视觉模态推理的局限以及领域多样性的不足。通过引入多领域、多步骤、多模态的链式思维任务，M3CoT为研究者提供了一个全面的评估平台，推动了多模态推理技术的发展，填补了现有研究中的空白。

实际应用

在实际应用中，M3CoT数据集可广泛用于开发和测试多模态智能系统，如智能客服、教育辅助工具和医疗诊断系统。这些系统需要结合图像和文本信息进行复杂推理，以提供更准确和智能的服务。M3CoT的引入使得这些系统能够在更接近真实世界的场景中进行训练和验证，从而提升其实用性和可靠性。

数据集最近研究

最新研究方向

在多模态推理领域，M3CoT数据集的最新研究方向主要集中在多领域、多步骤和多模态的链式思维推理上。该数据集通过整合文本和视觉信息，推动了模型在复杂场景下的逐步推理能力。前沿研究不仅关注于提升模型的视觉推理能力，还探索了在不同领域和主题下的多步骤推理策略。此外，M3CoT的发布为评估视觉大语言模型（VLLMs）在多模态链式思维任务中的表现提供了新的基准，揭示了现有模型与人类表现之间的显著差距，从而激发了进一步的研究和模型优化。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

CatMeows

该数据集包含440个声音样本，由21只属于两个品种（缅因州库恩猫和欧洲短毛猫）的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定，包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外，还有一个额外的zip文件，包含被排除的录音（非喵声）和未剪辑的连续发声序列。

huggingface 收录

LEGO数据集

该数据集包含了关于LEGO公司的历史、产品提供以及特定LEGO套装的信息，用于分析LEGO套装的规模、发布年份、主题分布以及套装复杂性的变化。

github 收录

CAP-DATA

CAP-DATA数据集由长安大学交通学院的研究团队创建，包含11,727个交通事故视频，总计超过2.19百万帧。该数据集不仅标注了事故发生的时间窗口，还提供了详细的文本描述，包括事故前的实际情况、事故类别、事故原因和预防建议。数据集的创建旨在通过结合视觉和文本信息，提高交通事故预测的准确性和解释性，从而支持更安全的驾驶决策系统。

arXiv 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性，12位男性)，以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情，歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常，强烈) 下产生的，另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位，48kHz .wav)，音频-视频 (720p H.264，AAC 48kHz，.mp4) 和仅视频 (无声音)。注意，Actor_18没有歌曲文件。

OpenDataLab 收录