LightChen2333/M3CoT|多模态数据集|思维链数据集
收藏数据集概述
数据集名称
- M3CoT: A Novel Benchmark for Multi-Domain Multi-step Multi-modal Chain-of-Thought
数据集特征
- id (字符串)
- category (字符串)
- image_id (字符串)
- question (字符串)
- choices (序列,字符串)
- context (字符串)
- answer (字符串)
- rationale (字符串)
- split (字符串)
- image (图像)
- domain (字符串)
- topic (字符串)
数据集分割
- 训练集 (7863个样本,3096366639.498字节)
- 验证集 (1108个样本,170475029.712字节)
- 测试集 (2318个样本,507811557.674字节)
数据集大小
- 下载大小:1578587733字节
- 数据集大小:3774653226.884字节
许可
- cc-by-sa-4.0
任务类别
- image-to-text
语言
- en
标签
- multi-modal
- chain-of-thought
数据集别名
- M3CoT
大小类别
- 10K<n<100K
配置
- config_name: default
- data_files
- split: train (路径: data/train-*)
- split: validation (路径: data/validation-*)
- split: test (路径: data/test-*)
- data_files

学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
LEGO数据集
该数据集包含了关于LEGO公司的历史、产品提供以及特定LEGO套装的信息,用于分析LEGO套装的规模、发布年份、主题分布以及套装复杂性的变化。
github 收录
CAP-DATA
CAP-DATA数据集由长安大学交通学院的研究团队创建,包含11,727个交通事故视频,总计超过2.19百万帧。该数据集不仅标注了事故发生的时间窗口,还提供了详细的文本描述,包括事故前的实际情况、事故类别、事故原因和预防建议。数据集的创建旨在通过结合视觉和文本信息,提高交通事故预测的准确性和解释性,从而支持更安全的驾驶决策系统。
arXiv 收录
RAVDESS
情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。
OpenDataLab 收录