MRAG-Bench|视觉语言模型数据集|多模态检索增强生成数据集
收藏MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models
数据集概述
- 语言: 英语
- 许可证: CC BY 4.0
- 数据规模: 1K<n<10K
- 任务类别:
- 问答
- 视觉问答
- 多选题
- 数据集名称: MRAG-Bench
数据集信息
- 特征:
id
: 字符串,示例的唯一标识符aspect
: 字符串,示例的方面类型scenario
: 字符串,与条目相关的场景类型image
: 图像,以字节格式存储的图像数据gt_images
: 序列,包含前5个真实图像信息question
: 字符串,关于图像的问题A
: 字符串,问题的选项AB
: 字符串,问题的选项BC
: 字符串,问题的选项CD
: 字符串,问题的选项Danswer_choice
: 字符串,正确选项的标识符answer
: 字符串,问题的正确答案image_type
: 字符串,图像对象的类型source
: 字符串,图像的来源retrieved_images
: 序列,由CLIP检索的前5个图像信息
数据集划分
- test:
- 样本数量: 1353
- 字节数: 4740745536
数据集加载
python from datasets import load_dataset mrag_bench = load_dataset("uclanlp/MRAG-Bench", split="test")
联系信息
- Wenbo Hu: whu@cs.ucla.edu
引用
@article{hu2024mragbench, title={MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models}, author={Hu, Wenbo and Gu, Jia-Chen and Dou, Zi-Yi and Fayyaz, Mohsen and Lu, Pan and Chang, Kai-Wei and Peng, Nanyun}, journal={arXiv preprint arXiv:24}, year={2024} }

CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
WLASL, MSASL, NMFs-CSL, SLR500, Slovo, BOBSL, 27 Class Sign Language Dataset, AUTSL, BosphorusSign22k, GSL, LSA16, LSA64, Rendered Handpose Dataset, YouTube-ASL, LSFB-ISOL, ASLLVD, AASL, KArSL, BdSLImset, HaGRID, Phoenix-2014, Phoenix-2014T
该仓库收集了多种与手语识别和翻译相关的数据集,旨在为研究者、开发者和爱好者提供一个集中的资源。数据集包括不同类型(如RGB、深度、骨骼)和来自不同国家的数据,用于支持手语识别和翻译技术的研究。
github 收录
THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。
github 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
LibriSpeech
LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。
OpenDataLab 收录