MM-Vet v2|多模态模型数据集|图像-文本序列理解数据集
收藏MM-Vet 数据集概述
数据集简介
MM-Vet 数据集用于评估大型多模态模型在集成能力方面的表现,涵盖了识别、OCR、知识、语言生成、空间感知和数学等多个核心视觉语言能力。
数据集版本
- MM-Vet v2: 扩展了 MM-Vet,新增了“图像-文本序列理解”能力,并扩大了评估集的规模,同时保持高质量。
数据集下载
数据集可以从以下链接下载: Download Dataset
数据集评估
评估步骤
- 安装依赖: 使用
pip install openai>=1
安装 openai 包,并获取 GPT-4/GPT-3.5 API 访问权限。 - 下载数据集: 从上述链接下载并解压数据集。
- 模型推理: 使用提供的推理脚本进行模型推理,并将结果保存为 JSON 格式。
- 评估模型: 使用提供的评估脚本对模型输出进行评估。
推理脚本示例
bash image_detail=high # 或 auto, low 参考 https://platform.openai.com/docs/guides/vision/low-or-high-fidelity-image-understanding
python inference/gpt4v.py --mmvet_path /path/to/mm-vet --image_detail ${image_detail}
bash python inference/gemini_vision.py --mmvet_path /path/to/mm-vet
评估脚本示例
bash python mm-vet_evaluator.py --mmvet_path /path/to/mm-vet --result_file results/llava_llama2_13b_chat.json
数据集样本
数据集包含多个样本,每个样本都包含一个问题和相应的答案,以及所需的视觉语言能力。以下是部分样本示例:
样本 1
Q: What occasions would someone use this meme? GT: This meme, commonly known as "Screaming Panda," is typically used to express shock, surprise, or fear. Required capabilities: Recognition, knowledge, language generation
样本 2
Q: How many tomatoes are there? GT: 5 Required capabilities: Recognition
样本 3
Q: What is located to the right of the shampoo? GT: conditioner Required capabilities: OCR, spatial awareness
样本 4
Q: Which room is bigger, the double garage or the living room? GT: double garage Required capabilities: OCR, spatial awareness, math
样本 5
Q: On the right desk, what is to the left of the laptop? GT: table lamp <OR> desk lamp Required capabilities: Recognition, spatial awareness
样本 6
Q: What are all the scene text in the image? GT: 5:30PM<AND>88%<AND>Mario Kart 8 Deluxe<AND>MARIO KART 8 DELUXE<AND>SUPER MARIO ODYSSEY<AND>THE LEGEND OF ZELDA<AND>BREATH OF WILD<AND>Options<AND>Start Required capabilities: OCR
样本 7
Q: How many gallons of supreme gasoline can I get with $50? GT: 13.6 <OR> 13.7 Required capabilities: OCR, math
样本 8
Q: In which country was this photo taken? GT: Australia Required capabilities: Recognition, knowledge
样本 9
Q: Can you explain this meme? GT: This meme is a humorous take on procrastination and the tendency to delay tasks until a specific time. Required capabilities: Recognition, OCR, knowledge, language generation
样本 10
Q: The graph below shows the long-term international migration, UK, 1999-2008. GT: The chart gives information about UK immigration, emigration and net migration between 1999 and 2008. Required capabilities: Recognition, OCR, language generation, spatial awareness
样本 11
Q: Which car is on the parking spot 33? GT: no <OR> empty Required capabilities: Recognition, OCR, spatial awareness
样本 12
Q: Is this apple organic? GT: yes Required capabilities: Recognition, OCR
样本 13
Q: Which are producers in this food web? GT: Phytoplankton <AND> Seaweed Required capabilities: OCR, knowledge, spatial awareness
样本 14
Q: Is the person bigger than the car? GT: no Required capabilities: Recognition, knowledge, spatial awareness
样本 15
Q: The table below gives information about the underground railway systems in six cities. GT: The table shows data about the underground rail networks in six major cities. Required capabilities: OCR, language generation, spatial awareness
样本 16
Q: What will the girl on the right write on the board? GT: 14 Required capabilities: Recognition, OCR, spatial awareness, math
更多样本请参考:更多样本

- 1MM-Vet v2: A Challenging Benchmark to Evaluate Large Multimodal Models for Integrated Capabilities新加坡国立大学, 微软, 先进微设备 · 2024年
红外谱图数据库
收集整理红外谱图实验手册等数据,建成了红外谱图数据库。本数据库收录了常见化合物的红外谱图。主要包括化合物数据和对应的红外谱图数据。其中,原始红外谱图都进行了数字化处理,从而使谱峰检索成为可能。用户可以在数据库中检索指定化合物的谱图,也可以提交谱图/谱峰数据,以检索与之相似的谱图数据,以协助进行谱图鉴定。
国家基础学科公共科学数据中心 收录
WLASL, MSASL, NMFs-CSL, SLR500, Slovo, BOBSL, 27 Class Sign Language Dataset, AUTSL, BosphorusSign22k, GSL, LSA16, LSA64, Rendered Handpose Dataset, YouTube-ASL, LSFB-ISOL, ASLLVD, AASL, KArSL, BdSLImset, HaGRID, Phoenix-2014, Phoenix-2014T
该仓库收集了多种与手语识别和翻译相关的数据集,旨在为研究者、开发者和爱好者提供一个集中的资源。数据集包括不同类型(如RGB、深度、骨骼)和来自不同国家的数据,用于支持手语识别和翻译技术的研究。
github 收录
AIS数据集
该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。
github 收录
THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。
github 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录