AILab-CVC/SEED-Bench-2-plus

Name: AILab-CVC/SEED-Bench-2-plus
Creator: AILab-CVC
Published: 2024-04-27 10:23:38
License: 暂无描述

Hugging Face2024-04-27 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/AILab-CVC/SEED-Bench-2-plus

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: cc-by-nc-4.0 task_categories: - visual-question-answering language: - en pretty_name: SEED-Bench-2-Plus size_categories: - 1K<n<10K --- # SEED-Bench-2-Plus Card ## Benchmark details **Benchmark type:** SEED-Bench-2-Plus is a large-scale benchmark to evaluate Multimodal Large Language Models (MLLMs). It consists of 2.3K multiple-choice questions with precise human annotations, spanning three broad categories: Charts, Maps, and Webs, each of which covers a wide spectrum of text-rich scenarios in the real world. **Benchmark date:** SEED-Bench-2-Plus was collected in April 2024. **Paper or resources for more information:** https://github.com/AILab-CVC/SEED-Bench **License:** Attribution-NonCommercial 4.0 International. It should abide by the policy of OpenAI: https://openai.com/policies/terms-of-use. For the images of SEED-Bench-2-plus, we use data from the internet under CC-BY licenses. Please contact us if you believe any data infringes upon your rights, and we will remove it. **Where to send questions or comments about the benchmark:** https://github.com/AILab-CVC/SEED-Bench/issues ## Intended use **Primary intended uses:** The primary use of SEED-Bench-2-Plus is evaluate Multimodal Large Language Models on text-rich visual understanding. **Primary intended users:** The primary intended users of the Benchmark are researchers and hobbyists in computer vision, natural language processing, machine learning, and artificial intelligence.

--- 许可证：CC-BY-NC-4.0 任务类别： - 视觉问答（visual-question-answering）语言： - 英语展示名称：SEED-Bench-2-Plus 规模类别： - 1000 < 样本量 < 10000 --- # SEED-Bench-2-Plus 数据集卡片 ## 基准详情 **基准类型：** SEED-Bench-2-Plus 是一款用于评估多模态大语言模型（Multimodal Large Language Models, MLLMs）的大规模基准测试集。该基准集包含2300道经人工精准标注的多项选择题，涵盖图表（Charts）、地图（Maps）与网页（Webs）三大类别，每一类均覆盖现实世界中各类富含文本的场景。 **基准采集时间：** SEED-Bench-2-Plus 于2024年4月完成数据采集。 **详细信息参阅资源：** https://github.com/AILab-CVC/SEED-Bench **许可证：** 采用署名-非商业性使用4.0国际许可协议（Attribution-NonCommercial 4.0 International），同时需遵守OpenAI相关政策：https://openai.com/policies/terms-of-use。 SEED-Bench-2-Plus 所使用的图像数据均来自互联网，采用CC-BY许可协议。若您认为本基准集中的任何数据侵犯了您的合法权益，请联系我们，我们将立即予以移除。 **基准相关问题反馈渠道：** 请前往：https://github.com/AILab-CVC/SEED-Bench/issues 提交相关问题或意见。 ## 预期用途 **主要预期用途：** SEED-Bench-2-Plus 的核心用途为评估多模态大语言模型在富含文本的视觉理解任务上的性能。 **主要目标用户：** 本基准集的主要目标用户为计算机视觉、自然语言处理、机器学习以及人工智能领域的研究人员与爱好者。

提供机构：

AILab-CVC

原始信息汇总

SEED-Bench-2-Plus 数据集概述

基本信息

许可证: cc-by-nc-4.0
任务类别: 视觉问答
语言: 英语
数据集大小: 1K<n<10K

数据集详情

类型: SEED-Bench-2-Plus 是一个大规模基准测试，用于评估多模态大型语言模型（MLLMs）。
包含内容: 包含2.3K个多选题，涵盖图表、地图和网络三大类别，涉及现实世界中丰富的文本场景。
收集时间: 2024年4月
更多信息资源: SEED-Bench GitHub链接

使用目的

主要用途: 评估多模态大型语言模型在文本丰富的视觉理解能力。
目标用户: 计算机视觉、自然语言处理、机器学习和人工智能领域的研究人员及爱好者。

搜集汇总

数据集介绍

构建方式

SEED-Bench-2-Plus数据集的构建，是在2024年4月通过收集2.3K个包含精确人工标注的多项选择题而完成。这些题目跨越了图表、地图和网络三大类别，每一类别均覆盖了现实世界中丰富的文本场景，旨在对多模态大型语言模型（MLLMs）进行评估。

特点

该数据集的特点在于其涵盖了广泛且真实的文本丰富的视觉理解场景，并且提供了精确的人工标注。SEED-Bench-2-Plus的规模适中，属于千级到万级之间，便于研究者进行有效的模型训练与评估。此外，数据集遵循知识共享署名-非商业使用4.0国际许可，保证了数据的开放性与合法性。

使用方法

使用SEED-Bench-2-Plus数据集，用户可以针对多模态大型语言模型在视觉理解方面的性能进行评测。数据集的使用者主要是计算机视觉、自然语言处理、机器学习和人工智能领域的研究人员及爱好者。用户可通过数据集官方GitHub页面获取更多信息和资源，若有疑问或意见，亦可在该平台上进行反馈。

背景与挑战

背景概述

SEED-Bench-2-Plus数据集，由AILab-CVC团队于2024年4月收集构建，旨在评估多模态大型语言模型在文本丰富视觉理解任务上的性能。该数据集包含2.3K个具有精确人工标注的多项选择题，涵盖图表、地图和网络三大类别，每一类别均涉及现实世界中广泛的文本丰富场景。SEED-Bench-2-Plus的创建，不仅为相关领域的研究提供了重要的基准，而且对推动多模态语言模型的研发与应用产生了显著影响。

当前挑战

SEED-Bench-2-Plus数据集在构建过程中面临的主要挑战包括：确保多模态数据的一致性和准确性，以及在图表、地图和网络等不同场景下，文本与视觉信息的有效融合。此外，该数据集在解决视觉问答领域问题时，还需克服模型对于复杂场景的理解和推理能力，以及如何在保持数据质量的同时，实现大规模数据的收集和标注。

常用场景

经典使用场景

在人工智能领域，SEED-Bench-2-Plus数据集作为一项大规模的评测基准，其经典使用场景在于对多模态大型语言模型（MLLMs）的视觉理解能力进行精确评估。该数据集包含2.3K个多项选择题，并涵盖图表、地图和网络三大类真实世界的文本丰富场景，为研究者提供了一个综合性的测试平台。

实际应用

在实际应用中，SEED-Bench-2-Plus数据集的应用场景广泛，特别是在需要模型具备高级视觉问答能力的领域中，如图像理解、自然语言处理和人机交互等。该数据集为开发高效的多模态交互系统提供了坚实的基准。

衍生相关工作

基于SEED-Bench-2-Plus数据集的研究成果，已经衍生出一系列相关的工作，这些工作不仅推动了多模态学习领域的理论发展，而且在实际应用中促进了多模态模型的优化与改进，为人工智能技术的进步做出了重要贡献。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集