BLINK-Benchmark/BLINK

Hugging Face2025-09-03 更新2024-04-19 收录

下载链接：

https://hf-mirror.com/datasets/BLINK-Benchmark/BLINK

下载链接

链接失效反馈

资源简介：

BLINK数据集是一个用于评估多模态大语言模型（LLMs）视觉感知能力的基准测试。该数据集包含14个经典计算机视觉任务，共3,807个多项选择题，每个问题都配有单张或多张图像以及视觉提示。BLINK的独特之处在于其多样化的视觉提示、超越识别的感知能力以及视觉常识。数据集的目标是挑战多模态模型在整体视觉感知能力上的表现，并推动未来多模态LLMs的发展，使其达到人类水平的视觉感知。

The BLINK dataset is a benchmark for evaluating the visual perception capabilities of multimodal large language models (LLMs). This dataset includes 14 classic computer vision tasks, totaling 3,807 multiple-choice questions, each paired with single or multiple images and visual prompts. What makes BLINK unique are its diverse visual prompts, perception capabilities beyond basic recognition, and visual common sense. The goal of this dataset is to challenge the overall visual perception performance of multimodal models, and promote the development of future multimodal LLMs to achieve human-level visual perception.

提供机构：

BLINK-Benchmark

原始信息汇总

数据集概述

数据集名称

BLINK

许可协议

Apache-2.0

数据集配置

Art_Style
- 特征:
  - idx: 字符串
  - question: 字符串
  - sub_task: 字符串
  - image_1, image_2, image_3, image_4: 图像
  - choices: 字符串序列
  - answer: 字符串
  - prompt: 字符串
  - explanation: 字符串
- 分割:
  - val: 117个样本，146463120字节
  - test: 117个样本，145348441字节
- 下载大小: 291074297字节
- 数据集大小: 291811561字节
Counting
- 特征: 同上
- 分割:
  - val: 120个样本，4704215字节
  - test: 120个样本，5329253字节
- 下载大小: 10015874字节
- 数据集大小: 10033468字节
Forensic_Detection
- 特征: 同上
- 分割:
  - val: 132个样本，19625323字节
  - test: 132个样本，19750403字节
- 下载大小: 39272509字节
- 数据集大小: 39375726字节
Functional_Correspondence
- 特征: 同上
- 分割:
  - val: 130个样本，26361184字节
  - test: 130个样本，28367706字节
- 下载大小: 53227222字节
- 数据集大小: 54728890字节
IQ_Test
- 特征: 同上
- 分割:
  - val: 150个样本，5306379字节
  - test: 150个样本，4835987字节
- 下载大小: 7156052字节
- 数据集大小: 10142366字节
Jigsaw
- 特征: 同上
- 分割:
  - val: 150个样本，3798073字节
  - test: 150个样本，4496412字节
- 下载大小: 8085696字节
- 数据集大小: 8294485字节
Multi-view_Reasoning
- 特征: 同上
- 分割:
  - val: 133个样本，9809322字节
  - test: 133个样本，9606003字节
- 下载大小: 19270001字节
- 数据集大小: 19415325字节
Object_Localization
- 特征: 同上
- 分割:
  - val: 122个样本，6240389字节
  - test: 125个样本，6441081字节
- 下载大小: 12591166字节
- 数据集大小: 12681470字节
Relative_Depth
- 特征: 同上
- 分割:
  - val: 124个样本，4631251字节
  - test: 124个样本，4627481字节
- 下载大小: 9203975字节
- 数据集大小: 9258732字节
Relative_Reflectance
- 特征: 同上
- 分割:
  - val: 134个样本，18605693字节
  - test: 134个样本，18299553字节
- 下载大小: 36780997字节
- 数据集大小: 36905246字节
Semantic_Correspondence
- 特征: 同上
- 分割:
  - val: 139个样本，46913152字节
  - test: 140个样本，43943993字节
- 下载大小: 90492443字节
- 数据集大小: 90857145字节
Spatial_Relation
- 特征: 同上
- 分割:
  - val: 143个样本，7306558字节
  - test: 143个样本，7472518字节
- 下载大小: 14596727字节
- 数据集大小: 14779076字节
Visual_Correspondence
- 特征: 同上
- 分割:
  - val: 172个样本，60403442字节
  - test: 172个样本，56793513字节
- 下载大小: 116448573字节
- 数据集大小: 117196955字节
Visual_Similarity
- 特征: 同上
- 分割:
  - val: 135个样本，44097854字节
  - test: 136个样本，45045115字节
- 下载大小: 89068648字节
- 数据集大小: 89142969字节

数据加载

python import datasets

dataset_name = BLINK-Benchmark/BLINK data = load_dataset(dataset_name, SUBTASK_NAME)

其中SUBTASK_NAME为上述任一子任务名称。

AI搜集汇总

数据集介绍

构建方式

BLINK数据集的构建是基于经典计算机视觉问题，将其转化为3807个多项选择题，每个问题配以单个或多个图像和视觉提示。该数据集旨在挑战多模态模型在整体视觉感知能力上的表现，推动多模态LLM模型在视觉感知上达到人类水平。

使用方法

使用BLINK数据集时，用户可以通过HuggingFace的datasets库加载整个数据集或其子任务。每个子任务都有验证集和测试集，用户可以根据需要选择加载。此外，数据集还提供了一个迷你排行榜，以评估不同模型在该数据集上的表现。

背景与挑战

背景概述

BLINK-Benchmark/BLINK数据集是一项针对多模态语言模型（LLMs）的新基准，专注于评估其核心视觉感知能力。该数据集由14个经典计算机视觉任务转化而来，包含3807个选择题，配以单张或多个图像以及视觉提示。该研究项目由Fu Xingyu、Hu Yushi等研究人员于2024年发起，旨在推动多模态LLMs在视觉感知方面达到人类水平，并揭示了当前多模态LLMs在视觉感知任务上的局限性。

当前挑战

该数据集在构建过程中面临的挑战主要包括：如何将传统计算机视觉任务有效地转化为适合多模态LLMs处理的选择题形式，以及如何在保持任务难度的同时，确保图像和问题的质量。此外，数据集在评估多模态LLMs的视觉感知能力时，还面临着如何准确量化模型性能、区分不同模型之间的细微差异等挑战。

常用场景

经典使用场景

BLINK-Benchmark/BLINK数据集的典型应用场景在于评估和挑战多模态语言模型在视觉感知能力方面的表现。该数据集通过将14个经典计算机视觉任务转化为3807个选择题，并配以单张或多个图像以及视觉提示，测试模型在诸如相对深度估计、视觉对应、法医检测和多视角推理等任务上的表现。这些任务对人类来说可能在瞬间就能解决，但对当前的多模态LLM来说却是显著的挑战。

解决学术问题

BLINK数据集解决了当前多模态LLM在视觉感知能力上的评估难题，揭示了这些模型在处理需要深度视觉理解的任务时的局限性。通过对比人类的表现和模型的表现，该数据集帮助学术界认识到多模态LLM在视觉感知方面还有很大的提升空间，并指出了未来模型改进的潜在路径。

实际应用

在实际应用中，BLINK数据集可以被用来训练和评估多模态LLM，以提高其在视觉任务上的表现。例如，它可以用于改善多模态对话系统中的图像理解能力，或者在智能监控系统中提升视觉异常检测的准确性。

数据集最近研究