BLINK-Benchmark/BLINK
收藏Hugging Face2025-09-03 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/BLINK-Benchmark/BLINK
下载链接
链接失效反馈资源简介:
BLINK数据集是一个用于评估多模态大语言模型(LLMs)视觉感知能力的基准测试。该数据集包含14个经典计算机视觉任务,共3,807个多项选择题,每个问题都配有单张或多张图像以及视觉提示。BLINK的独特之处在于其多样化的视觉提示、超越识别的感知能力以及视觉常识。数据集的目标是挑战多模态模型在整体视觉感知能力上的表现,并推动未来多模态LLMs的发展,使其达到人类水平的视觉感知。
The BLINK dataset is a benchmark for evaluating the visual perception capabilities of multimodal large language models (LLMs). This dataset includes 14 classic computer vision tasks, totaling 3,807 multiple-choice questions, each paired with single or multiple images and visual prompts. What makes BLINK unique are its diverse visual prompts, perception capabilities beyond basic recognition, and visual common sense. The goal of this dataset is to challenge the overall visual perception performance of multimodal models, and promote the development of future multimodal LLMs to achieve human-level visual perception.
提供机构:
BLINK-Benchmark
原始信息汇总
数据集概述
数据集名称
BLINK
许可协议
Apache-2.0
数据集配置
-
Art_Style
- 特征:
- idx: 字符串
- question: 字符串
- sub_task: 字符串
- image_1, image_2, image_3, image_4: 图像
- choices: 字符串序列
- answer: 字符串
- prompt: 字符串
- explanation: 字符串
- 分割:
- val: 117个样本,146463120字节
- test: 117个样本,145348441字节
- 下载大小: 291074297字节
- 数据集大小: 291811561字节
- 特征:
-
Counting
- 特征: 同上
- 分割:
- val: 120个样本,4704215字节
- test: 120个样本,5329253字节
- 下载大小: 10015874字节
- 数据集大小: 10033468字节
-
Forensic_Detection
- 特征: 同上
- 分割:
- val: 132个样本,19625323字节
- test: 132个样本,19750403字节
- 下载大小: 39272509字节
- 数据集大小: 39375726字节
-
Functional_Correspondence
- 特征: 同上
- 分割:
- val: 130个样本,26361184字节
- test: 130个样本,28367706字节
- 下载大小: 53227222字节
- 数据集大小: 54728890字节
-
IQ_Test
- 特征: 同上
- 分割:
- val: 150个样本,5306379字节
- test: 150个样本,4835987字节
- 下载大小: 7156052字节
- 数据集大小: 10142366字节
-
Jigsaw
- 特征: 同上
- 分割:
- val: 150个样本,3798073字节
- test: 150个样本,4496412字节
- 下载大小: 8085696字节
- 数据集大小: 8294485字节
-
Multi-view_Reasoning
- 特征: 同上
- 分割:
- val: 133个样本,9809322字节
- test: 133个样本,9606003字节
- 下载大小: 19270001字节
- 数据集大小: 19415325字节
-
Object_Localization
- 特征: 同上
- 分割:
- val: 122个样本,6240389字节
- test: 125个样本,6441081字节
- 下载大小: 12591166字节
- 数据集大小: 12681470字节
-
Relative_Depth
- 特征: 同上
- 分割:
- val: 124个样本,4631251字节
- test: 124个样本,4627481字节
- 下载大小: 9203975字节
- 数据集大小: 9258732字节
-
Relative_Reflectance
- 特征: 同上
- 分割:
- val: 134个样本,18605693字节
- test: 134个样本,18299553字节
- 下载大小: 36780997字节
- 数据集大小: 36905246字节
-
Semantic_Correspondence
- 特征: 同上
- 分割:
- val: 139个样本,46913152字节
- test: 140个样本,43943993字节
- 下载大小: 90492443字节
- 数据集大小: 90857145字节
-
Spatial_Relation
- 特征: 同上
- 分割:
- val: 143个样本,7306558字节
- test: 143个样本,7472518字节
- 下载大小: 14596727字节
- 数据集大小: 14779076字节
-
Visual_Correspondence
- 特征: 同上
- 分割:
- val: 172个样本,60403442字节
- test: 172个样本,56793513字节
- 下载大小: 116448573字节
- 数据集大小: 117196955字节
-
Visual_Similarity
- 特征: 同上
- 分割:
- val: 135个样本,44097854字节
- test: 136个样本,45045115字节
- 下载大小: 89068648字节
- 数据集大小: 89142969字节
数据加载
python import datasets
dataset_name = BLINK-Benchmark/BLINK data = load_dataset(dataset_name, SUBTASK_NAME)
其中SUBTASK_NAME为上述任一子任务名称。
AI搜集汇总
数据集介绍

构建方式
BLINK数据集的构建是基于经典计算机视觉问题,将其转化为3807个多项选择题,每个问题配以单个或多个图像和视觉提示。该数据集旨在挑战多模态模型在整体视觉感知能力上的表现,推动多模态LLM模型在视觉感知上达到人类水平。
使用方法
使用BLINK数据集时,用户可以通过HuggingFace的datasets库加载整个数据集或其子任务。每个子任务都有验证集和测试集,用户可以根据需要选择加载。此外,数据集还提供了一个迷你排行榜,以评估不同模型在该数据集上的表现。
背景与挑战
背景概述
BLINK-Benchmark/BLINK数据集是一项针对多模态语言模型(LLMs)的新基准,专注于评估其核心视觉感知能力。该数据集由14个经典计算机视觉任务转化而来,包含3807个选择题,配以单张或多个图像以及视觉提示。该研究项目由Fu Xingyu、Hu Yushi等研究人员于2024年发起,旨在推动多模态LLMs在视觉感知方面达到人类水平,并揭示了当前多模态LLMs在视觉感知任务上的局限性。
当前挑战
该数据集在构建过程中面临的挑战主要包括:如何将传统计算机视觉任务有效地转化为适合多模态LLMs处理的选择题形式,以及如何在保持任务难度的同时,确保图像和问题的质量。此外,数据集在评估多模态LLMs的视觉感知能力时,还面临着如何准确量化模型性能、区分不同模型之间的细微差异等挑战。
常用场景
经典使用场景
BLINK-Benchmark/BLINK数据集的典型应用场景在于评估和挑战多模态语言模型在视觉感知能力方面的表现。该数据集通过将14个经典计算机视觉任务转化为3807个选择题,并配以单张或多个图像以及视觉提示,测试模型在诸如相对深度估计、视觉对应、法医检测和多视角推理等任务上的表现。这些任务对人类来说可能在瞬间就能解决,但对当前的多模态LLM来说却是显著的挑战。
解决学术问题
BLINK数据集解决了当前多模态LLM在视觉感知能力上的评估难题,揭示了这些模型在处理需要深度视觉理解的任务时的局限性。通过对比人类的表现和模型的表现,该数据集帮助学术界认识到多模态LLM在视觉感知方面还有很大的提升空间,并指出了未来模型改进的潜在路径。
实际应用
在实际应用中,BLINK数据集可以被用来训练和评估多模态LLM,以提高其在视觉任务上的表现。例如,它可以用于改善多模态对话系统中的图像理解能力,或者在智能监控系统中提升视觉异常检测的准确性。
数据集最近研究
最新研究方向
BLINK数据集针对多模态语言模型的核心视觉感知能力进行了专门设计,包含了14个经典计算机视觉任务的3807个多项选择题,这些问题均与单一或多个图像及视觉提示配对。最新研究显示,尽管人类在这些任务上平均准确率达到95.70%,但现有的多模态LLM模型如GPT-4V和Gemini在BLINK上的表现仅为51.26%和45.72%,表明这些感知能力在近期多模态LLM中尚未'涌现'。分析还指出,专业的计算机视觉模型能更好地解决这些问题,为未来的模型改进提供了潜在路径。BLINK数据集的推出,旨在激励社区推动多模态LLM模型在视觉感知能力上达到人类水平。
以上内容由AI搜集并总结生成



