Dysca
收藏arXiv2024-06-27 更新2024-06-29 收录
下载链接:
https://github.com/Benchmark-Dysca/Dysca
下载链接
链接失效反馈官方服务:
资源简介:
Dysca数据集由中国科学院计算技术研究所创建,旨在评估大型视觉-语言模型(LVLMs)的感知能力。该数据集包含617,000条视觉-语言问答对,涵盖20种感知子任务和51种不同的艺术风格。数据集通过利用Stable Diffusion和规则基方法动态生成新颖的图像、问题和相应答案,涉及清洁、损坏、打印攻击和对抗攻击四种场景。Dysca数据集的应用领域包括视觉场景理解和多模态指令遵循,旨在解决现有基准数据泄露和多风格图像评估不足的问题。
The Dysca dataset was created by the Institute of Computing Technology, Chinese Academy of Sciences, aiming to evaluate the perceptual capabilities of large visual-language models (LVLMs). The dataset comprises 617,000 visual-language question-answer pairs, covering 20 perceptual subtasks and 51 distinct artistic styles. Utilizing the Stable Diffusion model and rule-based methods, the dataset dynamically generates novel images, questions, and corresponding answers, involving four scenarios: clean, damaged, print attacks, and adversarial attacks. The application domains of the Dysca dataset include visual scene understanding and multimodal instruction following, aiming to address the issues of existing benchmark dataset leakage and insufficient evaluation of multi-style images.
提供机构:
中国科学院计算技术研究所
创建时间:
2024-06-27
原始信息汇总
Dysca 数据集概述
数据集简介
- 名称: Dysca (Dynamic and Scalable Benchmark for Evaluating Perception Ability of LVLMs)
- 用途: 评估大型视觉语言模型(LVLMs)的感知能力
- 特点:
- 动态可扩展的基准测试
- 利用合成图像进行评估
- 包含多种图像风格和场景
核心特性
- 数据生成:
- 使用Stable Diffusion生成新颖图像
- 基于规则的方法动态生成问题及答案
- 多样性:
- 51种图像风格
- 20个子任务
- 4种场景(清洁、损坏、打印攻击、对抗攻击)
- 3种问题类型(多选题、判断题、自由形式)
- 规模:
- 已发布数据量: 617K
- 理论上可生成无限测试数据
下载方式
与其他基准测试的比较优势
| 特性 | Dysca | 其他基准测试(平均) |
|---|---|---|
| 数据规模 | 617K | ~10K |
| 感知任务数量 | 20 | ~7 |
| 自动标注 | √ | 部分支持 |
| 问题类型多样性 | 3种 | 1-2种 |
| 自动评估 | √ | 多数支持 |
评估范围
- 已评估8个先进开源LVLM的10个检查点
- 揭示了当前LVLM的局限性
相关项目
- BLIP-2
- InstructBLIP
- LLaVA-1.5
- miniGPT4
- Otter
- Qwen-VL
- Shikra
- InternLM-XComposer
搜集汇总
数据集介绍

构建方式
Dysca数据集采用合成图像的方式构建,通过Stable Diffusion模型和基于规则的生成方法,动态地生成新颖的图像、问题和相应的答案。数据集的构建分为四个维度:元数据、提示、图像和问答对。元数据包括前景、属性、背景和风格,这些信息通过预设计的模板生成提示,再利用Text-to-Image模型生成图像。最后,根据不同的场景和问题类型,生成具体的文本问题和问答对。为了确保数据质量,使用了CLIP和PP-OCRv3模型对生成的数据进行清理。
使用方法
使用Dysca数据集进行评估时,首先需要根据评估需求选择合适的子任务和场景。然后,利用数据集中的提示和图像生成问答对。接着,根据问题类型选择相应的评估指标,如准确率或文本相似度。最后,对模型的性能进行评估和分析,并根据评估结果进行模型优化。Dysca数据集的生成性和可扩展性使得它可以轻松地添加新的子任务和场景,为LVLMs的评估提供了强大的工具。
背景与挑战
背景概述
在视觉语言模型(LVLMs)领域,评估模型的感知能力一直是研究的重要方向。Dysca数据集的创建旨在解决当前评估基准中存在的问题,如数据泄露和评估范围有限。该数据集由中国科学院计算技术研究所、中国科学院大学、中国科学院人工智能安全重点实验室以及中国地质大学的研究人员于2024年提出,旨在通过合成图像动态生成新的测试数据,从而评估LVLMs在各种子任务和场景下的感知能力。Dysca数据集包含了51种不同的图像风格和20个子任务,共617K个视觉语言QA对,为LVLMs的评估提供了一个全面且可扩展的基准。
当前挑战
Dysca数据集面临的挑战主要包括:1)如何确保合成图像的质量和多样性,以避免数据泄露和模型训练中的偏见;2)如何设计有效的评估策略和指标,以准确反映LVLMs在各种子任务和场景下的感知能力;3)如何确保数据集的可扩展性,以便于添加新的子任务和场景,同时保持数据的一致性和质量。
常用场景
经典使用场景
Dysca数据集是一个动态且可扩展的基准,用于评估大型视觉语言模型(LVLMs)的感知能力。该数据集通过合成图像来生成新颖的图像、问题和答案,以避免数据泄露问题。它包含了20个感知子任务和51种不同的艺术风格,涵盖了从人物、动物、物体到地标等多种识别任务。此外,Dysca还在清洁、腐蚀、打印攻击和对抗性攻击等四种场景下评估LVLMs的鲁棒性,并支持三种问题类型:多选、是非和自由回答。
解决学术问题
Dysca数据集解决了当前LVLMs评估基准中存在的一些问题。首先,它避免了数据泄露的风险,因为它使用合成图像而不是从现有数据集中选择图像。其次,Dysca涵盖了多种风格的图像和噪声场景,这使得它可以更全面地评估LVLMs在不同情况下的表现。最后,Dysca是一个可扩展的基准,可以轻松添加新的子任务和场景,从而为LVLMs的评估提供了一个更为灵活和全面的方法。
实际应用
Dysca数据集在实际应用中具有广泛的应用前景。它可以帮助研究者更好地理解LVLMs的感知能力,并为其改进提供有价值的反馈。此外,Dysca还可以作为训练数据合成工具,为LVLMs的训练和微调提供高质量的标注数据。在工业界,Dysca可以帮助开发者设计出更加鲁棒的视觉语言模型,从而提高其在实际场景中的应用效果,例如智能客服、图像描述生成、图像问答系统等。
数据集最近研究
最新研究方向
在大型视觉语言模型(LVLMs)的感知能力评估领域,Dysca 数据集的提出为该领域带来了新的研究视角。Dysca 数据集利用合成图像,通过动态生成新颖的图像、问题和答案,克服了现有数据集可能存在的数据泄露问题,并扩展了评估范围,涵盖了多风格图像和噪声场景。Dysca 数据集考虑了 51 种图像风格,并在 20 个子任务中对 LVLMs 的感知能力进行了评估。此外,Dysca 在 4 种场景(即干净、腐蚀、打印攻击和对抗攻击)和 3 种问题类型(即多选、是非和自由回答)下进行了评估,揭示了当前 LVLMs 的不足之处。Dysca 数据集的提出为 LVLMs 的评估提供了新的思路和方法,有助于推动该领域的进一步发展。
相关研究论文
- 1Dysca: A Dynamic and Scalable Benchmark for Evaluating Perception Ability of LVLMs中国科学院计算技术研究所 · 2024年
以上内容由遇见数据集搜集并总结生成



