five

zhiyuanyou/DataDepictQA

收藏
Hugging Face2024-07-08 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/zhiyuanyou/DataDepictQA
下载链接
链接失效反馈
官方服务:
资源简介:
DataDepictQA是一个用于图像质量评估的多模态数据集,包含多个子数据集如KADIS700K、BAPPS、PIPAL、KADID10K和DetailDescriptionLAMM。这些数据集用于训练DepictQA-v2和DepictQA-v1模型,涉及图像到文本的任务。数据集的构建基于现有数据集,需要下载和重新整理图像文件。每个子数据集的下载和整理步骤都有详细说明,包括如何放置文件和进行必要的图像处理。

DataDepictQA is a multi-modal dataset for image quality assessment, including sub-datasets such as KADIS700K, BAPPS, PIPAL, KADID10K, and DetailDescriptionLAMM. These datasets are used to train DepictQA-v2 and DepictQA-v1 models, involving image-to-text tasks. The dataset construction is based on existing datasets, requiring the download and rearrangement of image files. Detailed instructions are provided for each sub-dataset, including how to place files and perform necessary image processing.
提供机构:
zhiyuanyou
原始信息汇总

DataDepictQA 数据集概述

数据集信息

  • 许可证: Apache 2.0
  • 任务类别: 图像到文本
  • 语言: 英语
  • 标签: 多模态图像质量评估
  • 名称: DataDepictQA
  • 大小: 100K<n<1M

数据集版本

数据集构建

  • DepictQA-v2 训练所需数据集:

    • KADIS700K
    • BAPPS
    • PIPAL
    • KADID10K
    • DetailDescriptionLAMM
  • DepictQA-v1 训练所需数据集:

    • BAPPS
    • PIPAL
    • KADID10K
    • DetailDescriptionLAMM

数据集构建步骤

KADIS700K

  1. ModelScope 下载构建好的数据集(KADIS700K 目录下)。
  2. 将下载的图像放置在 DataDepictQA/KADIS700K 目录下。

BAPPS

  1. PerceptualSimilarity 下载 BAPPS 数据集(2AFC Train set 和 2AFC Val set)。
  2. 将下载的图像放置在 DataDepictQA/BAPPS 目录下。
  3. 使用 resize_bapps.py 将图像从 256 x 256 缩放到 64 x 64。

PIPAL

  1. PIPAL-dataset 下载 PIPAL 数据集(train set)。
  2. 将下载的图像放置在 DataDepictQA/PIPAL 目录下。

KADID10K

  1. KADID-10K Database 下载 KADID10K 数据集。
  2. 将下载的图像放置在 DataDepictQA/KADID10K 目录下。

DetailDescriptionLAMM

  1. LAMM Detailed Description 下载 LAMM Detailed Description 数据集(coco_images)。
  2. 将下载的图像放置在 DataDepictQA/DetailDescriptionLAMM 目录下。
搜集汇总
数据集介绍
main_image_url
构建方式
在图像质量评估领域,DataDepictQA数据集的构建体现了对现有资源的系统性整合与重构。该数据集并非从零开始采集,而是基于多个权威的图像质量评估基准数据集,如KADIS700K、BAPPS、PIPAL、KADID10K、CSIQ、TID2013以及DetailDescriptionLAMM,通过精心设计的脚本进行重组与格式化。构建过程涉及从各原始来源下载图像数据,并按照预定义的目录结构进行放置,部分数据还需进行分辨率还原等预处理操作,以确保数据的一致性与适用性。最终,通过整合各子集的元数据文件,形成了一个统一、结构化的多模态图像质量描述数据集。
特点
DataDepictQA数据集的核心特征在于其多模态与描述性。它超越了传统图像质量评估数据集仅提供分数或二元比较的局限,深度融合了视觉图像与详细的文本描述。数据集规模庞大,涵盖数十万至近百万样本,广泛包含了从合成失真到真实场景(in-the-wild)的多种图像退化类型。其独特之处在于为图像对(如参考图与失真图)或单张图像,关联了不同粒度的文本描述,包括简要判断与详细的质量评估理由,从而为训练能够理解并生成质量描述的多模态大模型提供了丰富的监督信号。
使用方法
该数据集主要用于训练和评估先进的描述性图像质量评估模型,如DepictQA系列。研究人员需首先按照构建指南,从指定链接下载各子数据集(如KADIS700K、BAPPS等)的原始图像,并严格遵循提供的目录结构进行组织。对于BAPPS等部分数据,需运行附带的Python脚本进行图像尺寸还原等必要预处理。完成数据准备后,用户可参照项目源代码,利用数据集中的图像与对应的元数据(存储于`metas`目录)进行模型训练。数据集支持多种任务格式,包括图像对比较、单图像质量评分生成以及细粒度的质量描述生成,为探索图像质量的语言化评估提供了标准化的基准。
背景与挑战
背景概述
在计算机视觉与多模态人工智能融合发展的浪潮中,图像质量评估(IQA)领域长期依赖于单一的数值分数,难以全面刻画人类复杂的视觉感知。为突破这一局限,由游志远、顾金金、李哲源等研究人员领衔,XPixelGroup团队于2023至2024年间相继推出了DataDepictQA数据集及其关联的DepictQA系列研究。该数据集的核心研究问题在于,如何超越传统评分体系,通过自然语言描述来细致评估图像质量,从而推动描述性图像质量评估这一新兴方向的发展。其构建基于KADIS700K、BAPPS、PIPAL等多个经典IQA数据集,并创新性地引入了DetailDescriptionLAMM等文本描述数据,旨在训练能够理解并生成质量描述的多模态语言模型,对提升模型的可解释性与人机交互的直观性具有深远影响。
当前挑战
DataDepictQA数据集致力于解决描述性图像质量评估这一前沿问题的核心挑战,即如何让模型像人类一样,不仅给出质量分数,更能用丰富的语言描述图像在细节、纹理、自然度等方面的优劣及其具体原因。这要求模型具备跨模态的深度理解与生成能力。在数据集构建过程中,研究者面临多重工程与协调挑战:其一,需系统整合多个异构的现有IQA数据集(如KADID10K、PIPAL等),确保数据格式、失真类型与标注标准的一致性;其二,为生成高质量的描述性文本,需精心设计基于大型语言模型的自动化标注流程,并有效融合外部详细描述数据(如DetailDescriptionLAMM),以平衡描述的准确性与多样性;其三,处理大规模图像数据(如KADIS700K)时,涉及复杂的目录结构管理与图像预处理,例如将BAPPS数据集中的图像分辨率恢复至原始尺寸,以避免引入额外的像素化失真干扰模型学习。
常用场景
经典使用场景
在图像质量评估领域,DataDepictQA数据集为研究者提供了多模态描述性质量评估的基准。该数据集通过整合KADIS700K、BAPPS、PIPAL等经典图像质量数据集,构建了包含丰富失真类型与语言描述的大规模配对数据。其经典使用场景在于训练和评估能够生成自然语言描述的图像质量评估模型,推动传统数值评分向语义化描述的范式转变。
解决学术问题
该数据集有效解决了图像质量评估领域长期存在的语义鸿沟问题。传统方法仅输出数值分数,难以解释质量优劣的具体视觉成因。DataDepictQA通过引入多模态语言描述,使模型能够识别并表述图像中的失真类型、空间位置及感知影响,从而在可解释性评估、细粒度质量归因分析等前沿学术问题上提供了关键数据支撑。
衍生相关工作
基于DataDepictQA衍生的经典工作包括DepictQA系列研究框架。DepictQA-v1首次将多模态大语言模型引入描述性质量评估任务,建立了图像-文本联合建模范式。DepictQA-v2进一步扩展至开放域真实场景,提出了鲁棒性更强的野外质量描述基准。这些工作推动了AIGC内容评估、视觉-语言对齐等交叉领域的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作