five

EvalMuse-40K|文本到图像生成数据集|模型评估数据集

收藏
arXiv2024-12-25 更新2024-12-26 收录
文本到图像生成
模型评估
下载链接:
https://shh-han.github.io/EvalMuse-project/
下载链接
链接失效反馈
资源简介:
EvalMuse-40K是由南开大学和字节跳动公司等机构共同创建的一个大规模、细粒度的人工标注数据集,旨在评估文本到图像生成模型的图像-文本对齐能力。该数据集包含40K图像-文本对,涵盖了4K个提示词,并生成了超过1M的细粒度标注。数据集的提示词包括2K个真实提示词和2K个合成提示词,真实提示词来自DiffusionDB,合成提示词则通过GPT-4生成,以确保多样性和特定技能的评估。在数据构建过程中,研究人员采用了平衡提示采样和数据重新标注等策略,确保数据集的多样性和可靠性。EvalMuse-40K不仅用于评估图像-文本对齐的整体表现,还通过细粒度标注和结构问题标注,深入分析生成模型的具体问题。该数据集的应用领域主要集中在文本到图像生成模型的评估与改进,旨在为未来的研究和模型开发提供可靠的基准。
提供机构:
南开大学, 字节跳动公司, 深圳福田区NKIARI
创建时间:
2024-12-24
AI搜集汇总
数据集介绍
main_image_url
构建方式
EvalMuse-40K数据集的构建过程采用了多种策略以确保其多样性和可靠性。首先,从DiffusionDB中随机抽取了2K真实用户提示,并通过混合整数线性规划(MILP)策略确保类别平衡。其次,使用GPT-4生成了2K合成提示,涵盖图像-文本对齐中的特定技能,如数量和位置。接着,通过多种文本到图像生成模型生成了40K图像-文本对,并利用大型语言模型进行元素分割和问题生成。最后,通过多轮人工标注,确保每个图像-文本对具有细粒度的人类注释,涵盖图像-文本对齐、结构问题等多个维度。
特点
EvalMuse-40K数据集具有显著的特点。首先,它包含了4K提示、40K图像-文本对以及超过1M的细粒度人类注释,规模庞大且注释精细。其次,数据集通过平衡采样和合成提示,确保了提示的多样性和类别平衡,能够全面评估生成模型在不同技能上的表现。此外,数据集不仅提供了整体图像-文本对齐评分,还进行了元素级别的细粒度注释,能够深入分析生成模型在特定技能上的准确性。最后,数据集还标注了生成图像中的结构问题,进一步增强了其评估能力。
使用方法
EvalMuse-40K数据集的使用方法多样且灵活。首先,研究人员可以利用该数据集评估现有文本到图像生成模型的图像-文本对齐能力,通过整体评分和细粒度注释分析模型的表现。其次,数据集支持开发新的自动化评估指标,如FGA-BLIP2和PN-VQA,这些方法通过端到端微调和正负视觉问答方式,能够更准确地评估图像-文本对齐。此外,数据集还可用于训练和验证新的生成模型,通过大规模人类注释数据,提升模型的生成质量和对齐能力。最后,数据集的结构问题标注也为研究多模态大语言模型在图像结构问题检测上的能力提供了宝贵资源。
背景与挑战
背景概述
EvalMuse-40K 是一个专为文本到图像生成模型评估而设计的高质量基准数据集,由字节跳动和南开大学的研究团队于2024年创建。该数据集包含40K个图像-文本对,并附带了超过100万条细粒度的人工标注,旨在解决现有自动评估指标在图像-文本对齐任务中的局限性。EvalMuse-40K 通过平衡的提示采样和数据重新标注策略,确保了数据集的多样性和可靠性,从而能够全面评估生成模型在图像-文本对齐任务中的表现。该数据集的推出为文本到图像生成模型的评估提供了新的标准,推动了该领域的发展。
当前挑战
EvalMuse-40K 面临的挑战主要包括两个方面。首先,在领域问题方面,现有的自动评估指标在处理图像-文本对齐任务时,往往无法准确捕捉细粒度的对齐问题,尤其是在数量、位置等具体细节上的不一致性。其次,在数据集构建过程中,研究人员需要确保提示的多样性和平衡性,同时生成高质量的图像-文本对,并进行大规模的人工标注。这一过程不仅耗时耗力,还需要克服标注过程中的主观偏差,确保标注结果的可靠性和一致性。此外,如何设计新的评估方法,如FGA-BLIP2和PN-VQA,以更好地与人类偏好对齐,也是该数据集面临的重要挑战。
常用场景
经典使用场景
EvalMuse-40K数据集在文本到图像生成模型的评估中具有广泛的应用,尤其是在图像与文本对齐任务中。该数据集通过提供40K个带有细粒度人工标注的图像-文本对,能够全面评估生成模型在图像与文本对齐方面的表现。研究人员可以利用该数据集对现有的自动评估指标进行验证,并开发新的评估方法,以提升生成模型的图像与文本对齐能力。
实际应用
在实际应用中,EvalMuse-40K数据集可以用于评估和优化文本到图像生成模型的性能。例如,生成模型开发者可以利用该数据集对其模型进行细粒度的对齐评估,识别模型在特定技能上的不足,并进行针对性改进。此外,该数据集还可以用于开发新的自动评估工具,帮助用户更直观地了解生成模型的表现,从而选择最适合其需求的模型。
衍生相关工作
EvalMuse-40K数据集衍生了一系列相关研究工作,特别是在图像与文本对齐评估领域。基于该数据集,研究人员提出了FGA-BLIP2和PN-VQA两种新的评估方法。FGA-BLIP2通过端到端的微调,能够输出细粒度的图像与文本对齐分数,而PN-VQA则通过正负向的视觉问答方式,提升了零样本细粒度评估的能力。这些方法不仅提升了评估的准确性,还为未来的文本到图像生成模型研究提供了新的方向。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Open Power System Data

Open Power System Data is a free-of-charge data platform dedicated to electricity system researchers. We collect, check, process, document, and publish data that are publicly available but currently inconvenient to use. The project is a service provider to the modeling community: a supplier of a public good. Learn more about its background or just go ahead and explore the data platform.

re3data.org 收录

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录