noun-attributes

Hugging Face2026-03-06 更新2026-03-07 收录

下载链接：

https://huggingface.co/datasets/nirmalendu01/noun-attributes

下载链接

链接失效反馈

官方服务：

资源简介：

noun-attributes 是一个包含带有视觉属性的名词图像的数据集，附带由视觉语言模型（VLM）生成的描述和 GPT 评估的属性适用性。数据集包含 25,599 个样本，每个样本包含名词、图像、属性列表、属性等级和 VLM 生成的描述。数据集中的名词共有 245 个独特类别，每个名词的样本数量从 5 到 255 不等，平均为 104.1 个。属性共有 56 个独特类型，每个属性的样本数量从 13 到 7,459 不等，平均为 888.1 个。每个样本包含 1 到 12 个属性，平均为 1.9 个。VLM 描述由 Qwen/Qwen2.5-VL-3B-Instruct 生成，遵循特定的指令提示，确保描述简洁且包含重要场景信息。数据集还提供了属性适用性等级（1-5），其中等级 5 表示最典型的适用性。此外，数据集定义了用于引导选择的合格（名词，属性）对的标准，包括每个对至少 10 张图像和等级 ≥ 3 的适用性评级。

创建时间：

2026-03-06

原始信息汇总

数据集概述

基本信息

数据集名称： noun-attributes
许可证： MIT
主要语言： 英语 (en)
任务类别： 图像到文本、文本到图像
标签： 属性、名词、视觉语言模型描述

数据内容与结构

总样本数： 25,599
数据分割： 训练集
特征列：
- noun：名词，字符串类型。
- image：图像，图像类型。
- attributes：视觉属性列表，字符串列表类型。
- vlm_caption：视觉语言模型生成的描述，字符串类型。
- attribute_rank：属性适用性评级，字符串类型。

数据统计

名词

唯一名词数量： 245
每个名词的样本数： 最少5个，最多255个，平均104.1个。

属性

唯一属性数量： 56
每个属性的样本数： 最少13个，最多7459个，平均888.1个。
每个样本的属性数： 最少1个，最多12个，平均1.9个。

属性评级（5级为典型适用性）

拥有至少1个5级属性的样本数： 10,484
评级为5的（名词，属性）对数量： 13,354
拥有至少1个5级属性的唯一名词数量： 230

视觉语言模型描述

描述生成模型： Qwen/Qwen2.5-VL-3B-Instruct
提示指令： 与提供给MS-COCO标注者的指令相同，要求生成至少8个单词的单句描述。
唯一描述数量： 24,462
每个描述的单词数： 最少1个，最多24个，平均15.1个。

转向选择（用于Pa@10评估）

为选择用于转向的（名词，属性）对，需满足以下条件：

每个（名词，属性）对至少有10张图像（为Pa@10评估所需）。
GPT适用性评级≥3。
符合转向条件的对数： 1,676
符合转向条件的唯一名词数： 239
符合转向条件的唯一属性数： 40

数据集大小

下载大小： 22,652,397,402 字节
数据集大小： 22,656,764,105 字节
训练集大小： 22,656,764,105 字节 (25,599 个样本)

搜集汇总

数据集介绍

构建方式

在视觉语言模型蓬勃发展的背景下，noun-attributes数据集通过系统化的流程构建而成。其核心方法涉及从图像中提取名词实体，并利用先进的大语言模型为每个名词标注视觉属性。具体而言，数据集中每个样本均包含一个名词、对应图像、一组属性列表、由Qwen2.5-VL-3B-Instruct模型生成的描述性标题，以及通过GPT评估得出的属性适用性等级。构建过程特别注重属性与名词的关联质量，通过设定最小图像数量和适用性评级阈值，筛选出适用于后续模型引导任务的高质量名词-属性对。

使用方法

在视觉语言模型的可控生成与属性编辑研究中，该数据集提供了标准化的应用路径。研究者首要步骤是加载数据集并筛选出适用于引导评估的名词-属性对，这要求配对满足至少10张图像且GPT适用性评级不低于3的条件。数据集中包含的代码示例清晰地展示了如何计算这些符合条件的配对。随后，用户可以利用图像、属性列表及评级信息，对模型进行针对性微调或评估，例如在文本到图像生成任务中实现特定属性的精确控制。数据集的结构化设计支持对概念原型性和属性适用性的量化分析，为可解释性人工智能研究提供了坚实基础。

背景与挑战

背景概述

在视觉语言模型（VLM）与可控图像生成技术迅猛发展的背景下，noun-attributes数据集应运而生，旨在深化对名词视觉属性表征的理解与操控。该数据集由研究社区于近期构建，核心聚焦于探索名词与其视觉属性之间的关联性，为属性导向的图像生成与编辑任务提供结构化基准。其通过整合大规模图像数据、自动化生成的视觉描述以及基于大语言模型评级的属性适用性，构建了一个包含25599个样本、涵盖245个独特名词与56种属性的资源库。该数据集的建立，为研究视觉概念的组合性、评估模型对细粒度属性的理解能力，以及推动可控内容生成技术的发展，提供了重要的数据支撑与实验平台。

当前挑战

该数据集致力于解决视觉属性与名词关联性建模这一核心领域问题，其首要挑战在于如何精准定义与量化视觉属性的“典型适用性”。这要求超越简单的共现统计，深入语义层面评估属性与名词结合的合理性与自然度。在构建过程中，挑战主要源于数据质量与规模的平衡：一方面，需确保自动生成的视觉语言模型描述准确反映图像核心内容，避免引入无关细节或偏差；另一方面，为满足后续的定向评估（如Pa@10），必须筛选出同时满足最小图像数量与高适用性评级的（名词，属性）配对，这对数据覆盖的广度与标注的一致性提出了较高要求。

常用场景

经典使用场景

在视觉语言模型（VLM）与生成式人工智能的研究领域，noun-attributes数据集常被用于评估和提升模型对名词及其视觉属性的理解能力。该数据集通过结合图像、名词标签、属性列表以及由VLM生成的描述性标题，为研究者提供了一个结构化基准，用以测试模型在图像描述、属性识别及跨模态对齐任务中的表现。经典应用场景包括训练模型生成更精准的图像标题，或通过属性引导优化文本到图像的生成过程，从而增强模型对视觉概念的细粒度捕捉。

解决学术问题

该数据集有效应对了视觉与语言交叉研究中若干关键挑战，特别是针对名词属性关联的量化评估问题。它解决了传统数据集中属性标注稀疏或不一致的问题，通过GPT评级的属性适用性分数，为学术研究提供了可靠的质量评估标准。其意义在于促进了视觉属性理解、跨模态检索以及可控图像生成等方向的方法创新，为构建更鲁棒、可解释的视觉语言系统奠定了数据基础，推动了多模态人工智能向更精细语义理解的发展。

实际应用

在实际应用层面，noun-attributes数据集能够支持开发更智能的图像搜索与推荐系统。例如，在电子商务平台中，系统可利用该数据集训练模型，根据用户输入的名词（如“椅子”）及其指定属性（如“木制的”、“现代的”）精准检索或生成符合描述的图像。此外，在辅助设计、教育工具或内容创作领域，该数据集有助于实现基于自然语言指令的可控视觉内容生成，提升人机交互的直观性与效率。

数据集最近研究