stable-bias/professions-v2

Name: stable-bias/professions-v2
Creator: stable-bias
Published: 2023-08-21 14:11:59
License: 暂无描述

Hugging Face2023-08-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/stable-bias/professions-v2

下载链接

链接失效反馈

官方服务：

资源简介：

Professions-v2数据集是一个由文本到图像（TTI）系统生成的计算机生成图像的集合。该数据集用于评估系统输出在感兴趣维度上的变化，特别是在社会代表性方面的表现。数据集包含253,719行数据，每行数据对应一个TTI系统的输出，包括职业、模型、编号、种子和图像等字段。数据集的语言为美式英语，所有数据都包含在训练集中。数据集的创建目的是从社会特征的角度探索TTI系统的输出特性。数据集的使用需要考虑生成模型可能存在的偏见和局限性，特别是在北美语境下的局限性。

提供机构：

stable-bias

原始信息汇总

数据集概述

数据集名称

名称: Professions-v2

数据集特征

特征列表:
- profession: 职业名称，数据类型为字符串。
- model: 生成图像的模型名称，数据类型为字符串。
- no: 编号，数据类型为整数。
- seed: 随机种子，数据类型为整数。
- image: 图像数据，数据类型为图像。

数据集结构

数据格式: Parquet
数据行数: 253,719
数据加载示例: python from datasets import load_dataset dataset = load_dataset("tti-bias/professions-v2", split="train")

数据集分割

分割方式: 所有数据包含在train分割中。

数据集创建

目的: 探索TTI系统输出特性的社会特征。
数据生成方法: 使用Hugging Face的DiffusionPipeline生成。

数据集使用注意事项

潜在敏感信息: 生成的图像可能与真实人物相似。

数据集许可证

许可证: Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)

数据集引用信息

引用格式: json @article{stable-bias-authors-2023, author = {Anonymous Authors}, title = {Stable Bias: Analyzing Societal Representations in Diffusion Models}, year = {2023}, }

搜集汇总

数据集介绍

构建方式

在文本到图像生成系统的研究领域，Professions-v2数据集通过系统化方法构建而成。该数据集以美国劳工统计局提供的146种职业列表为基础，采用统一提示模板“Photo portrait of a [X]”生成图像，其中X代表具体职业名称。生成过程涵盖了15种不同的文本到图像模型，包括Stable Diffusion系列及其变体，每个提示均通过固定随机种子控制生成过程，确保实验的可复现性。最终数据集包含253,719张图像，所有数据均以标准化格式存储于单一训练分割中。

特点

该数据集的核心特征在于其系统性设计，专注于探索文本到图像模型在职业表征方面的输出特性。数据集覆盖了从传统职业到新兴领域的广泛类别，每张图像均标注了对应的职业名称、生成模型、序列编号及随机种子。图像分辨率统一为512x512像素，采用JPEG格式存储。值得注意的是，数据集明确标注了生成内容可能存在的偏见风险，为研究者提供了重要的伦理使用指引。数据集的跨模型比较设计，使得分析不同生成系统在职业表征上的差异成为可能。

使用方法

该数据集主要应用于文本到图像生成系统的评估研究，特别是针对模型输出中社会表征偏见的分析。研究者可通过Hugging Face的datasets库直接加载数据，使用标准Python代码即可访问图像及其元数据。典型应用场景包括：分析不同模型在特定职业表征上的视觉差异，探究提示工程对生成结果的影响，以及评估生成图像中可能存在的性别、种族等社会偏见。在使用过程中，研究者需注意生成内容可能包含刻板印象或敏感材料，并应结合美国劳工统计局的补充数据进行多维度分析。

背景与挑战

背景概述

在人工智能生成内容技术迅猛发展的背景下，文本到图像生成系统已成为计算机视觉领域的研究热点。由stable-bias团队于2023年创建的Professions-v2数据集，旨在系统性地探究这些生成模型在描绘社会职业形象时可能存在的表征偏差。该数据集基于美国劳工统计局提供的146种职业列表，通过统一提示模板“Photo portrait of a [X]”驱动多种主流扩散模型生成图像，从而构建了一个包含超过25万张生成肖像的大规模语料库。其核心研究问题聚焦于评估文本到图像系统输出空间的社会代表性，为理解生成模型中的社会偏见提供了重要的实证基础，对促进人工智能伦理与公平性研究具有显著影响力。

当前挑战

Professions-v2数据集所针对的领域挑战在于，文本到图像生成模型常无意识地强化社会固有刻板印象，例如在职业表征中呈现性别、种族等属性的系统性偏差。该数据集旨在为量化与缓解此类表征偏见提供基准。在构建过程中，研究团队面临多重挑战：其一，需精心设计涵盖广泛社会职业的提示词体系，并确保其源自权威统计来源以增强代表性；其二，协调多种异构生成模型进行大规模图像合成，涉及复杂的计算资源调度与结果归一化处理；其三，生成内容可能包含冒犯性刻板印象或敏感信息，对数据集的伦理审查与使用规范提出了严格要求。

常用场景

经典使用场景

在生成式人工智能的评估领域，Professions-v2数据集为研究者提供了一个系统性的基准，用于分析文本到图像生成模型在职业表征方面的输出特性。通过采用“Photo portrait of a [X]”的标准化提示模板，该数据集覆盖了146种常见职业，并汇集了来自15种不同扩散模型的生成结果。这种结构化的数据收集方式，使得研究者能够横向比较不同模型在相同提示下的视觉输出，从而深入探究模型内部隐含的社会表征模式。

实际应用

在实际应用层面，该数据集为人工智能产品的伦理审计提供了重要工具。科技公司在部署文本到图像生成服务前，可利用该数据集进行系统性偏见检测，识别模型在特定职业表征中可能存在的失衡问题。教育机构也能借助这些可视化材料，开展数字素养教育，帮助学生理解人工智能生成内容的社会建构特性。此外，政策制定者可通过分析跨模型的职业表征数据，为人工智能伦理规范的制定提供基于证据的决策参考。

衍生相关工作

基于该数据集衍生的经典研究，主要集中在生成模型的偏见测量与缓解技术开发。学者们通过分析不同模型在职业表征上的分布差异，提出了多种偏差量化指标，如职业-性别关联强度测量方法。这些工作进一步推动了去偏见生成技术的研究，包括提示工程优化、潜在空间干预等创新方法。相关研究成果已形成跨学科对话，将计算机视觉、社会学与伦理学的研究范式有机结合，为构建更负责任的人工智能系统奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集