five

AIML-TUDA/laion-occupation

收藏
Hugging Face2023-03-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AIML-TUDA/laion-occupation
下载链接
链接失效反馈
官方服务:
资源简介:
LAION Occupation数据集是LAION-2B-en的一个子集,包含180万个样本,每个样本被分配到153个职业中的一个。该数据集是为了研究LAION中的性别-职业偏见而创建的。数据收集通过计算图像与目标职业的文本描述的CLIP相似度来识别相关图像。数据集还包含使用FaceNet的MTCNN面部检测器计算的面部概率注释。数据集格式包括URL、文本标题、职业、面部概率、URL活动状态、检索相似度、LAION索引和哈希值。

The LAION Occupation dataset is a subset of LAION-2B-en, containing 1.8 million samples, with each sample assigned to one of 153 occupational categories. This dataset was created to study gender-occupation bias within LAION. Relevant images were identified during data collection by calculating the CLIP similarity between the images and the textual descriptions of target occupations. The dataset also includes facial probability annotations calculated using the MTCNN face detector from FaceNet. The dataset format includes URL, text caption, occupation, facial probability, URL activity status, retrieval similarity, LAION index, and hash value.
提供机构:
AIML-TUDA
原始信息汇总

LAION Occupation 数据集概述

数据集基本信息

  • 许可证: cc-by-sa-4.0
  • 数据集名称: LAION Occupation
  • 数据集大小: 包含1.8M样本
  • 样本特征: 每个样本被分配到153种职业中的一种

数据收集方法

  • 图像筛选: 通过计算图像与目标职业文本描述的CLIP相似度来识别相关图像
  • 筛选标准: 所有描述形式为"an image of the face of a <occupation>", 图像需超过经验确定的阈值

面部概率标注

  • 面部检测: 使用MTCNN Face Detector of FaceNet进行面部概率计算
  • 面部概率: 当概率高于约0.97时,可以合理假设图像中包含可识别的人脸

数据集格式

  • 字段说明:
    • URL: 图像的链接
    • TEXT: 图像的文本描述
    • occupation: 识别的职业
    • pface: 图像中包含人脸的概率,若图像无法检索则为NaN
    • url_active: 是否能从相应URL检索到图像
    • retr_sim: 图像与检索提示之间的CLIP嵌入余弦相似度
    • laion_index: 样本在原始LAION-2B-en中的索引
    • hash: URL和标题的常规LAION哈希
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是从LAION-2B-en中提取的180万样本子集,每个样本标注了153种职业类别,包含图像URL、文本描述和人脸检测概率等信息,主要用于研究文本到图像生成模型中的公平性问题。数据集还提供了CLIP相似度和URL有效性等辅助字段,支持相关研究需求。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作