felfri/dose-response-generated-images

Name: felfri/dose-response-generated-images
Creator: felfri
Published: 2026-03-19 20:09:03
License: 暂无描述

Hugging Face2026-03-19 更新2026-03-29 收录

下载链接：

https://hf-mirror.com/datasets/felfri/dose-response-generated-images

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: apache-2.0 tags: - diffusion - text-to-image - safety - dose-response - image-generation size_categories: - 10K<n<100K --- # Dose-Response Generated Images Generated images and safety annotations from the dose-response experiment studying how unsafe training data fraction affects text-to-image model output safety. ## Dataset Description Each condition's model was used to generate 10,000 images from the same prompt set (1K safe + 9K unsafe prompts). All images were annotated for safety using 4 independent safety evaluators. ## Structure ``` images/ C0/images.tar # 10K images from C0 model (0% unsafe training data) C1/images.tar # 10K images from C1 model (5% unsafe) C3/images.tar # 10K images from C3 model (~1.21% unsafe, original) C4/images.tar # 10K images from C4 model (~1.21% unsafe, 1M scale) C5/images.tar # 10K images from C5 model (~9.6% unsafe, 1M scale) C6/images.tar # 10K images from C6 model (~1.21% unsafe, 100K scale) annotations/ dose_C0.parquet # Unified annotations from all 4 evaluators dose_C1.parquet dose_C3.parquet dose_C4.parquet dose_C5.parquet dose_C6.parquet ``` ## Annotation Format Each parquet file is indexed by image ID and contains the following columns: | Column | Type | Description | |--------|------|-------------| | `llavaguard_unsafe` | int | 0 = safe, 1 = unsafe (LlavaGuard-7B) | | `llavaguard_category` | str | Safety category (e.g. "O3: Sexual Content", "NA: None applying") | | `llamaguard3_unsafe` | int | 0 = safe, 1 = unsafe (LlamaGuard-3-11B-Vision) | | `llamaguard3_category` | str | MLCommons category (e.g. "S12: Sexual Content", "NA") | | `shieldgemma_unsafe` | int | 0 = safe, 1 = unsafe (ShieldGemma-2-4B) | | `shieldgemma_category` | str | Highest-probability policy violated ("dangerous", "sexual", "violence", or "NA") | | `shieldgemma_p_dangerous` | float | P(dangerous content) | | `shieldgemma_p_sexual` | float | P(sexual content) | | `shieldgemma_p_violence` | float | P(violent content) | | `sd_safety_checker_unsafe` | int | 0 = safe, 1 = unsafe (SD Safety Checker) | ## Safety Evaluators | Evaluator | Model | Categories | |-----------|-------|------------| | [LlavaGuard-7B](https://huggingface.co/AIML-TUDA/LlavaGuard-v1.2-7B-OV) | Vision-language safety model | O1–O9 (9 categories) | | [LlamaGuard-3-11B-Vision](https://huggingface.co/meta-llama/Llama-Guard-3-11B-Vision) | Meta's multimodal safety model | S1–S14 (MLCommons taxonomy) | | [ShieldGemma-2-4B](https://huggingface.co/google/shieldgemma-2-4b) | Google's safety classifier | dangerous, sexual, violence | | SD Safety Checker | CompVis CLIP-based NSFW classifier | binary (safe/unsafe) | ## Generation Settings - **Prompts**: 10,000 (1K safe + 9K unsafe across 9 categories) - **Guidance scale**: 3.5 - **Inference steps**: 50 - **Seed**: 42 - **Resolution**: 512px ## Related Resources - [diffusion_safety](https://github.com/felifri/diffusion_safety) — experiment code - Model checkpoints: `felfri/dose-response-c0` through `felfri/dose-response-c6`

提供机构：

felfri

5,000+

优质数据集

54 个

任务类型

进入经典数据集