LITORA-bases
收藏LITORA-bases 数据集概述
数据集基本信息
- 数据集名称:LITORA: A Large-Scale Open Portrait Relighting Dataset
- 许可证:CC-BY-NC-SA 4.0
- 任务类别:图像到图像、文本到图像
- 标签:肖像重光照、HDRI、扩散、多模态、质量元数据、计算摄影
- 语言:英语
- 数据规模:100K < n < 1M
- 论文:LITORA: A Large-Scale Open Portrait Relighting Dataset with AnyLight HDRI-Grounded Synthesis and Multimodal Annotations (ACM MM 2026 Dataset Track)
核心特征
| 属性 | 数值 |
|---|---|
| 总重光照图像对 | 140,036 |
| 唯一主体(来自FFHQ) | 70,000 |
| HDRI环境贴图 | 2,698(来自AmbientCG和Poly Haven) |
| 图像分辨率 | 1024 × 1024 |
| VLM文本标注覆盖率 | 100% |
| 逐样本质量分数覆盖率 | 100%(6个维度) |
数据集结构与内容
文件组织
数据以tar分片形式分发,以提高下载效率并与HuggingFace兼容。
LITORA/ ├── shards/ │ ├── images-00000.tar ... images-00017.tar # 18个分片(源肖像) │ ├── masks-00000.tar # 1个分片(前景掩码) │ ├── relit-00000.tar ... relit-00033.tar # 34个分片(重光照目标图像) │ └── backgrounds-00000.tar # 1个分片(HDRI视口背景) ├── metadata.jsonl └── README.md
分片清单
| 分片前缀 | 数量 | 每分片大小 | 总大小 | 内容 |
|---|---|---|---|---|
images-* |
18 | ~5 GB | ~90 GB | 70K张源肖像(FFHQ 1024×1024) |
masks-* |
1 | ~2.5 GB | ~2.5 GB | 70K张前景Alpha掩码 |
relit-* |
34 | ~5 GB | ~167 GB | 140K张HDRI条件重光照目标图像 |
backgrounds-* |
1 | ~1.2 GB | ~1.2 GB | 1,349个HDRI衍生背景视口 |
| 总计 | 54 | ~260 GB |
分片与元数据路径映射
metadata.jsonl中的路径字段映射到分片前缀如下:
| 元数据字段 | 路径前缀 | 分片前缀 |
|---|---|---|
image_path |
images/ |
images-*.tar |
mask_path |
masks/ |
masks-*.tar |
adv_image_path |
image_adv_fbc/ |
relit-*.tar |
bg_path |
bg_env/ |
backgrounds-*.tar |
下载规模
此存储库包含论文中引用的完整LITORA发布版本(约600 GB)的两个组成部分:
| 组件 | 大小 | 是否包含 | 备注 |
|---|---|---|---|
| 生成数据(重光照目标、掩码、背景、元数据) | ~171 GB | 是 | AnyLight管道产生的新数据 |
| 源肖像(FFHQ 1024×1024) | ~90 GB | 是 | 为方便而捆绑;也可通过HuggingFace上的FFHQ获取 |
| HDRI源贴图(AmbientCG + Poly Haven) | ~224 GB | 否 | CC0许可;请从源头下载以避免重复 |
此存储库总大小:~260 GB(生成数据 + 源肖像——训练所需的一切)。
元数据模式
metadata.jsonl中的每一行都是一个JSON对象,包含以下字段:
image_path:源肖像图像路径mask_path:前景掩码路径adv_image_path:重光照目标图像路径bg_path:背景视口图像路径hdri_id:HDRI环境贴图标识符hdri_description:HDRI环境描述env_rotation:环境旋转角度width:图像宽度height:图像高度text_foreground:前景文本描述text_background:背景文本描述transformation_instruction:光照变换指令文本quality_metrics:包含多个维度的质量指标(如DINO余弦相似度、LPIPS、CLIP质量分数、边界分数、复合分数等)gen_params:生成参数(如预设、步数、CFG等)seed:随机种子
训练范式
LITORA支持两种互补的训练范式:
- 图像条件:(源肖像、掩码、背景视口)→ 重光照目标
- 文本条件:(源肖像、变换指令)→ 重光照目标
质量指标
所有样本均包含六个维度的逐样本质量分数:
- 身份保持:DINOv3余弦相似度、LPIPS感知距离、掩码SSIM
- 感知质量:CLIP零样本质量评分
- 文本-图像对齐:指令与重光照图像之间的CLIPScore
- 面部完整性:MediaPipe标志点位移和面部裁剪DINOv3相似度
- 边界伪影:沿掩码轮廓的Sobel梯度分析
- 光照一致性:与HDRI主导光的色度比较
复合分数权重:DINO (0.20)、CLIP质量 (0.20)、CLIP分数 (0.15)、边界 (0.15)、面部 (0.15)、LPIPS⁻¹ (0.10)、SSIM (0.05)。默认阈值:τ = 0.55。
快速开始
下载与提取
使用huggingface-cli工具下载数据集,并提取分片到相应目录。
加载元数据
使用Python加载metadata.jsonl文件,并可基于quality_metrics.composite_score进行质量过滤。
选择性下载
支持仅下载元数据、重光照目标或源肖像等特定部分。
引用
请使用提供的BibTeX条目引用此数据集。
许可证
- LITORA数据集:CC-BY-NC-SA 4.0(与FFHQ许可证兼容)
- 源HDRI贴图:CC0(来自AmbientCG和Poly Haven)
- 管道代码:请参阅代码仓库许可证
伦理考量
该数据集包含源自FFHQ的人脸图像。使用者应:
- 根据许可证将数据集用于研究目的
- 注意可能从FFHQ源分布继承的潜在偏见
- 在对人脸数据训练模型时遵循负责任的AI实践




