LITORA-bases

Hugging Face2026-04-07 更新2026-04-08 收录

下载链接：

https://huggingface.co/datasets/Kinseong/LITORA-bases

下载链接

链接失效反馈

官方服务：

资源简介：

LITORA 是一个大规模开放的肖像重光照数据集，包含140,036对重光照图像，由70,000个FFHQ肖像和2,698个真实世界HDRI环境图通过全自动合成构建而成。数据集提供了两个数量级以上的主题多样性，支持图像到图像和文本到图像的任务。数据以tar分片形式分发，总大小约260GB，包括源肖像、前景蒙版、重光照目标和HDRI背景视口。每个样本都包含多模态注释和六个维度的质量评分，适用于肖像重光照、计算摄影和多模态学习等研究。数据集遵循CC-BY-NC-SA 4.0许可，并包含详细的元数据结构和快速入门指南。

创建时间：

2026-04-04

原始信息汇总

LITORA-bases 数据集概述

数据集基本信息

数据集名称：LITORA: A Large-Scale Open Portrait Relighting Dataset
许可证：CC-BY-NC-SA 4.0
任务类别：图像到图像、文本到图像
标签：肖像重光照、HDRI、扩散、多模态、质量元数据、计算摄影
语言：英语
数据规模：100K < n < 1M
论文：LITORA: A Large-Scale Open Portrait Relighting Dataset with AnyLight HDRI-Grounded Synthesis and Multimodal Annotations (ACM MM 2026 Dataset Track)

核心特征

属性	数值
总重光照图像对	140,036
唯一主体（来自FFHQ）	70,000
HDRI环境贴图	2,698（来自AmbientCG和Poly Haven）
图像分辨率	1024 × 1024
VLM文本标注覆盖率	100%
逐样本质量分数覆盖率	100%（6个维度）

数据集结构与内容

文件组织

数据以tar分片形式分发，以提高下载效率并与HuggingFace兼容。

LITORA/ ├── shards/ │ ├── images-00000.tar ... images-00017.tar # 18个分片（源肖像） │ ├── masks-00000.tar # 1个分片（前景掩码） │ ├── relit-00000.tar ... relit-00033.tar # 34个分片（重光照目标图像） │ └── backgrounds-00000.tar # 1个分片（HDRI视口背景） ├── metadata.jsonl └── README.md

分片清单

分片前缀	数量	每分片大小	总大小	内容
`images-*`	18	~5 GB	~90 GB	70K张源肖像（FFHQ 1024×1024）
`masks-*`	1	~2.5 GB	~2.5 GB	70K张前景Alpha掩码
`relit-*`	34	~5 GB	~167 GB	140K张HDRI条件重光照目标图像
`backgrounds-*`	1	~1.2 GB	~1.2 GB	1,349个HDRI衍生背景视口
总计	54		~260 GB

分片与元数据路径映射

metadata.jsonl中的路径字段映射到分片前缀如下：

元数据字段	路径前缀	分片前缀
`image_path`	`images/`	`images-*.tar`
`mask_path`	`masks/`	`masks-*.tar`
`adv_image_path`	`image_adv_fbc/`	`relit-*.tar`
`bg_path`	`bg_env/`	`backgrounds-*.tar`

下载规模

此存储库包含论文中引用的完整LITORA发布版本（约600 GB）的两个组成部分：

组件	大小	是否包含	备注
生成数据（重光照目标、掩码、背景、元数据）	~171 GB	是	AnyLight管道产生的新数据
源肖像（FFHQ 1024×1024）	~90 GB	是	为方便而捆绑；也可通过HuggingFace上的FFHQ获取
HDRI源贴图（AmbientCG + Poly Haven）	~224 GB	否	CC0许可；请从源头下载以避免重复

此存储库总大小：~260 GB（生成数据 + 源肖像——训练所需的一切）。

元数据模式

metadata.jsonl中的每一行都是一个JSON对象，包含以下字段：

image_path：源肖像图像路径
mask_path：前景掩码路径
adv_image_path：重光照目标图像路径
bg_path：背景视口图像路径
hdri_id：HDRI环境贴图标识符
hdri_description：HDRI环境描述
env_rotation：环境旋转角度
width：图像宽度
height：图像高度
text_foreground：前景文本描述
text_background：背景文本描述
transformation_instruction：光照变换指令文本
quality_metrics：包含多个维度的质量指标（如DINO余弦相似度、LPIPS、CLIP质量分数、边界分数、复合分数等）
gen_params：生成参数（如预设、步数、CFG等）
seed：随机种子

训练范式

LITORA支持两种互补的训练范式：

图像条件：（源肖像、掩码、背景视口）→ 重光照目标
文本条件：（源肖像、变换指令）→ 重光照目标

质量指标

所有样本均包含六个维度的逐样本质量分数：

身份保持：DINOv3余弦相似度、LPIPS感知距离、掩码SSIM
感知质量：CLIP零样本质量评分
文本-图像对齐：指令与重光照图像之间的CLIPScore
面部完整性：MediaPipe标志点位移和面部裁剪DINOv3相似度
边界伪影：沿掩码轮廓的Sobel梯度分析
光照一致性：与HDRI主导光的色度比较

复合分数权重：DINO (0.20)、CLIP质量 (0.20)、CLIP分数 (0.15)、边界 (0.15)、面部 (0.15)、LPIPS⁻¹ (0.10)、SSIM (0.05)。默认阈值：τ = 0.55。

快速开始

下载与提取

使用huggingface-cli工具下载数据集，并提取分片到相应目录。

加载元数据

使用Python加载metadata.jsonl文件，并可基于quality_metrics.composite_score进行质量过滤。

选择性下载

支持仅下载元数据、重光照目标或源肖像等特定部分。

引用

请使用提供的BibTeX条目引用此数据集。

许可证

LITORA数据集：CC-BY-NC-SA 4.0（与FFHQ许可证兼容）
源HDRI贴图：CC0（来自AmbientCG和Poly Haven）
管道代码：请参阅代码仓库许可证

伦理考量

该数据集包含源自FFHQ的人脸图像。使用者应：

根据许可证将数据集用于研究目的
注意可能从FFHQ源分布继承的潜在偏见
在对人脸数据训练模型时遵循负责任的AI实践

搜集汇总

数据集介绍

构建方式

在计算摄影学领域，大规模高质量数据集的构建是推动肖像重光照技术发展的关键。LITORA数据集通过全自动合成流程构建，其核心方法是将七万张来自FFHQ的高分辨率肖像与两千六百九十八张真实世界的高动态范围图像环境贴图进行配对。该流程采用先进的AnyLight合成管线，确保每一对数据都包含源肖像、前景遮罩、重光照目标图像以及由HDRI衍生的背景视口，最终生成超过十四万对高质量的重光照样本，显著提升了数据在主体多样性上的丰富度。

特点

作为当前规模最大的开放肖像重光照数据集，LITORA展现出多方面的显著特征。其数据规模达到十四万对，并提供了完整的六维度逐样本质量评分，涵盖了身份保持、感知质量、文本对齐等多个关键指标。数据集不仅包含图像到图像的重光照配对，还提供了由视觉语言模型生成的文本描述与光照变换指令，支持多模态学习范式。此外，数据以高效的分片压缩格式组织，便于分布式下载与处理，在保持数据完整性的同时优化了存储与访问效率。

使用方法

为便于研究者使用，LITORA数据集提供了灵活的数据加载方案。用户可通过Hugging Face Hub命令行工具下载整个数据集或选择性获取特定分片，如仅下载重光照目标或源肖像。数据解压后，其结构化的元数据文件`metadata.jsonl`记录了每个样本的完整信息路径与质量分数，支持通过编程方式快速加载与筛选高质量样本。数据集支持两种核心训练范式：基于图像条件（源肖像、遮罩、背景）的重光照，以及基于文本条件（源肖像、变换指令）的重光照，为模型开发与评估提供了坚实的基础。

背景与挑战

背景概述

在计算摄影学与计算机视觉领域，肖像重光照技术旨在通过算法调整图像中人物的光照条件，以模拟不同环境光照效果，该技术对虚拟现实、增强现实及数字内容创作具有重要价值。LITORA数据集由研究团队于2026年构建，并在ACM国际多媒体会议上发布，其核心研究问题是解决现有肖像重光照数据规模有限、光照多样性不足的瓶颈。通过融合七万张FFHQ肖像与两千余张真实世界高动态范围图像，该数据集以全自动合成方式构建了十四万对重光照样本，显著提升了数据集的规模与光照场景的丰富性，为基于扩散模型的多模态肖像重光照研究提供了关键支撑。

当前挑战

肖像重光照领域长期面临高质量配对数据稀缺的挑战，现有数据集往往受限于有限的拍摄对象与人工标注成本，难以覆盖复杂多变的光照环境。LITORA数据集在构建过程中，需克服大规模数据合成的技术难题，包括确保重光照图像的身份一致性、光照真实感以及边界自然度。此外，自动化流程需整合多源HDRI环境贴图，并设计涵盖身份保持、感知质量、面部完整性等六维度的量化评估体系，以筛选高质量样本，避免合成伪影与光照失真的产生。

常用场景

经典使用场景

在计算摄影与计算机视觉领域，肖像重光照技术致力于模拟真实世界光照条件对人物肖像进行逼真编辑。LITORA数据集以其大规模、高质量的特性，为基于深度学习的肖像重光照模型提供了经典训练与评估基准。该数据集通过自动化合成流程，将七万张FFHQ肖像与两千余张真实高动态范围图像环境贴图相结合，生成十四万对重光照样本，支持图像到图像与文本到图像的训练范式。研究者可借助其丰富的多模态标注与逐样本质量评分，系统性地开发与验证生成模型在复杂光照条件下的泛化能力与视觉保真度。

解决学术问题

肖像重光照研究长期受限于数据规模与多样性不足，难以支撑数据驱动模型的深度训练。LITORA数据集通过引入真实世界高动态范围环境贴图与大规模肖像合成，有效解决了该领域对高质量、多样化配对数据的需求。其提供的多维度质量指标，如身份保持、感知质量与光照一致性，为量化评估模型性能建立了可靠标准。这不仅推动了生成模型在复杂光照模拟中的技术进步，也为跨模态学习与可控图像编辑提供了坚实的实验基础，对计算摄影与图形学交叉研究具有深远意义。

衍生相关工作

基于LITORA数据集，学术界已涌现出一系列经典研究工作，主要集中在生成模型架构优化与跨模态重光照方法上。例如，研究者利用其图像与文本配对数据，开发了基于扩散模型的端到端重光照系统，实现了更高保真度的光照迁移。同时，结合其多维度质量评分，多项工作提出了自适应训练策略，以提升模型在身份保持与边界伪影抑制方面的性能。这些衍生工作不仅推动了肖像重光照技术的边界，也为相关领域如人脸编辑、场景合成与可控生成提供了可借鉴的方法论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集