MT-Text
收藏arXiv2025-04-03 更新2025-04-08 收录
下载链接:
http://arxiv.org/abs/2504.02545v1
下载链接
链接失效反馈官方服务:
资源简介:
MT-Text数据集是由MT数据集扩展而来的,增加了文本注释,用于支持文本驱动的化妆转换应用。该数据集通过GPT-4 Vision生成化妆风格的文本描述,以增强化妆技术的实用性,推动多模态化妆任务的研究与发展。
The MT-Text dataset is extended from the MT dataset with additional text annotations, which is designed to support text-driven makeup transfer applications. This dataset leverages GPT-4 Vision to generate textual descriptions of makeup styles, aiming to enhance the practicality of makeup techniques and promote the research and development of multimodal makeup tasks.
提供机构:
国立阳明交通大学
创建时间:
2025-04-03
搜集汇总
数据集介绍

构建方式
MT-Text数据集是在现有MT数据集基础上扩展而来,通过GPT-4 Vision模型对2719张化妆图像进行零样本标注,生成针对眼部、唇部和面部皮肤三个关键区域的文本描述。标注过程采用严格的清洗流程,包括冗余术语消除和错误描述修正,确保每个面部组件至少获得一个准确标签。数据集构建采用半自动化流程,首先生成初步描述后经人工校验,最终形成包含多样化化妆风格的多模态标注资源。
特点
该数据集的核心特点体现在其精细的组件级标注体系和丰富的文本描述多样性。统计显示96%的面部实体拥有多个风格描述符,眼部、唇部和面部分别包含830、468和744个独特文本标注。数据分布呈现显著的长尾特性,既包含'自然色调'等常见风格,也涵盖'渐变效果'等专业化妆术语。文本标注与图像像素级的空间对齐特性,为跨模态化妆研究提供了精确的监督信号。词云分析揭示了各区域的特征分布,如唇部突出'裸色唇膏'等描述,眼部强调'烟熏眼影'等关键词。
使用方法
该数据集支持端到端的文本驱动化妆迁移任务,用户可通过自然语言指令精确控制特定面部区域的化妆风格。典型流程包括:将CLIP文本编码器提取的嵌入向量作为域条件输入扩散模型;采用组件异步掩码技术实现局部编辑;通过跨域嵌入切换完成化妆添加/移除。对于多组件混合风格迁移,支持基于权值矩阵的层级混合(公式10)。研究人员可基于该数据集开展文本-图像对齐、局部属性编辑等任务,其标注体系也为构建更复杂的多模态化妆系统提供了基础。
背景与挑战
背景概述
MT-Text数据集由国立阳明交通大学的研究团队于2025年提出,旨在推动文本驱动化妆技术的研究。该数据集基于经典MT数据集进行扩展,通过GPT-4 Vision模型对2719张化妆图像的面部组件(皮肤、眼睛、嘴唇)进行细粒度文本标注,首次实现了化妆风格与自然语言描述的关联映射。作为跨域扩散模型MAD框架的核心组成部分,该数据集通过引入语义级标注突破了传统化妆迁移方法对参考图像的依赖,为多模态美妆交互系统提供了关键基础设施,显著提升了文本到化妆应用的实用性和可解释性。
当前挑战
在领域问题层面,MT-Text需解决化妆风格语义解耦的复杂性,包括细微妆容差异的文本表征(如哑光与珠光质地区分)、多组件风格组合的语义一致性等核心挑战。数据集构建过程中面临标注噪声消除的双重困难:既要处理GPT-4V生成的冗余描述(如'猫眼线'与'cat eye'的表述冲突),又需修正跨文化妆容术语的歧义(如'韩系咬唇妆'的准确翻译)。此外,小区域妆容(如睫毛膏效果)的文本精准标注,以及不同光照条件下化妆特征的稳定描述,均为数据集质量保障的关键瓶颈。
常用场景
经典使用场景
MT-Text数据集在跨域扩散模型MAD框架中扮演着核心角色,主要用于文本引导的化妆风格迁移与编辑任务。该数据集通过扩展经典MT数据集,为每张化妆图像添加了精细的文本标注(如'哑光唇线''烟熏眼影'等),使得扩散模型能够学习文本描述与视觉妆容的跨模态关联。在典型应用中,研究者将文本提示(如'大胆的红色唇膏')作为条件输入,通过CLIP文本编码器提取语义嵌入,驱动模型实现从非化妆域到目标妆容域的精准转换。
实际应用
在实际美妆场景中,MT-Text数据集支撑了多项商业化应用开发。虚拟试妆平台利用其文本-妆容映射能力,用户仅需输入自然语言描述即可实时预览妆容效果;影视后期制作中,通过'烟熏眼妆+古铜修容'等文本指令快速生成角色造型;美妆教育领域则基于该数据集开发了妆容语义解析系统,辅助学员理解抽象化妆术语与具体技法关联。特别在移动端轻量化应用中,文本交互方式显著降低了用户操作门槛。
衍生相关工作
该数据集已催生多个衍生研究方向:BeautyREC等团队将其与区域注意力机制结合,实现了组件级妆容编辑;PSGAN++在此基础上开发了姿势鲁棒的文本-妆容迁移框架;EleGANt则利用其文本标注构建了可解释的妆容特征空间。近期工作如MakeupCLIP进一步探索了文本嵌入与StyleGAN的联合优化,证明MT-Text在跨时代妆容生成中的扩展价值。这些衍生研究持续推动着美妆生成技术向多模态、精细化方向发展。
以上内容由遇见数据集搜集并总结生成



