five

𝓛oc𝓚

收藏
github2025-06-16 更新2025-06-17 收录
下载链接:
https://github.com/ArmanZarei/DiT-Knowledge-Localization
下载链接
链接失效反馈
官方服务:
资源简介:
𝓛oc𝓚数据集包含所有知识类别及其对应的提示,用于定位。

The Loc𝓚 dataset encompasses all knowledge categories along with corresponding prompts for localization.
创建时间:
2025-06-03
原始信息汇总

𝓛oc𝓚 数据集概述

数据集基本信息

  • 名称:𝓛oc𝓚 (Localizing Knowledge in Diffusion Transformers)
  • 用途:用于定位和干预扩散变换器中的知识
  • 项目地址:https://armanzarei.github.io/Localizing-Knowledge-in-DiTs/
  • 论文地址:https://arxiv.org/abs/2505.18832

数据集内容

  • 知识类别:包含以下6种知识类型
    • style (风格)
    • place (地点)
    • copyright (版权)
    • animal (动物)
    • celebrity (名人)
    • safety (安全)
  • 数据格式:包含提示词(prompts)数据集,用于定位目标知识

数据集使用

  • 定位与干预
    • 支持PixArt和SANA模型的知识定位
    • 支持FLUX模型的知识定位
    • 使用CLIP分数进行评估
  • 评估方法
    • LLaVA评估
    • CSD评估(针对风格类别)

相关脚本

  • localization_and_intervention/localize_knowledge_and_intervene.py
  • localization_and_intervention/localize_knowledge_and_intervene_flux.py
  • localization_and_intervention/knowledge_agnostic_gen_and_eval.py
  • localization_and_intervention/full_knowledge_gen_and_eval.py
  • llava_eval.py
  • csd/csd_calc.py

引用信息

bibtex @article{zarei2025localizing, title={Localizing Knowledge in Diffusion Transformers}, author={Zarei, Arman and Basu, Samyadeep and Rezaei, Keivan and Lin, Zihao and Nag, Sayan and Feizi, Soheil}, journal={arXiv preprint arXiv:2505.18832}, year={2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
𝓛oc𝓚数据集的构建基于扩散变换器中的知识定位研究,通过系统化采集多维度知识类别(如风格、地点、版权、动物、名人及安全等)的提示文本,构建了结构化的知识表示体系。研究团队采用模块化设计理念,将数据集封装为可扩展的BaseDataset类派生结构,并针对特定知识领域(如PlacesDataset)进行了专业化处理,确保数据组织的灵活性与可追溯性。数据采集过程严格遵循知识表征的完整性原则,每类知识均配有经过标准化处理的提示文本集合。
使用方法
使用该数据集时,研究者需通过dataset.py中定义的数据类接口加载目标知识类别的提示文本,配合提供的localize_dominant_blocks函数实现知识定位分析。实际操作包含三个关键步骤:首先配置results_path等路径参数,其次选择pixart或sana等目标扩散模型,最后指定style/place等具体知识类型进行定位干预。评估阶段可通过knowledge_agnostic_gen_and_eval.py等脚本进行基线生成对比,并利用内置的LLaVA评估模块实现生成图像的语义对齐度分析。数据集的使用充分体现了端到端的研究范式,从知识定位到效果评估形成完整闭环。
背景与挑战
背景概述
𝓛oc𝓚数据集由Arman Zarei等研究人员于2025年提出,旨在探索扩散变换模型中的知识定位问题。该数据集作为《Localizing Knowledge in Diffusion Transformers》研究的核心组成部分,聚焦于风格、地点、版权、动物、名人及安全性等多维度知识的表征与干预。马里兰大学与约翰斯·霍普金斯大学联合团队通过系统化构建提示词-图像对,为理解DiTs模型的语义编码机制提供了首个可量化分析基准,其创新性的知识阻断实验范式对生成式AI的可解释性研究具有里程碑意义。
当前挑战
在解决扩散模型知识解耦这一核心问题时,𝓛oc𝓚面临模型参数高度耦合导致的定位模糊性挑战,需开发基于注意力机制的动态阻断技术。数据集构建过程中,多模态知识标注的语义一致性维护成为关键难点,研究团队通过引入CLIP空间对齐和LLaVA多模态评估相结合的策略确保数据质量。不同知识类型间的迁移干扰现象(如风格特征对物体识别的渗透效应)进一步增加了干预实验的复杂度,这要求设计分层控制的评估体系来精确量化知识表征的独立性。
常用场景
经典使用场景
在扩散变换器(Diffusion Transformers)的研究中,𝓛oc𝓚数据集被广泛应用于知识定位与干预实验。通过该数据集,研究者能够精准识别模型中与特定知识相关的关键模块,例如风格、地点、版权、动物、名人或安全等类别。这种定位技术为理解模型内部知识表示提供了重要工具,尤其在生成对抗网络(GANs)和扩散模型的解释性研究中具有显著价值。
解决学术问题
𝓛oc𝓚数据集解决了扩散模型中知识定位的难题,为模型可解释性研究提供了数据支持。通过干预实验,研究者能够验证特定知识在模型中的表征方式,从而推动了对生成模型内部机制的理解。这一工作填补了扩散变换器在知识表示领域的空白,为后续研究奠定了坚实基础。
实际应用
在实际应用中,𝓛oc𝓚数据集可用于改进生成模型的控制能力。例如,在艺术创作领域,通过定位风格知识模块,可以实现对生成图像风格的精确控制;在内容安全领域,则能够识别并干预模型中可能存在的有害知识表征。这些应用显著提升了生成模型在真实场景中的可用性和安全性。
数据集最近研究
最新研究方向
在生成式人工智能领域,𝓛oc𝓚数据集为知识定位与干预研究提供了重要支撑。当前研究聚焦于扩散变换器中知识表征的可解释性分析,通过模块化干预技术探索风格、场景、版权等多元知识在潜在空间的分布规律。最新工作尝试将CLIP评分与LLaVA多模态评估相结合,建立知识影响量化体系,这一方向与AI安全性和可控生成的热点议题紧密相连。数据集中精心设计的提示词体系为研究知识嵌入机制提供了标准化实验环境,推动了生成模型可解释性研究从定性分析向定量验证的范式转变。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作