𝓛oc𝓚

github2025-06-16 更新2025-06-17 收录

下载链接：

https://github.com/ArmanZarei/DiT-Knowledge-Localization

下载链接

链接失效反馈

官方服务：

资源简介：

𝓛oc𝓚数据集包含所有知识类别及其对应的提示，用于定位。

The Loc𝓚 dataset encompasses all knowledge categories along with corresponding prompts for localization.

创建时间：

2025-06-03

原始信息汇总

𝓛oc𝓚 数据集概述

数据集基本信息

名称：𝓛oc𝓚 (Localizing Knowledge in Diffusion Transformers)
用途：用于定位和干预扩散变换器中的知识
项目地址：https://armanzarei.github.io/Localizing-Knowledge-in-DiTs/
论文地址：https://arxiv.org/abs/2505.18832

数据集内容

知识类别：包含以下6种知识类型
- style (风格)
- place (地点)
- copyright (版权)
- animal (动物)
- celebrity (名人)
- safety (安全)
数据格式：包含提示词(prompts)数据集，用于定位目标知识

数据集使用

定位与干预：
- 支持PixArt和SANA模型的知识定位
- 支持FLUX模型的知识定位
- 使用CLIP分数进行评估
评估方法：
- LLaVA评估
- CSD评估(针对风格类别)

引用信息

bibtex @article{zarei2025localizing, title={Localizing Knowledge in Diffusion Transformers}, author={Zarei, Arman and Basu, Samyadeep and Rezaei, Keivan and Lin, Zihao and Nag, Sayan and Feizi, Soheil}, journal={arXiv preprint arXiv:2505.18832}, year={2025} }

搜集汇总

数据集介绍

构建方式

𝓛oc𝓚数据集的构建基于扩散变换器中的知识定位研究，通过系统化采集多维度知识类别（如风格、地点、版权、动物、名人及安全等）的提示文本，构建了结构化的知识表示体系。研究团队采用模块化设计理念，将数据集封装为可扩展的BaseDataset类派生结构，并针对特定知识领域（如PlacesDataset）进行了专业化处理，确保数据组织的灵活性与可追溯性。数据采集过程严格遵循知识表征的完整性原则，每类知识均配有经过标准化处理的提示文本集合。

使用方法

使用该数据集时，研究者需通过dataset.py中定义的数据类接口加载目标知识类别的提示文本，配合提供的localize_dominant_blocks函数实现知识定位分析。实际操作包含三个关键步骤：首先配置results_path等路径参数，其次选择pixart或sana等目标扩散模型，最后指定style/place等具体知识类型进行定位干预。评估阶段可通过knowledge_agnostic_gen_and_eval.py等脚本进行基线生成对比，并利用内置的LLaVA评估模块实现生成图像的语义对齐度分析。数据集的使用充分体现了端到端的研究范式，从知识定位到效果评估形成完整闭环。

背景与挑战

背景概述

𝓛oc𝓚数据集由Arman Zarei等研究人员于2025年提出，旨在探索扩散变换模型中的知识定位问题。该数据集作为《Localizing Knowledge in Diffusion Transformers》研究的核心组成部分，聚焦于风格、地点、版权、动物、名人及安全性等多维度知识的表征与干预。马里兰大学与约翰斯·霍普金斯大学联合团队通过系统化构建提示词-图像对，为理解DiTs模型的语义编码机制提供了首个可量化分析基准，其创新性的知识阻断实验范式对生成式AI的可解释性研究具有里程碑意义。

当前挑战

在解决扩散模型知识解耦这一核心问题时，𝓛oc𝓚面临模型参数高度耦合导致的定位模糊性挑战，需开发基于注意力机制的动态阻断技术。数据集构建过程中，多模态知识标注的语义一致性维护成为关键难点，研究团队通过引入CLIP空间对齐和LLaVA多模态评估相结合的策略确保数据质量。不同知识类型间的迁移干扰现象（如风格特征对物体识别的渗透效应）进一步增加了干预实验的复杂度，这要求设计分层控制的评估体系来精确量化知识表征的独立性。

常用场景

经典使用场景

在扩散变换器（Diffusion Transformers）的研究中，𝓛oc𝓚数据集被广泛应用于知识定位与干预实验。通过该数据集，研究者能够精准识别模型中与特定知识相关的关键模块，例如风格、地点、版权、动物、名人或安全等类别。这种定位技术为理解模型内部知识表示提供了重要工具，尤其在生成对抗网络（GANs）和扩散模型的解释性研究中具有显著价值。

解决学术问题

𝓛oc𝓚数据集解决了扩散模型中知识定位的难题，为模型可解释性研究提供了数据支持。通过干预实验，研究者能够验证特定知识在模型中的表征方式，从而推动了对生成模型内部机制的理解。这一工作填补了扩散变换器在知识表示领域的空白，为后续研究奠定了坚实基础。

实际应用

在实际应用中，𝓛oc𝓚数据集可用于改进生成模型的控制能力。例如，在艺术创作领域，通过定位风格知识模块，可以实现对生成图像风格的精确控制；在内容安全领域，则能够识别并干预模型中可能存在的有害知识表征。这些应用显著提升了生成模型在真实场景中的可用性和安全性。

数据集最近研究