CC3M|机器学习数据集|图像与文本生成数据集
收藏数据集概述
数据集名称
Sparse Autoencoders for flow matching models
数据集描述
该数据集用于训练稀疏自编码器(SAE),以解释生成模型的内部机制。数据集包含在CC3M数据集上训练SAE的代码和模型。
数据集内容
代码结构
autoencoder.py
: 包含Topk、Standard、JumpReLU和Gated SAE的建模代码,以及在采样激活上训练SAE的代码。fluxsae.py
: 包含在FLUX激活上训练SAE的代码。notebooks/saevis.ipynb
: 包含获取每个SAE特征的topk激活样本的最小代码。scripts/conversion.py
: 包含从HF下载CC3M数据集并加载图像的脚本,还提供提取CLIP激活并保存为safetensors格式的工具。
可用检查点
-
CLIP SAEs on text pooled activations:
- cc3m-text-topk-lr-3e-4-k-4-expansion-4
- cc3m-text-topk-lr-3e-4-k-16-expansion-4
- cc3m-text-topk-lr-3e-4-k-64-expansion-4
- cc3m-text-topk-lr-3e-4-k-128-expansion-4
-
CLIP SAEs on vision activations (penultimate layer):
- cc3m-vision-topk-lr-3e-4-k-4-expansion-4
- cc3m-vision-topk-lr-3e-4-k-16-expansion-4
- cc3m-vision-topk-lr-3e-4-k-64-expansion-4
- cc3m-vision-topk-lr-3e-4-k-128-expansion-4
-
FLUX SAEs on block outputs:
- cc3m-single_transformer_blocks.9
- cc3m-single_transformer_blocks.37
- cc3m-transformer_blocks.0-0
- cc3m-transformer_blocks.0-1
- cc3m-transformer_blocks.18-0
- cc3m-transformer_blocks.18-1
快速开始
示例代码展示了如何使用预训练的SAE模型进行编码和解码操作。
开放研究问题
- 在FLUX上采样激活的最佳位置是什么?
- 给定一个不错的IP-adapter,我们能否使用CLIP SAE来引导生成?
- SAE能否成为新的LoRA?它是否在风格、内容和构图方面提供了足够的可控性?
未整理的实验笔记和想法
- 推荐使用Topk SAE,它简单且有效。
- Topk SAE的辅助损失尚未正确实现。
- Ghost grads尚未实现。
- 编码器/解码器初始化为单位范数列。
- 在训练期间,解码器列被归一化为单位范数。
- 在CLIP激活上训练SAE非常便宜。
- 如果SAE训练在流匹配模型上变得可靠,我们只需要训练一个好的SAE模型,而不需要为每个模型训练LoRA。
- 在某种意义上,MLP已经是SAE。
- 使用CLIP SAE/FLUX SAE引导FLUX的生成似乎无效。
TODOs
- [ ] 使FLUX SAE更可靠,尝试不同的采样位置。
- [ ] 研究sdxl-unbox论文,了解他们如何使用SAE进行SDXL引导。
致谢
实现部分参考了OpenAI的Topk SAE和dictionary_learning仓库。感谢作者提供了可修改的实现。

中国农村教育发展报告
该数据集包含了中国农村教育发展的相关数据,涵盖了教育资源分布、教育质量、学生表现等多个方面的信息。
www.moe.gov.cn 收录
Thyroid Disease Data
该数据集包含13个临床病理特征,旨在预测分化良好的甲状腺癌的复发。数据集收集了15年间的数据,每位患者至少被跟踪了10年。
github 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
MECCANO
MECCANO数据集是首个专注于工业类似环境中第一人称视角下人类-物体交互的研究数据集。该数据集由20名参与者在模拟工业场景中构建摩托车玩具模型的视频组成,包含299,376帧视频数据。数据集不仅标注了时间上的动作片段,还标注了空间上的活跃物体边界框,涵盖了12种动词、20种名词和61种独特动作的分类。MECCANO数据集旨在推动工业环境中第一人称视角下人类动作识别、活跃物体检测、活跃物体识别及第一人称视角下人类-物体交互检测等任务的研究。
arXiv 收录
Chinese-Roleplay-Novel
该数据集旨在填补中文角色扮演领域中交互游戏方向的开源数据空白。基于4500条小说文本,构建了约260条酒馆风格的多轮对话数据,每轮对话均包含详细的状态数据,如时间、角色状态、任务进度等。数据集结构包括世界观、场景、角色、对话内容等,状态信息以列表、表格、JSON等多种格式呈现。
huggingface 收录