UniCTokens Dataset
收藏UniCTokens数据集概述
数据集基本信息
- 名称:UniCTokens
- 下载地址:https://drive.google.com/file/d/1R933C8ko0p41HJks_5B6me41eS1WR3aE/view?usp=drive_link
- 许可证:CC-BY-NC 4.0(仅限学术研究,禁止商业用途)
数据概况
- 总概念数:20个(人类×10、动物×5、物体×5)
- 每个概念的图像数:约10-15张(已分为训练集/测试集)
- 负样本:
random_images/:100张随机无关图像negative_example/:困难负样本
基准任务
多模态理解(MMU)
| 子任务 | 源文件 | 评估重点 |
|---|---|---|
| 纯文本问答 | test/<concept>/text_only.json |
模型对概念知识的记忆能力(无图像) |
| 视觉问答(VQA) | test/<concept>/vqa.json + 图像 |
关于概念图像的视觉问答 |
| 识别(Rec) | test/*.png |
纯视觉识别能力 |
文本到图像生成(T2I)
| 模式 | 输入 | 评估指标 |
|---|---|---|
| 常规生成 | DreamBooth数据集的提示→目标概念图像 | CLIP-I/CLIP-T、ArcFace相似度 |
| 个性化知识驱动生成 | t2i_conditions.json |
T2I综合评分(需满足视觉和文本属性) |
目录结构
text UniCTokens/ ├── black_512x512.png # 纯黑色占位图 ├── concepts_list.json # 20个概念名称列表 ├── template.json # 训练数据生成模板 ├── random_images/ # 100个简单负样本 │ ├── 0.png │ └── … 99.png ├── concept/ # 核心概念数据(训练/测试) │ ├── train/ │ │ └── <concept_name>/ # 20个文件夹 │ │ ├── 0.png … N.png # 原始训练图像 │ │ ├── cropped/ # 裁剪区域 │ │ ├── info.json # 概念配置文件 │ │ ├── conversations.json # 训练对话 │ │ ├── positive_recognitions.json # 正样本问答对 │ │ ├── random_recognitions.json # 负样本问答对 │ │ └── negative_example/ # 困难负样本+评分文件 │ └── test/ │ └── <concept_name>/ │ ├── 0.png … 4.png │ ├── text_only.json # 纯文本问答 │ ├── vqa.json # 视觉问答对 │ └── t2i_conditions.json # 知识驱动T2I条件 ├── gen_showo_training_data.py # 生成阶段1/2/3训练数据脚本 ├── gen_test_data.py # 生成评估数据脚本 └── README.md
快速开始
-
设置数据集根目录: 修改
gen_showo_training_data.py和gen_test_data.py中的DATA_ROOT变量为实际路径。 -
生成数据: bash
生成阶段1/2/3训练样本
python gen_showo_training_data.py
生成MMU和T2I评估样本
python gen_test_data.py
引用
bibtex @article{an2025unictokens, title={UniCTokens: Boosting Personalized Understanding and Generation via Unified Concept Tokens}, author={An, Ruichuan and Yang, Sihan and Zhang, Renrui and Shen, Zijun and Lu, Ming and Dai, Gaole and Liang, Hao and Guo, Ziyu and Yan, Shilin and Luo, Yulin and others}, journal={arXiv preprint arXiv:2505.14671}, year={2025} }
联系方式
- GitHub Issues:https://github.com/arctanxarc/UniCTokens/issues
- 邮箱:arctanxarc@gmail.com




