UniCTokens Dataset

github2025-06-16 更新2025-06-17 收录

下载链接：

https://github.com/arctanxarc/UniCTokens

下载链接

链接失效反馈

官方服务：

资源简介：

UniCTokens数据集包含20个概念（人类×10，动物×5，对象×5），每个概念有约10-15张图像，已分为训练集和测试集。数据集还包括随机不相关图像和困难负样本。数据集支持多模态理解（MMU）和文本到图像生成（T2I）等基准任务。

The UniCTokens dataset encompasses 20 concepts (10 human, 5 animal, 5 object), with approximately 10-15 images per concept, which are divided into training and test sets. The dataset also includes randomly unrelated images and challenging negative samples. It supports benchmark tasks such as Multimodal Understanding (MMU) and Text-to-Image Generation (T2I).

创建时间：

2025-05-20

原始信息汇总

UniCTokens数据集概述

数据集基本信息

名称：UniCTokens
下载地址：https://drive.google.com/file/d/1R933C8ko0p41HJks_5B6me41eS1WR3aE/view?usp=drive_link
许可证：CC-BY-NC 4.0（仅限学术研究，禁止商业用途）

数据概况

总概念数：20个（人类×10、动物×5、物体×5）
每个概念的图像数：约10-15张（已分为训练集/测试集）
负样本：
- random_images/：100张随机无关图像
- negative_example/：困难负样本

基准任务

多模态理解（MMU）

子任务	源文件	评估重点
纯文本问答	`test/<concept>/text_only.json`	模型对概念知识的记忆能力（无图像）
视觉问答（VQA）	`test/<concept>/vqa.json` + 图像	关于概念图像的视觉问答
识别（Rec）	`test/*.png`	纯视觉识别能力

文本到图像生成（T2I）

模式	输入	评估指标
常规生成	DreamBooth数据集的提示→目标概念图像	CLIP-I/CLIP-T、ArcFace相似度
个性化知识驱动生成	`t2i_conditions.json`	T2I综合评分（需满足视觉和文本属性）

目录结构

text UniCTokens/ ├── black_512x512.png # 纯黑色占位图 ├── concepts_list.json # 20个概念名称列表 ├── template.json # 训练数据生成模板 ├── random_images/ # 100个简单负样本 │ ├── 0.png │ └── … 99.png ├── concept/ # 核心概念数据（训练/测试） │ ├── train/ │ │ └── <concept_name>/ # 20个文件夹 │ │ ├── 0.png … N.png # 原始训练图像 │ │ ├── cropped/ # 裁剪区域 │ │ ├── info.json # 概念配置文件 │ │ ├── conversations.json # 训练对话 │ │ ├── positive_recognitions.json # 正样本问答对 │ │ ├── random_recognitions.json # 负样本问答对 │ │ └── negative_example/ # 困难负样本+评分文件 │ └── test/ │ └── <concept_name>/ │ ├── 0.png … 4.png │ ├── text_only.json # 纯文本问答 │ ├── vqa.json # 视觉问答对 │ └── t2i_conditions.json # 知识驱动T2I条件 ├── gen_showo_training_data.py # 生成阶段1/2/3训练数据脚本 ├── gen_test_data.py # 生成评估数据脚本 └── README.md

快速开始

设置数据集根目录：修改gen_showo_training_data.py和gen_test_data.py中的DATA_ROOT变量为实际路径。
生成数据： bash

生成阶段1/2/3训练样本

python gen_showo_training_data.py

生成MMU和T2I评估样本

python gen_test_data.py

引用

bibtex @article{an2025unictokens, title={UniCTokens: Boosting Personalized Understanding and Generation via Unified Concept Tokens}, author={An, Ruichuan and Yang, Sihan and Zhang, Renrui and Shen, Zijun and Lu, Ming and Dai, Gaole and Liang, Hao and Guo, Ziyu and Yan, Shilin and Luo, Yulin and others}, journal={arXiv preprint arXiv:2505.14671}, year={2025} }

联系方式

GitHub Issues：https://github.com/arctanxarc/UniCTokens/issues
邮箱：arctanxarc@gmail.com

搜集汇总

数据集介绍

构建方式

UniCTokens数据集通过精心设计的多模态数据采集与标注流程构建而成，涵盖人类、动物和物体三大类共20个核心概念。每个概念包含10-15张经过专业分组的训练/测试图像，并配备负样本库（含100个随机负样本和精心筛选的困难负样本）。数据构建采用三阶段处理流程：原始图像采集后经裁剪区域提取、概念信息标注、对话数据生成等步骤，最终形成包含视觉识别、文本问答、视觉问答等多任务评估体系的标准化数据集。

特点

该数据集最显著的特征在于其统一概念表征体系的设计，将个性化理解与生成任务有机结合。数据架构包含多模态理解（MMU）和文本到图像生成（T2I）两大基准任务，其中MMU任务细分为纯文本问答、视觉问答和纯视觉识别三个子任务。每个概念配套完整的元数据文件，包括概念档案、正负样本对话数据、识别标注等，特别配备的知识驱动型T2I条件文件可实现生成质量的多维度评估。数据集采用严格的训练测试分离策略，并包含困难负样本以提升模型鲁棒性。

使用方法

使用该数据集需通过提供的Python脚本进行数据预处理，首先需在gen_showo_training_data.py和gen_test_data.py中配置数据集根路径。数据加载分两阶段：运行gen_showo_training_data.py生成三阶段训练样本，执行gen_test_data.py创建MMU和T2I评估样本。评估体系支持CLIP-I/CLIP-T、ArcFace相似度等多重指标，文本到图像生成任务需结合t2i_conditions.json中的条件约束进行综合评分。研究人员可通过conversations.json和positive_recognitions.json构建多任务训练数据，利用text_only.json和vqa.json实施跨模态能力评估。

背景与挑战

背景概述

UniCTokens数据集由Ruichuan An等研究人员于2025年提出，旨在通过统一概念标记提升个性化理解与生成能力。该数据集聚焦于多模态学习领域，包含20个精选概念，涵盖人类、动物和物体三大类别，每个概念配备10至15张训练图像及配套文本数据。作为个性化人工智能研究的基准工具，其创新性地整合了视觉问答、文本生成图像等任务，为探索概念驱动的跨模态推理提供了标准化实验平台。数据集的设计反映了当前AI研究从通用模型向个性化服务转型的趋势，其结构化标注体系显著降低了领域适配的工程门槛。

当前挑战

在解决多模态概念理解这一核心问题上，数据集需应对语义鸿沟与模态对齐的双重挑战：模型需同步处理视觉特征与抽象概念间的非线性映射，同时保证生成结果在像素层面和语义层面的一致性。数据构建过程中，研究团队面临细粒度标注的复杂度问题，包括硬负样本的筛选标准制定、跨模态QA对的质量控制，以及个性化生成任务的评价体系设计。图像采集环节还需平衡数据多样性与概念纯净度的矛盾，避免引入无关视觉噪声影响模型的概念表征学习。

常用场景

经典使用场景

在个性化多模态理解与生成领域，UniCTokens数据集通过其精心设计的统一概念标记，为研究者提供了一个标准化的评估平台。该数据集涵盖了人类、动物和物体三大类别的20个具体概念，每个概念包含10至15张图像，并细分为训练集和测试集。其经典使用场景包括多模态理解任务（如纯文本问答、视觉问答和视觉识别）以及文本到图像生成任务（如基于目标概念的图像生成和个性化知识驱动的图像合成）。这些场景不仅验证了模型在跨模态任务中的表现，还为个性化AI系统的开发提供了重要参考。

衍生相关工作

围绕UniCTokens数据集，研究社区已经衍生出一系列重要工作。这些工作主要集中在多模态表示学习、个性化生成模型和跨模态对齐等方向。部分研究利用该数据集探索了统一概念标记在不同模态间的迁移能力，另一些工作则专注于提升知识驱动生成的准确性和多样性。这些衍生研究不仅验证了数据集的价值，也进一步拓展了其在多模态AI领域的应用边界。

数据集最近研究