tad66k-vision-de
收藏TAD66K Vision DE 数据集概述
基本信息
- 数据集名称: TAD66K Vision DE
- 许可证: MIT
- 语言: 德语
- 任务类别: 文本生成
- 标签: 视觉-语言、德语、对话、大气、结构、LoRA训练
- 数据集规模: 10,000 < N < 100,000
- 数据集地址: https://huggingface.co/datasets/sebelsn/tad66k-vision-de
数据集概念
TAD66K Vision DE 是一个基于 TAD66K 的德语视觉-语言数据集。它使用紧凑的机器可读结构格式(约80个令牌)代替直接的文本描述(约180个令牌),并在该结构基础上生成深层次的多轮对话。
结构格式(Schema-Format)
| 字段 | 含义 | 示例 |
|---|---|---|
F: |
焦点/主要主题 | F:garden_landscape |
G: |
3x3网格,物体附带十六进制颜色和深度 | G:flower#ff69b4@fg |
P: |
调色板(十六进制代码) | P:#ff69b4,#2d5a1b |
L: |
光源和质量 | L:<top_left_warm> |
D: |
深度效果 | D:<d>(深)或 D:<f>(平) |
O: |
物体 | O:flower,stem,background |
Z: |
空间关系 | Z:flower-front-of-stem |
A: |
动作(可选) | A:person-walking-on-path |
T: |
文本/OCR(可选,文档) | T:Rechnungsnummer 4521 |
深度层级:@fg(前景)、@mg(中景)、@bg(背景)
数据集生成过程
第一阶段 — 图像分析
Ministral 3 14B(视觉版)分析 TAD66K 图像并生成紧凑结构格式。BGE-M3 创建嵌入用于多样性采样。
第二阶段 — 对话生成
Ministral 3 14B(文本版)从结构格式生成德语深层次多轮对话——具有氛围、联想和感官特征。
生成流程: TAD66K 图像 → Ministral 3 14B 视觉版 → 结构格式(约80个令牌) → Ministral 3 14B 文本版 → 德语对话(约10轮) → vision-turns.jsonl
数据格式
数据以JSONL格式存储,每条记录包含:
image_hash: 图像哈希值turns: 对话轮次列表,每个轮次包含role(用户/助手)和content
数据集内容(逐步扩展)
| 文件 | 批次 | 类型 | 样本数 | 状态 |
|---|---|---|---|---|
vision-turns-t1.jsonl |
T1 | 深度对话(~10轮) | 14,997 | ✅ |
vision-turns-t2.jsonl |
T2 | 创意+分析 | 15,002 | ✅ |
vision-turns-t3.jsonl |
T3 | 对比对 | 9,987 | ✅ |
vision-turns-t4.jsonl |
T4 | 指令任务 | 6,888 | ✅ |
vision-turns-t5.jsonl |
T5 | 美学+评估 | 4,995 | ✅ |
vision-turns-t6.jsonl |
T6 | 色彩科学+几何 | 4,558 | ✅ |
vision-turns-t7.jsonl |
T7 | 修正 | 1,238 | ✅ |
训练脚本
仓库包含 scripts/prepare_training.py,可混合所有可用批次并按比例创建训练数据集:
bash python scripts/prepare_training.py --input-dir data/ --output kassandra-training.jsonl
批次比例:T1 30% · T2 20% · T3 15% · T4 12% · T5 12% · T6 11%
使用示例
python from datasets import load_dataset
ds = load_dataset("sebelsn/tad66k-vision-de", data_files="vision-turns-t1.jsonl")
for example in ds["train"]: image_hash = example["image_hash"] turns = example["turns"] # 包含 {"role": ..., "content": ...} 的列表
原始数据
- 基础数据集: TAD66K(主题导向美学数据集)
- 66,000张手工挑选的来自47个主题的图像
- 每张图像由至少1,200人进行美学评估
- 许可证: Apache 2.0
- 来源: https://huggingface.co/datasets/Shuai1995/TAD66K_for_Image_Aesthetics_Assessment
- 论文: “Rethinking Image Aesthetics Assessment” (IJCAI 2022)
- 原始图像不被重新分发——仅包含结构化描述和合成对话
相关资源
- Kassandra Vision LoRA — 基于此数据集训练
- TAD66K 原始数据集




