five

tad66k-vision-de

收藏
Hugging Face2026-05-07 更新2026-05-08 收录
下载链接:
https://huggingface.co/datasets/sebelsn/tad66k-vision-de
下载链接
链接失效反馈
官方服务:
资源简介:
TAD66K Vision DE是一个基于TAD66K的德语视觉语言数据集,包含结构化图像描述(采用紧凑的schema格式)和深度德语氛围对话。该数据集主要为训练Kassandra Vision LoRA模型而开发。数据集采用独特的schema格式(约80 tokens)替代传统文本描述(约180 tokens),包含焦点、网格、调色板、光源、深度效果、对象、空间关系等字段。数据生成分为两个阶段:1) Ministral 3 14B (Vision) 分析TAD66K图像生成schema;2) Ministral 3 14B (Text) 基于schema生成德语多轮对话。数据集以JSONL格式存储,包含图像哈希和多轮对话记录。内容分为7个部分(T1-T7),涵盖深度对话、创意分析、对比对、指令任务、美学评估、色彩科学和几何学等,总计约60,000个示例。数据集基于TAD66K(包含66,000张手工挑选的图像,Apache 2.0许可),但仅分发结构化描述和合成对话。

TAD66K Vision DE is a German visual-language dataset based on TAD66K, containing structured image descriptions (in a compact schema format) and in-depth German atmosphere dialogues. The dataset was primarily developed for training the Kassandra Vision LoRA model. It uses a unique schema format (approximately 80 tokens) to replace traditional text descriptions (approximately 180 tokens), including fields such as focus, grid, palette, light source, depth effects, objects, and spatial relationships. The data generation process consists of two stages: 1) Ministral 3 14B (Vision) analyzes TAD66K images to generate schemas; 2) Ministral 3 14B (Text) generates German multi-turn dialogues based on the schemas. The dataset is stored in JSONL format, containing image hashes and multi-turn dialogue records. It is divided into 7 parts (T1-T7), covering deep dialogues, creative analysis, comparative pairs, instruction tasks, aesthetic evaluations, color science, and geometry, totaling approximately 60,000 examples. The dataset is based on TAD66K (which includes 66,000 manually selected images under Apache 2.0 license) but only distributes structured descriptions and synthetic dialogues.
创建时间:
2026-04-30
原始信息汇总

TAD66K Vision DE 数据集概述

基本信息

  • 数据集名称: TAD66K Vision DE
  • 许可证: MIT
  • 语言: 德语
  • 任务类别: 文本生成
  • 标签: 视觉-语言、德语、对话、大气、结构、LoRA训练
  • 数据集规模: 10,000 < N < 100,000
  • 数据集地址: https://huggingface.co/datasets/sebelsn/tad66k-vision-de

数据集概念

TAD66K Vision DE 是一个基于 TAD66K 的德语视觉-语言数据集。它使用紧凑的机器可读结构格式(约80个令牌)代替直接的文本描述(约180个令牌),并在该结构基础上生成深层次的多轮对话。

结构格式(Schema-Format)

字段 含义 示例
F: 焦点/主要主题 F:garden_landscape
G: 3x3网格,物体附带十六进制颜色和深度 G:flower#ff69b4@fg
P: 调色板(十六进制代码) P:#ff69b4,#2d5a1b
L: 光源和质量 L:<top_left_warm>
D: 深度效果 D:<d>(深)或 D:<f>(平)
O: 物体 O:flower,stem,background
Z: 空间关系 Z:flower-front-of-stem
A: 动作(可选) A:person-walking-on-path
T: 文本/OCR(可选,文档) T:Rechnungsnummer 4521

深度层级:@fg(前景)、@mg(中景)、@bg(背景)

数据集生成过程

第一阶段 — 图像分析

Ministral 3 14B(视觉版)分析 TAD66K 图像并生成紧凑结构格式。BGE-M3 创建嵌入用于多样性采样。

第二阶段 — 对话生成

Ministral 3 14B(文本版)从结构格式生成德语深层次多轮对话——具有氛围、联想和感官特征。

生成流程: TAD66K 图像 → Ministral 3 14B 视觉版 → 结构格式(约80个令牌) → Ministral 3 14B 文本版 → 德语对话(约10轮) → vision-turns.jsonl

数据格式

数据以JSONL格式存储,每条记录包含:

  • image_hash: 图像哈希值
  • turns: 对话轮次列表,每个轮次包含 role(用户/助手)和 content

数据集内容(逐步扩展)

文件 批次 类型 样本数 状态
vision-turns-t1.jsonl T1 深度对话(~10轮) 14,997
vision-turns-t2.jsonl T2 创意+分析 15,002
vision-turns-t3.jsonl T3 对比对 9,987
vision-turns-t4.jsonl T4 指令任务 6,888
vision-turns-t5.jsonl T5 美学+评估 4,995
vision-turns-t6.jsonl T6 色彩科学+几何 4,558
vision-turns-t7.jsonl T7 修正 1,238

训练脚本

仓库包含 scripts/prepare_training.py,可混合所有可用批次并按比例创建训练数据集:

bash python scripts/prepare_training.py --input-dir data/ --output kassandra-training.jsonl

批次比例:T1 30% · T2 20% · T3 15% · T4 12% · T5 12% · T6 11%

使用示例

python from datasets import load_dataset

ds = load_dataset("sebelsn/tad66k-vision-de", data_files="vision-turns-t1.jsonl")

for example in ds["train"]: image_hash = example["image_hash"] turns = example["turns"] # 包含 {"role": ..., "content": ...} 的列表

原始数据

  • 基础数据集: TAD66K(主题导向美学数据集)
    • 66,000张手工挑选的来自47个主题的图像
    • 每张图像由至少1,200人进行美学评估
    • 许可证: Apache 2.0
    • 来源: https://huggingface.co/datasets/Shuai1995/TAD66K_for_Image_Aesthetics_Assessment
    • 论文: “Rethinking Image Aesthetics Assessment” (IJCAI 2022)
  • 原始图像不被重新分发——仅包含结构化描述和合成对话

相关资源

搜集汇总
数据集介绍
main_image_url
构建方式
TAD66K-Vision-DE数据集基于TAD66K美学评估数据集,通过两阶段生成流程构建。第一阶段借助Ministral 3 14B视觉模型分析原始图像,将其转化为一种紧凑的机器可读模式,该模式约占用80个标记,包含焦点主题、网格对象布局、色彩调色板、光照条件、纵深效果、空间关系等结构化信息。第二阶段利用Ministral 3 14B文本模型,基于该模式生成深层的德语多轮对话,对话内容富有氛围感与感官描述,使模型将模式视为自身的感知而非技术说明。最终数据以JSONL格式存储,每个样本包含图像哈希值与多轮对话序列。
特点
本数据集的核心特色在于其独创的紧凑模式化图像描述方式,以仅约80个标记的信息密度替代传统约180个标记的冗长叙述,显著提升机器处理的效率。数据围绕德语多轮对话展开,每轮对话深入探讨图像的审美氛围、空间关系、颜色科学及几何结构,涵盖从创意分析到对比评价等多个维度。数据集包含七个逐步扩展的子集,各自侧重深层对话、创造性分析、对比对、指令任务、美学评估及颜色几何等方向,总计超过5.7万个样本,确保了训练数据的多样性与丰富度。
使用方法
用户可通过HuggingFace Datasets库加载该数据集,使用`load_dataset`函数指定数据文件路径即可,例如`vision-turns-t1.jsonl`。加载后训练样本包含图像哈希值与对话轮次列表,轮次中每条消息由角色和内容字段构成。数据集根目录提供了训练数据准备脚本`scripts/prepare_training.py`,该脚本可按预设比例混合七个不同子集,生成完整的训练JSONL文件,预设比例覆盖T1至T7各子集,便于用户直接进行模型微调训练。
背景与挑战
背景概述
TAD66K Vision DE数据集由研究者sebelsn于近期创建,基于Shuai等人于2022年国际人工智能联合会议(IJCAI)提出的TAD66K美学评估数据集构建而成。该数据集以66,000张来自47个主题的精心筛选图像为基座,每张图像均经过至少1,200人的美学评分。核心研究问题聚焦于将视觉信息转化为结构化、机器可读的紧凑模式(Schema),并在此基础上生成深度的德语多轮对话,旨在弥合视觉感知与语言生成之间的鸿沟。这一突破性尝试为多模态对话系统提供了前所未有的训练资源,尤其对低资源语言(德语)的视觉-语言模型发展具有重要推动作用。
当前挑战
该数据集面临的首要挑战是解决图像美学评估与结构化描述之间的转化问题,传统图像描述方法采用冗长文本,而本数据集需以约80个token的紧凑模式替代约180个token的自由文本,这对信息压缩与语义保真度提出了极高要求。构建过程中面临的核心挑战包括:大规模图像的模式化标注依赖高成本的人工或半自动生成流水线,需确保多轮对话的叙事深度与德语的情感表现力;同时,原始TAD66K图像因版权限制无法直接分发,仅能传递衍生描述与合成对话,这限制了数据的可验证性与扩展性。此外,不同批次(Tranche)间数据的多样性平衡与质量校正亦是构建过程中的关键难点。
常用场景
经典使用场景
tad66k-vision-de数据集的核心应用在于为德语视觉-语言模型提供高质量的对话训练数据。该数据集基于TAD66K图像美学评估数据,创新性地采用紧凑的机器可读模式(Schema)替代长文本描述,将图像内容结构化为最多约80个Token的格式,包含焦点、网格对象、色彩调色板、光照与深度信息等关键视觉要素。在此基础上,数据集生成了深度的多轮德语对话,让模型以Schema为感知基础展开联想性、感官性的对话,从而在训练中学习如何从结构化视觉输入过渡到自然语言交互。这一范式特别适合于训练轻量级的视觉语言模型,如Kassandra Vision LoRA,显著降低了计算开销同时保持了对话的深度与氛围感。
衍生相关工作
tad66k-vision-de数据集的发布催生了若干重要的衍生工作与研究方向。最直接的成果是Kassandra Vision LoRA模型,该模型利用此数据集进行微调,展示了在小型参数量下实现高深度视觉对话的可行性。此外,数据集所提出的Schema格式已被后续研究采纳,用于探索更加高效的视觉表示与自然语言接口设计,例如在低资源语言或跨语言视觉对话任务中,该格式成为连接图像与文本的标准化桥梁。同期研究者还利用该数据集的对话结构,开展了关于多轮对话中情感保持、氛围迁移以及色彩-语义关联建模等课题,推动了视觉语言模型在审美评价与共情表达方面的进步。这份工作也为基于大规模美学数据集生成结构化训练语料的方法论提供了范例,启发了后续同类数据集(如针对法语、日语等语种)的构建。
数据集最近研究
最新研究方向
当前,视觉语言模型的研究正掀起一场关于语义压缩与认知深度的革命,而TAD66K Vision DE数据集恰好为这一前沿探索提供了独具匠心的实验场。该数据集另辟蹊径,摒弃了冗长的自然语言描述,转而采用紧凑的机器可读视觉模式(Schema),将单张图像的语义信息压缩至约80个标记,较传统文本大幅降低冗余。在此结构化感知框架之上,研究团队进一步利用德语生成了多个轮次、富有氛围感的深度对话,使模型能够以类似人类直觉的方式理解光线、色彩、空间关系与情绪基调,而非僵化地枚举场景要素。这一范式不仅契合了低资源语言场景下高效视觉-语言对齐的需求,更在审美评估与多模态对话系统中展现了巨大潜力,为构建具有意识流特质的智能感知系统铺就了道路。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作