sebelsn/tad66k-vision-de

Name: sebelsn/tad66k-vision-de
Creator: sebelsn
Published: 2026-05-02 16:28:43
License: 暂无描述

Hugging Face2026-05-02 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/sebelsn/tad66k-vision-de

下载链接

链接失效反馈

官方服务：

资源简介：

TAD66K Vision DE是一个基于TAD66K的德语视觉语言数据集。它采用紧凑的Schema格式（约80个标记）而非传统文本（约180个标记）进行结构化图像描述，并在此基础上生成深入的德语多轮对话。数据集主要用于训练Kassandra Vision LoRA模型。Schema格式包含多个字段，如焦点/主主题（F:）、3x3网格对象（G:）、调色板（P:）、光源（L:）、深度效果（D:）、对象（O:）、空间关系（Z:）等。数据集生成分为两个阶段：1）Ministral 3 14B（Vision）分析TAD66K图像并生成Schema；2）Ministral 3 14B（Text）根据Schema生成德语多轮对话。数据集包含多个阶段的数据文件（T1-T6），每个文件有不同的对话类型和示例数量。数据格式为JSONL，包含图像哈希和多轮对话内容。数据集基于TAD66K原始数据集（66,000张手工挑选的图像，47个主题），但仅包含结构化描述和合成对话，不包含原始图像。

TAD66K Vision DE is a German vision-language dataset based on TAD66K. It uses a compact schema format (~80 tokens) instead of traditional text descriptions (~180 tokens) for structured image descriptions and generates deep German multi-turn dialogues based on this schema. The dataset is primarily developed as a training dataset for the Kassandra Vision LoRA model. The schema format includes multiple fields such as Focus/Main Subject (F:), 3x3 Grid Objects (G:), Color Palette (P:), Light Source (L:), Depth Effect (D:), Objects (O:), Spatial Relations (Z:), etc. The dataset creation involves two stages: 1) Ministral 3 14B (Vision) analyzes TAD66K images and generates the schema; 2) Ministral 3 14B (Text) generates German multi-turn dialogues from the schema. The dataset includes multiple tranches of data files (T1-T6), each with different dialogue types and example counts. The data format is JSONL, containing image hashes and multi-turn dialogues. The dataset is based on the original TAD66K dataset (66,000 handpicked images, 47 themes) but only includes structured descriptions and synthetic dialogues, not the original images.

提供机构：

sebelsn

搜集汇总

数据集介绍

构建方式

TAD66K Vision DE数据集基于TAD66K主题美学数据集构建，该数据集包含66,000张涵盖47个主题的精选图像，每张图像均由至少1,200人进行美学评分。构建过程分为两阶段：首先，利用Ministral 3 14B视觉模型对TAD66K图像进行分析，生成紧凑的机器可读模式（约80个token），替代传统冗长的图像描述；其次，基于该模式，由Ministral 3 14B文本模型生成深度多轮德语对话，涵盖氛围、联想和感官体验。所有图像仅被提取结构化描述，原始图片不予分发。数据集逐步扩展，包含多种对话类型如深度对话、创造性分析、比较对和指令任务，并采用BGE-M3嵌入进行多样性采样。

特点

该数据集的核心特点在于其创新的模式化图像表示方法，通过字段如F（焦点）、G（网格对象与颜色）、P（调色板）、L（光源）等，以约80个token精确编码场景的组成、颜色、深度和空间关系，显著压缩了信息密度。在此基础上，生成的德语对话具有深度和氛围感，模型将模式视为自身感知而非技术描述，从而产生自然、富有表现力的多轮交互。数据集包含多个批次（T1至T6），分别侧重深度对话、创造性分析、比较、指令任务及未来计划中的美学评估和颜色科学，共计约46,000个示例。

使用方法

用户可通过HuggingFace的datasets库加载数据集，例如使用`load_dataset('sebelsn/tad66k-vision-de', data_files='vision-turns-t1.jsonl')`获取训练数据。每条数据包含图像哈希值和对话轮次列表，每轮由角色（user或assistant）和内容组成。数据集附带预处理脚本`scripts/prepare_training.py`，可自动混合所有可用批次并生成训练文件，默认比例为T1占30%、T2占20%、T3占15%、T4占12%、T5和T6各占12%和11%。该数据集专为德语视觉语言模型训练设计，尤其适用于Kassandra Vision LoRA的微调。

背景与挑战

背景概述

TAD66K Vision DE数据集由研究者sebelsn于近期创建，基于IJCAI 2022发表的TAD66K主题美学评估数据集。该数据集针对德语视觉-语言模型训练需求，将66,000张涵盖47个主题、经超过1,200人美学评分的手工筛选图像转化为结构化模式描述与深度多轮对话。其核心创新在于引入紧凑的机器可读模式（约80个token），替代传统180个token的流式文本描述，并在此基础上生成富有氛围感、关联性和感官体验的德语多轮对话。这一设计旨在提升视觉语言模型对图像结构、色彩、空间关系及氛围的深层理解能力，为德语多模态对话系统的发展提供专业化训练资源。

当前挑战

该数据集主要应对两大挑战。领域问题层面，传统图像美学评估依赖单一评分或简单文本描述，难以捕捉图像的结构化特征与多层语义关系，且德语视觉语言训练数据稀缺，限制了德语多模态对话系统的表达能力。构建过程中，面临从TAD66K原始图像中自动提取精确模式信息的难题，需依赖Ministral 3 14B视觉模型进行图像分析，并通过BGE-M3嵌入实现多样性采样；同时，生成符合德语语言习惯、兼具氛围感与逻辑性的多轮对话文本，要求模型在理解模式基础上进行创造性语言生成，确保对话的自然连贯与语义深度。

常用场景

经典使用场景

tad66k-vision-de数据集的核心经典使用场景在于为德语多模态对话系统提供高质量的监督微调数据。其独创性体现在将图像内容转化为紧凑的机器可读样式表（Schema），包含焦点、网格对象与颜色、光影、深度等结构化信息。借助这一中间表征，研究者能够基于TAD66K图片库生成深度多轮德语对话——模型将结构化Schema视为自身感知，而非技术描述，从而模拟出人类在欣赏画面时展开的联想与氛围探讨。该数据集尤其适用于训练需要理解视觉内容并用德语进行深层次、情境化交流的大语言模型。

解决学术问题

这一数据集直面了多模态学术领域中两个棘手问题：视觉语言模型在非英语语系中的对话连贯性不足，以及传统图文描述（约180令牌）在效率与语义保真度之间难以平衡。通过将图像抽象为约80令牌的样式表，tad66k-vision-de不仅压缩了输入长度，还保留了色彩、空间关系和氛围等关键审美元素，为图像审美评估（IAA）研究与细粒度视觉推理开辟了新路径。其意义在于证明了在德语语境下，结构化Schema可以成为架接视觉感知和自然语言生成的可靠桥梁，推动跨文化审美对话建模的实证发展。

衍生相关工作

该数据集的衍生工作紧密围绕其核心Schema构想展开。最直接的实践是Kassandra Vision LoRA（参数高效微调模型），该模型以Ministral 3B为基座，利用tad66k-vision-de的多轮对话与样式表数据精炼出德语视觉描述能力。此外，数据集的设计理念启发了一系列关于结构化中间表示在多模态对话中效果的研究，包括不同分词策略对生成质量的影响、颜色与空间规则对审美偏好的建模，以及跨语言（英语-德语）迁移学习的探索。这些工作共同验证了从TAD66K原图像审美数据集到Schema再到对话流水线的可行性，促进了高效、语种敏感的视觉-语言模型开发方法论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集