five

CRAFT

收藏
arXiv2025-05-08 更新2025-05-13 收录
下载链接:
http://arxiv.org/abs/2505.04851v1
下载链接
链接失效反馈
官方服务:
资源简介:
CRAFT数据集是由Sber AI研究机构提出的一个针对俄罗斯文化进行文本到图像生成的数据集。数据集包含约8000个实体,这些实体涵盖了俄罗斯文化中的语言、文学、艺术、宗教、哲学、民间传统和历史等方面。数据集的收集过程包括手动筛选和自定义标注,以确保数据的准确性和质量。CRAFT数据集旨在提高文本到图像生成模型对俄罗斯文化的理解和表现能力,从而生成更符合俄罗斯文化特征的图像。

The CRAFT dataset is a text-to-image generation dataset focused on Russian culture, proposed by the research institution Sber AI. It contains approximately 8,000 entities covering various aspects of Russian culture, including language, literature, art, religion, philosophy, folk traditions, and history. The dataset was collected via manual screening and custom annotation to ensure the accuracy and quality of the data. The CRAFT dataset aims to improve the understanding and generation performance of text-to-image models regarding Russian culture, thereby producing images that better align with the cultural characteristics of Russian culture.
提供机构:
Sber AI, Moscow, Russia
创建时间:
2025-05-08
搜集汇总
数据集介绍
main_image_url
构建方式
CRAFT数据集的构建基于对俄罗斯文化代码的深入分析,通过手动筛选和标注互联网上的图像数据,确保数据的高质量和文化相关性。研究团队首先确定了17个主要的文化类别,并收集了约8000个相关实体。随后,通过人工过滤和标注,确保图像的美学质量和文化准确性。最终,数据集包含约20万对高质量的文本-图像对,并通过人工标注生成了详细的描述文本。
特点
CRAFT数据集的特点在于其专注于俄罗斯文化代码,涵盖了广泛的视觉实体和文化概念。数据集通过人工筛选和标注,确保了图像的高质量和文化准确性。此外,数据集的描述文本经过详细的人工编写,避免了自动标注中的错误和不准确性。这种精细化的处理使得CRAFT数据集在文化适应性方面具有显著优势,能够有效提升文本到图像生成模型在俄罗斯文化领域的表现。
使用方法
CRAFT数据集主要用于文本到图像生成模型的文化适应性微调。研究人员通过将该数据集用于Kandinsky 3.1模型的微调,显著提升了模型在俄罗斯文化领域的生成质量。使用该数据集时,建议先进行数据预处理,包括图像筛选和标注验证,以确保数据的质量和一致性。随后,可以通过两阶段的微调过程(低分辨率和高分辨率)来优化模型的生成能力。数据集的使用不仅限于俄罗斯文化,其方法论也可推广至其他文化领域。
背景与挑战
背景概述
CRAFT数据集由Sber AI等机构的研究团队于2025年提出,旨在解决文本到图像生成模型在特定文化领域(尤其是俄罗斯文化)的知识缺失问题。当前主流生成模型如DALL-E 3、Stable Diffusion等主要基于西方文化背景的训练数据,导致在生成非西方文化内容时出现偏差或错误。该数据集通过系统收集俄罗斯文化实体(涵盖17个类别约8000个实体)及其高质量图文对,并采用人工标注与筛选机制,显著提升了Kandinsky 3.1模型对俄罗斯文化元素的生成准确性。这项工作首次系统性地将文化编码理论引入多模态生成领域,为跨文化人工智能研究提供了新范式。
当前挑战
CRAFT面临的核心挑战体现在两个维度:领域问题上,现有模型对文化特异性概念(如俄罗斯传统符号、历史人物等)的生成存在语义失真或刻板印象,需解决文化表征的细粒度对齐问题;数据构建过程中,实体样本分布不均导致低频率文化元素生成质量差(如苏联老电影帧的模糊素材占比过高),同时文化特征过滤标准的主观性(如‘可接受的跨文化元素混合度’)增加了标注复杂度。此外,俄英翻译中的语义损耗(如‘космонавт’被误译为‘astronaut’)进一步加剧了跨文化表征的困难。
常用场景
经典使用场景
CRAFT数据集在文本到图像生成领域中被广泛用于提升模型对特定文化背景的理解能力。通过专注于俄罗斯文化代码,该数据集为研究人员提供了一个独特的视角,用于探索生成模型在跨文化语境下的表现。其经典使用场景包括对Kandinsky 3.1等文本到图像生成模型进行微调,以增强其对俄罗斯文化元素的生成质量。
解决学术问题
CRAFT数据集解决了生成模型在跨文化语境中的知识缺失问题。通过提供高质量的俄罗斯文化相关文本-图像对,该数据集帮助模型克服了对非西方文化元素的生成偏差。这一工作填补了生成模型文化适应性研究的空白,为后续跨文化生成任务提供了重要的数据支持和方法论参考。
衍生相关工作
CRAFT数据集衍生了一系列重要的研究工作,包括俄罗斯文化代码基准测试RusCode的构建。相关研究还探索了如何将文化适应方法扩展到其他领域,如文本到视频生成。这些工作进一步推动了生成模型在跨文化语境下的理解和应用,为多模态人工智能的发展提供了新的研究方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作