Florenz

Name: Florenz
Creator: 德国弗劳恩霍夫IAIS研究所
Published: 2025-03-12 22:41:10
License: 暂无描述

arXiv2025-03-12 更新2025-03-14 收录

下载链接：

http://arxiv.org/abs/2503.09443v1

下载链接

链接失效反馈

官方服务：

资源简介：

Florenz数据集是基于翻译数据集生成的多语言多模态语料库，包含10M图像和32M英文与德文的不同详细程度的字幕，以及105M英文到德文、法文、西班牙文、中文和俄文的翻译对。数据集的构建是为了测试模型在图像标题生成任务上的系统性泛化能力。

The Florenz Dataset is a multilingual multimodal corpus generated from a translation dataset. It contains 10 million images, 32 million English and German captions with varying levels of detail, as well as 105 million translation pairs from English to German, French, Spanish, Chinese and Russian. This dataset is constructed to test the systematic generalization capability of models on image captioning tasks.

提供机构：

德国弗劳恩霍夫IAIS研究所

创建时间：

2025-03-12

搜集汇总

数据集介绍

构建方式

Florenz 数据集的构建旨在研究单语视觉语言模型（VLMs）在多语言任务中的系统性泛化规律，特别是模型规模和训练样本数量对泛化的影响。该数据集结合了预训练的 VLM Florence-2 和大型语言模型 Gemma-2，并使用不同的计算预算在合成数据集上进行训练。合成数据集的特点是故意不完整地覆盖语言，用于图像描述任务，从而测试从完全覆盖的翻译任务中进行泛化的能力。

使用方法

使用 Florenz 数据集时，研究人员可以探索不同规模的模型如何在不同语言任务上进行泛化。通过对模型进行微调，研究人员可以进一步优化其在特定任务上的性能。此外，数据集的构建方法还可以用于生成其他具有类似特性的数据集，以研究模型泛化的规律。

背景与挑战

背景概述

Florenz 数据集的研究背景在于探索视觉语言模型（VLMs）在多语言任务中的系统性泛化能力，特别是在模型大小和训练样本数量对泛化能力的影响。该数据集由 Julian Spravil、Sebastian Houben 和 Sven Behnke 等研究人员创建，旨在解决现有多语言模型在跨语言任务中性能下降的问题。Florenz 数据集通过在一个包含不完整语言覆盖的合成数据集上进行训练，测试了模型从完整覆盖的翻译任务中进行泛化的能力。该数据集的研究结果对多模态机器翻译、词汇消歧和图像描述等领域产生了深远的影响。

当前挑战

Florenz 数据集面临的挑战主要包括：1) 如何在训练数据中实现系统性泛化，即模型能够在没有直接训练数据的情况下，通过学习已知的任务-语言对来泛化到未见的任务-语言对；2) 如何构建一个能够有效解决词汇歧义问题的数据集，尤其是在翻译短文本时缺乏上下文的情况下；3) 如何通过数据生成管道和模型设计，使得图像描述能力能够在特定语言中涌现，即使只有翻译任务的数据可用；4) 如何在有限的训练数据下，通过模型规模的增加来提高模型的泛化能力。

常用场景

经典使用场景

Florenz数据集主要用于研究视觉语言模型(VLMs)在多语言任务中的系统泛化能力，尤其是在没有特定语言训练数据的情况下，模型如何通过学习其他任务的翻译能力来间接学习未见过的任务-语言对。该数据集通过在图像字幕和跨模态机器翻译任务上进行训练，测试了模型在特定语言中生成字幕的能力，即使只有翻译任务的数据可用。

解决学术问题

Florenz数据集解决了视觉语言模型在多语言任务中面临的挑战，例如多语言能力的诅咒，牺牲下游任务性能以换取多语言能力，以及处理词汇歧义。此外，该数据集还研究了模型规模和训练样本数量对系统泛化能力的影响，为多语言数据集的创建和模型训练提供了重要的参考。

实际应用

Florenz数据集在实际应用场景中可以用于开发多语言视觉语言模型，使模型能够在不同语言中执行视觉任务，而无需在每种语言中进行训练。此外，该数据集还可以用于研究模型规模和训练样本数量对系统泛化能力的影响，从而优化模型训练过程。

数据集最近研究